腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 周新民等三名中共军工高官落马传闻坐实
  2. 纽约时报:习近平的军队大清洗对台湾意味着什么
  3. 不懂中文,已经混不进硅谷核心圈了?
  4. 美国召50国会谈 削弱中共对关键矿产垄断
  5. 我的芳华:大学毕业分配故事
  6. 韩国完了!美国正式宣布"调涨关税",外长贸易代表空手而归
  7. 蔡奇或成为习身边最危险的人 蔡、王危机迫在眉睫
  8. 川普政府已同意伊朗要求
  9. 大陆男子用弹弓沿街击碎摄像头 网民纷纷叫好
  10. 巴拿马运河港口之争 前因后果一文看懂
  11. 张又侠落马 普京心腹火速访华 习给俄吃定心丸?
  12. 百亿巨亏加高管被查 大陆康佳集团陷存亡拐点
  13. 美国AI机器人大战:GPT、Gemini、Grok
  14. 应伊朗要求,美伊谈判地点换了
  15. 维生素D可降低52%的心脏病发作风险
  16. 华男化身暗网“毒品之王” 操控百亿级黑市平台 被判30年
  17. 注意:频繁出现这6症状,可能是脑梗早期!
  18. 川普习近平4日通话内容曝 习:慎重处理对台军售
  19. 北京下令拦截护照?中国时薪跌到3块
  20. 从94岁到78岁 三位中国老人的悲惨晚年
  21. 心脏移植后继承了捐赠人的人格与特性
  22. "偏执狂"习近平?美国情报官员如何评估中共清洗
  23. 麻州四人骗取百万福利金 被川普政府起诉
  24. 就NBC女主播母亲失踪事件 川普回应
  25. 上海“国家队”正式下场收购二手房
  26. 张又侠落马后五大异常 人大会议罕见未提张刘
  27. 慎入!艾泼斯坦自缢后画面首曝光 狱警崩溃:搞砸了
  28. 大脑萎缩中年频发! 警惕4类行为太伤脑
  29. 2026火马年人民币料将升值,但北京有理由说"别太快"
  30. 美国正式宣布“调涨关税”,韩国外长空手而归
  31. 知名自媒体人刘虎被抓 律师会见受阻
  32. 川普:在移民执法上可以“更温和”
  33. 学霸暗网贩毒洗钱,被判30年
  34. 中国“人肉鸳鸯锅温泉” 外国客大赞:特别舒服
  35. 张又侠 刘振立落马 再看“多日并出”不寒而栗
  36. 史上最大 加州扫荡卖淫场所 逮600多人 超一半是嫖客
  37. 联邦小企业局祭新规 绿卡持有人待遇彻底降为外国人
  38. 投资人持续撤离科技股 那指独跌 AMD急挫超12%
  39. 霍金登“萝莉岛”画面曝 艾泼斯坦助他完成一梦想
  40. 中共军权出现“空窗期” 军委副主席缺位运行
  41. 人类不感谢他 被骂了一千年 那个乱世里的“好奸臣”
  42. 伊利夏提:中共跨国镇压 美国应强烈反击
  43. 乌克兰人开始考虑曾经不可想象的事情:放弃土地…
  44. 全美43项电价上调获批 数千万家庭迎来新一轮涨价
  45. 想当艾泼斯坦“宠物”?安德鲁不堪内幕又曝光…
  46. 四人涉当中共间谍在法国被抓 含两中国人
  47. 中国博士意大利失联新线索:身穿蓝夹克 点卡布奇诺
  48. 张又侠冤乎?中共“里通外国”铁证知多少
  49. 东京餐厅太敢:25以下不接,40以上免来
  50. 国际金银价格,强势反弹
  51. AI教母李飞飞:一个洗衣妹,去年身价涨了300亿
  52. 川普:与习近平谈农产品 能源等 很棒 漫长且详尽…
  53. 谷歌“屏幕自动化”功能细节曝光
  54. 万斯:将建立全球关键矿产价格下限
  55. 东京审判美副检察官日记首次披露 揭日本侵华罪行
  56. 35岁入行,先被考证“割韭菜”
  57. 美小企业管理局禁止非公民申请7(a)贷款
  58. 贸易战之后,中美是否又要迎来货币战
  59. 一次旅行能看多少风景?
  60. “教你取悦男人” 去上性商课的绝望主妇们 被榨干积蓄