腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 王沪宁已悄然坐大 瞧这眼神手势
  2. 中国霹雳-17亮剑,亚太制空权要变天
  3. 无一字“党的宣传”河南春晚祭出八个大字遭断播
  4. 花生是高血压的发动机?
  5. 洒泪别故乡 心系大陆苦难
  6. 高市早苗惊传送医!病情恶化 手指严重变形
  7. 10岁一见钟情,她默默守候42年
  8. 河南春晚被紧急断播 引爆舆论 中共怕什么
  9. 遭遇2连败,中国队回应冰壶违例争议
  10. 最强开源大模型除夕登场:97B参数,超越Gemini 3
  11. 吃什么“解药”能快速醒酒?
  12. 新年晚会“踏马”歌曲热传 凸显大陆民怨沸腾
  13. 厨房里的这6种调味料,是抗炎高手
  14. “迷糊大使”昔弄丢机密 今带女助理住辟邸 外交圈看傻
  15. AI圈内人士:巨大变革正在发生 人们还懵懂不知
  16. 王毅在慕尼黑会议上出言不逊 日本反击
  17. 朝鲜姑姪内斗?曝金主爱接班恐遭金与正掣肘
  18. 可怕!洛杉矶屋主身份被盗 150万房产被悄悄卖了
  19. 大年来临 江苏燃放爆竹引燃烟花店致8死2伤
  20. 习近平春节讲话紧扣"稳中求进",提"设立台湾光复纪念日"
  21. 救治李克强医生带证据出逃 四九年中共“解放”真相
  22. 加拿大超市售卖中国课本,各科目齐全
  23. 全球华人庆新年 日首相高市早苗送祝福
  24. 棺木传来声响 死而复生的2件案例
  25. 高市早苗除夕繁体中文拜年 马年祝福曝光
  26. 集体杀跌,资金全线撤离:发生了什么?
  27. 她首次完整披露被爱泼斯坦虐待经历
  28. 罗翔被逼退场,而牢A在爆火!正在发生什么
  29. 一年的最后一天 再为润人和留学生群体说句公道话
  30. 加州一珠宝店遭劫 店员奋起与持枪歹徒搏斗
  31. 高盛:对冲基金抄底亚洲市场
  32. 波导股份,何时找回“战斗力”?
  33. 内塔尼亚胡:伊朗须拆除核设施,否则支持空袭弹道导弹设施
  34. 研究揭:维生素D可能是长寿新关键
  35. 日本第4季度GDP成长0.1%
  36. 川普:对台军售将很快作出决定
  37. 表面神气十足,内里一塌糊涂
  38. 揭故宫假画被封杀40年 91岁学者隐居深山 活出纯粹灵魂
  39. 没有川普的慕尼黑 “影子”却无处不在
  40. 德州教育代金券项目开放两周 收到十万申请
  41. 81岁李谷一,再次缺席春晚
  42. 中方承诺向乌提供新的人道援助 战略意义大
  43. 不想血管破裂,尽量少吃4物
  44. 血栓大户被发现,是肥肉的数倍?
  45. 史上最长春节档,张艺谋、沈腾、吴京谁能赢?
  46. 告别“码农”时代?马斯克称“就在今年年底”
  47. 再添1银!比爱凌获自由式滑雪女子大跳台银牌
  48. 2026央视马年春晚节目亮点:细数这10个名场面
  49. 机器人全面入侵春晚 网友吐槽:人味没了
  50. 川普令联邦应急署介入波托马克河污水事件
  51. 中共官场“妄议”成风 传闻四起 习权威崩塌
  52. 中国澡堂华丽转型 被年轻人追捧 增长最快
  53. 鲁比奥批“无国界世界”:我们为此付出惨痛代价
  54. CBP查获一中国包裹 装有市值30万美元名牌仿品
  55. 卢比奥和美驻华使领馆祝贺中国新年
  56. 远距上班让朝鲜特工渗透全球IT职位
  57. 别跑空!总统日营业与休市超市餐厅清单汇总
  58. 大陆民众给李大师拜年 表达感激和祝福
  59. 外国领导人和国际组织负责人祝贺马年新春
  60. 关于黄金——你应该知道的小知识