腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 中共多系统官员密集被查 知情人爆内幕
  2. 为阻挠神韵演出 中共恐吓6位国家领导人
  3. 恶意破坏?传北京至上海、广州多条铁路10万螺丝丢了
  4. 毛新宇罕见“造反”挺又侠为哪般 莫非摘毛像传闻是真
  5. 分析:习“搞不定”张又侠 无力阻止习家军被清洗
  6. 清华教授任剑涛火爆演讲:皇帝制度为何卷土重来
  7. 市长白宫斡旋,哥大被捕女学生获释
  8. 西沙对峙三外舰47小时 长沙号主副炮挂弹 导弹通电
  9. 你的婚礼搭子,恐怕又要涨价了
  10. “长大后,我把爸妈送进新东方”:俞敏洪盯上3亿老年人
  11. 从维特根斯坦看大模型的演进
  12. 人行出手 抑制人民币升值 时隔三年重启逆周期调节
  13. 宁夏厅官王正儒落马 被疑为前高官王正伟弟弟
  14. 万人大厂宣布裁员 40%:利润在涨,人却多余了
  15. 黎智英上诉成功 撤销欺诈案定罪与判刑
  16. 高市早苗的崛起对中国和世界都将产生深远影响
  17. 巴基斯坦宣布对阿富汗发动公开战争 双方激烈交火
  18. 船遭遇风暴漂流 意外抵达阴间的“鬼国”
  19. 62岁叶童和胡可陈妍希看秀引关注
  20. 朝鲜罕见“无武器阅兵” 金正恩放软为川普留空间?
  21. 布兰妮发布“癫狂”热舞视频
  22. 美国将调查撤销中国永久正常贸易地位的影响
  23. 美国1月核心批发价格上涨0.8% 超预期
  24. 中国资金大量涌入AI领域,但芯片生产仍面临瓶颈
  25. 女儿遗体被非法移民藏垃圾箱 母亲谢川普帮助
  26. 中共人大罢免九上将 张又侠案成烫手山芋
  27. 习近平重回邓小平路线?
  28. 节后不想上班?这不是懒也不是病,而是...
  29. 县城“回血三件套”,富养多少返工年轻人
  30. 最新解密!卫星图像显示中国正加速扩充核力量
  31. 成都小米SU7碰撞起火烧死车主案 律师曝细节
  32. 海南省级公路未用先塌 中共“豆腐渣工程”祸害全球
  33. 万斯:就算打击伊朗,美国也绝无可能陷入持久战
  34. 太平间里躺了三天又活过来
  35. 美中非洲矿产争夺战 专家指暴露中共战略软肋
  36. 人行出手,抑制人民币升值
  37. 新华社公布最新禁用词 不得用“两岸三地”“中台”
  38. 南京张治中故居原址洋房6600万法拍
  39. 关店102家后,被“消化”的西贝员工
  40. 一场迫在眉睫、却被硅谷长期忽视的台湾芯片灾难
  41. 县城里的AI革命:抢红包、识花草、解心结
  42. “霍金与比基尼女性同游照”现爱泼斯坦档案
  43. 美军激光误击“自家”无人机 川普政府挨批无能欠沟通
  44. 马兴瑞落马传闻不断 新疆政法高官接连被查
  45. 甘肃家族大年初三公路祭祖遭车冲撞 多人死伤
  46. 萝莉岛还是爱泼斯坦岛?别让文艺变成性剥削的帮凶
  47. 欧洲领导人希望减少对中美的依赖,商界却不这样想
  48. 王友群:习军中第一个大秘秦生祥真出事了?
  49. 两会前夕军中持续震荡 习近平开始逼宫自己
  50. 父母都不敢告诉你 广西文革之恶超出了界线
  51. 四川大桥螺丝一踢就掉 官方回应引批评
  52. 法官裁定白宫新宴会厅工程可继续施工
  53. 习近平对默茨示好,但分歧仍难以弥合
  54. 巴基斯坦向阿富汗宣战
  55. 德国总理默茨杭州行会见10家中企,为何偏偏是它们?
  56. 中共干扰神韵演出 恐吓6位国家领导人
  57. 原央视主持人周涛也进军短剧圈?
  58. 美国近90年来首次出现人口净流出
  59. 全球第一大毒贩被斩首,持久战打响了?
  60. AI资金汹涌,但芯片生产仍面临瓶颈