腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 鲁比奥访问印度被热懵:太热了,让我长话短说
  2. 山西煤矿事故获救矿工:自救器七八分钟就没氧了
  3. 美国华裔学者:“中美之间的真正考验在11月”
  4. 伊朗:穆杰塔巴·基安,今晨被绞死
  5. 川习会再爆内幕:习点名批评两人 川普用这招回应
  6. 朝鲜队夺冠,李在明祝贺
  7. 在北京,这些人用AI做“一人公司”
  8. 伊朗总统:我们准备向全世界保证
  9. 100%预言全中 最后7个月很多人去世
  10. 新一轮HALO交易或本轮行情终结,取决于霍尔木兹
  11. 刘再复于杭州辞世
  12. 川普:不急签美伊协议 海上封锁仍有效
  13. OpenAI造芯野心,被微软卡了脖子
  14. 美伊协议引共和党内讧 克鲁兹怼川普顾问:闭嘴
  15. 6岁女孩患癌,爸妈决定为她冻卵
  16. 这两种天体 可能存在外星文明结构
  17. 多国首脑密集访华:全球重心转向北京
  18. 卢比奥:美伊谈判获进展 稍晚或宣布好消息
  19. 华为正式发表半导体领域新定律
  20. NASA卫星发布迄今最完整系外行星星图
  21. 重庆永川暴雨,致3人遇难17人失联
  22. 美军机在委内瑞拉首都搞演练
  23. 起底山西涉事煤矿:实控人是著名煤老板 亿万富豪
  24. 碳水才是“长寿密码”
  25. 美国多股激进运动合流 专家警告或削弱美对华竞争力
  26. 留神峪煤矿工人:连一双手套都没发过
  27. 伊朗准备放弃核武
  28. 华裔白宫通讯主任张振熙爆粗怒喷前国务卿蓬佩奥
  29. 张靓颖穿高跟鞋热舞时,意外摔倒
  30. Claude Code屠榜黑客马拉松:15万星
  31. 习近平掌权大限二十年?爆习明泽可代父发号施令
  32. 伊朗革命卫队据报利用阿联酋购中制军用卫星天线
  33. 武契奇抵北京:这无疑是我政治生涯中最重要访问
  34. 同是科技,A股、港股不同命?
  35. 有客户三天定下过亿豪宅,内地买家挤爆香港楼市
  36. 教宗良十四世为中国教会祈祷 亦求山西 罹难者安息
  37. 千万不要把腿搭在仪表盘上
  38. 卡戴珊家族青睐的“抗衰神药”翻车?别花冤枉钱!
  39. 西藏流亡政府受邀参加美国建国250周年招待会
  40. 如何把握本轮“鱼尾行情”?
  41. 缅北“四大家族”现状:多人被执行死刑
  42. 摩根大通:大消费将成AI和机器人的“提款机”
  43. 毒杨梅15年前已被警示,可惜他们的诡辩一以贯之
  44. 美国即将步入出行旺季 高油价下美国人还出远门吗?
  45. “朝鲜在乌克兰战争结束后会向美国伸出橄榄枝”
  46. 天津一证券从业者借账户炒股 19年亏476万
  47. 布鲁克林11家餐馆被勒令关门
  48. 川普宣称协议“基本谈成”,日经255大涨
  49. 为亡兄伸冤 维权人士郭宏英获刑逾三年
  50. 为什么越休息越累 苏轼用一首诗来揭秘
  51. 被要求隔离21天才能入美国参加世界杯 刚果队急了
  52. 卢比奥:伊朗长期资助恐怖主义 无视本国人民困境
  53. “嫁鸡随鸡嫁狗随狗”原文竟这样美!
  54. 兹韦列夫,顺利晋级
  55. 非法滞留美国的中国公民涉嫌向朝鲜走私武器获刑
  56. 广西男子持刀连捅数警 知情者曝至少3人死亡
  57. 卢比奥:美印不仅是盟友更是战略盟友
  58. 山西矿难曝出乱象 实际下井人员半数未被记录
  59. 炒过美股的人,还回得去A股吗?
  60. 中共清退30余万执法者 分析:转移财政压力