腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 王沪宁已悄然坐大 瞧这眼神手势
  2. 新年晚会“踏马”歌曲热传 凸显大陆民怨沸腾
  3. 吃什么“解药”能快速醒酒?
  4. 王毅在慕尼黑会议上出言不逊 日本反击
  5. 回顾历届春晚十大经典小品
  6. 杭州女孩借道俄罗斯回东北:耗时5天4夜
  7. 英国男子大闹香港机场,因4粒伟哥被抓
  8. AI圈内人士:巨大变革正在发生 人们还懵懂不知
  9. 朝鲜姑姪内斗?曝金主爱接班恐遭金与正掣肘
  10. 救治李克强医生带证据出逃 四九年中共“解放”真相
  11. 中方承诺向乌提供新的人道援助 战略意义大
  12. 过年租对象回家,律师提醒
  13. 谁会是习近平下一个清洗目标?“北京学”再度兴起
  14. 幸田来未宣布:取消香港演唱会
  15. 川普:对台军售将很快作出决定
  16. 表面神气十足,内里一塌糊涂
  17. 她首次完整披露被爱泼斯坦虐待经历
  18. 高市早苗除夕繁体中文拜年 马年祝福曝光
  19. 美国将向菲律宾部署更多的先进导弹系统
  20. 再有两官员妄议中央落马 传北京官场热议习近平
  21. 男子潜逃16年,因看冬奥落网
  22. 超详总结:从零搓出一个ClaudeCode
  23. 中国正打击日本的痛处,但高市早苗会屈服吗?
  24. 不想血管破裂,尽量少吃4物
  25. 血栓大户被发现,是肥肉的数倍?
  26. 一年的最后一天 再为润人和留学生群体说句公道话
  27. 告别“码农”时代?马斯克称“就在今年年底”
  28. 牢A继续喷:日本属于“短生种文明”
  29. 罗翔被逼退场,而牢A在爆火!正在发生什么
  30. 美国务卿和防长撰文:开启武器销售新模式
  31. 一颗小行星,可能摧毁一座城市
  32. 饶毅:晚辈如何给长辈拜年
  33. 法国放宽射杀狼群规定
  34. 关于黄金——你应该知道的小知识
  35. 罗斯福送琉球,蒋介石为何说“不”?
  36. 2026央视马年春晚节目亮点:细数这10个名场面
  37. 揭故宫假画被封杀40年 91岁学者隐居深山 活出纯粹灵魂
  38. 中国澡堂华丽转型 被年轻人追捧 增长最快
  39. 德州教育代金券项目开放两周 收到十万申请
  40. 传中共国经中心涉贪 “超级智库”地位不保
  41. 川普促乌尽速与俄达成协议,双方分歧大
  42. Grok疑生成性深伪影像惹议,被监管机构盯上
  43. 春节饺子话团圆,这样搭配营养加倍
  44. 过年发红包啦 10个小细节更添喜庆
  45. 年兽是海怪?赶走它竟是一位神秘老人
  46. NASA资助研究依赖中国涉军工实体?
  47. 史上最长春节档,张艺谋、沈腾、吴京谁能赢?
  48. 再添1银!比爱凌获自由式滑雪女子大跳台银牌
  49. 机器人全面入侵春晚 网友吐槽:人味没了
  50. 中共官场“妄议”成风 传闻四起 习权威崩塌
  51. 石油 采矿 飞机采购…美伊谈判 伊朗愿意让步什么?
  52. 没有川普的慕尼黑 “影子”却无处不在
  53. CBP查获一中国包裹 装有市值30万美元名牌仿品
  54. 远距上班让朝鲜特工渗透全球IT职位
  55. 春晚的两个版本 灰烬与多少宇宙的段落
  56. 史无前例!美军中东集结12艘战舰 卫星追踪揭示空前军事部署
  57. 千年古桥千年河——京杭之上宝带桥
  58. 红袍现身镇除夕 那一夜年兽退去
  59. 从取消活动管窥国安红线:涉反修例者续被针对
  60. 川普邀功:高市说“会当选都是我的功劳”!