腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. “拼桌吃年夜饭”、“反向春运”越来越蔚然成风
  2. 胡力任:张又侠或处于濒死状态 爆习近平修宪原因
  3. 谁会是习近平下一个清洗目标?“北京学”再度兴起
  4. 春晚的两个版本 灰烬与多少宇宙的段落
  5. 《为什么这么多人恨透了习近平?》网文火了
  6. 中方承诺向乌提供新的人道援助 战略意义大
  7. 过年租对象回家,律师提醒
  8. 中国正打击日本的痛处,但高市早苗会屈服吗?
  9. “反向过年”爆火:中国人的春节,正在巨变
  10. 美国将向菲律宾部署更多的先进导弹系统
  11. 幸田来未宣布:取消香港演唱会
  12. 不想血管破裂,尽量少吃4物
  13. 血栓大户被发现,是肥肉的数倍?
  14. TP-Link涉允许中共访问美设备 被德州起诉
  15. 华裔老太撞死高管一家,仅缓刑+吊照
  16. 女国安部长被曝与下属有不当男女关系?川普回应
  17. 全球资产深夜大跌 美股半导体股下挫 白银失守…
  18. 再有两官员妄议中央落马 传北京官场热议习近平
  19. 除了掏空积蓄供孩子进城读书,农村父母没有第二条路
  20. 男子潜逃16年,因看冬奥落网
  21. 超详总结:从零搓出一个ClaudeCode
  22. 跟沈腾搭戏的“铁哥们儿”:5分钟挑战了5个绝活儿
  23. 希拉里控川普政府掩盖文件:把证据拿出来
  24. 戳破美欧幻想:鲁比奥万斯本质上无区别
  25. 川普邀功:高市说“会当选都是我的功劳”!
  26. 一颗小行星,可能摧毁一座城市
  27. 春晚机器人,急着“争”什么?
  28. 川普喊话乌克兰:快回去!
  29. 与艾泼斯坦往来书信曝光 凯悦饭店董事长请辞
  30. 传中共国经中心涉贪 “超级智库”地位不保
  31. 从取消活动管窥国安红线:涉反修例者续被针对
  32. “加拿大牵头,要建立超级反川普贸易联盟”
  33. 新年趣题:十二生肖里为啥没有猫?
  34. 中国导游带团逃票行贿 卢浮爆损失超千万美元
  35. Sonnet 4.6操作电脑接近人类
  36. 沈腾回应“说错词”:打了半宿掼蛋
  37. 秋游捷克:布拉格的经典与随意
  38. 日踩8小时缝纫机,监狱工资多少?
  39. 孩子腿痛是长高还是生病?一招辨别生长痛征兆
  40. 巨大争议 华裔老太撞死高管一家 迅速转移财产 仅缓刑+吊照
  41. 史无前例!美军中东集结12艘战舰 卫星追踪揭示空前军事部署
  42. 千年古桥千年河——京杭之上宝带桥
  43. 王毅再批日本
  44. 涉销售非法产品及成瘾性设计 Shein遭欧盟调查
  45. 团拜会死气沉沉 习极度恐惧?五政治老人缺席释信号
  46. DHS停摆第四天!民主党人提交新提案 僵局料持续
  47. 昨夜,为何不见岳云鹏?春晚的残酷在于…
  48. 韩红养了他26年,如今怎样?
  49. 千年龟兹壁画,在春晚“活”了
  50. “沈腾说错词”冲上热搜 本人:自责 打了半宿掼蛋
  51. 爱波斯坦曾痴迷建“后宫”?“后宫”成高频词
  52. 伊朗对美抛出筹码:石油、矿产、飞机采购都能谈
  53. 日媒:中国上千渔船2度集结成“墙” 威吓常态化
  54. 俄乌日内瓦会谈首日结束 亲俄人士:气氛非常紧张
  55. 川普发文贺春节 赞“马之特质” 伊万卡提“火马年”
  56. 官媒:相声没有上春晚,大可不必过度解读
  57. 冰球赛枪击案 56岁跨性别男在儿比赛时 杀前妻一家
  58. 曝2公主卷爱泼斯坦案 安德鲁前妻还求淫媒:娶我吧
  59. 美滑冰场枪击3死3伤 观众受惊四散 疑因家庭纠纷
  60. 16年的追逐 41岁美国妈妈冬奥摘金创历史