腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 川普卢比奥对张落马表态 中情局成功招募中国线人
  2. 高市早苗“将是压倒性胜利” 她所到之处人山人海…
  3. 葛莱美:女歌手太敢穿!"半裸上空" 只靠乳环撑住…
  4. 川普警告,盘点斯塔默访华争议
  5. 坏消息!美“气象神兽”土拨鼠钻出洞 宣判冬天延长6周
  6. 何恺明带大二本科生颠覆扩散图像生成
  7. 前女友举报孙宇晨,再曝其与谷爱凌恋爱
  8. 华人非法移民在意大利夺枪袭警 酿街头交火
  9. 数学家丘成桐曾牵线爱泼斯坦 推动清华建波士顿分校
  10. 中国彩电巨头被美企坑36亿,今成代工厂
  11. 爱泼斯坦与班农绝密访谈曝光 一场暗黑对话 背脊发凉!
  12. 继广西“亮证姐”后北京再出“亮衣姐” 引发热议
  13. “十五五”高校战略规划,如何避免被“正确地”淘汰?
  14. 18%关税 停买俄油…川普和莫迪都谈成了什么
  15. 北京清华大学与爱泼斯坦接触 谈开设美分校
  16. 日本从海底6000米挖出含稀土沉积物
  17. 张又侠与袁崇焕 习近平与崇祯 大比拼
  18. 女子十年前花10万买了408克金条
  19. 西班牙完成全球首例特殊脸部移植手术
  20. 4000家店倒下,“鸭脖大王”亏麻了
  21. 爱泼斯坦案情复杂,马斯克女儿出手爆料了!
  22. 川普:墨西哥将停止向古巴输送石油
  23. 当AI记住你的一切 你还剩下什么
  24. 吴国光预言:习近平下一轮将清洗“关系最近的人”
  25. 分析:海南封关 数据靓丽不等于真实开放
  26. 金价暴跌13%!这个“血洗”全球的男人,什么来头?
  27. 马斯克与川普重修旧好 捐1000万助期中大选
  28. 华盛顿邮报:白宫没法让生孩子再次伟大
  29. 江西5孩宝妈“倾家荡产”事件冲上热搜
  30. 以色列:伊朗必须同意三条“红线”
  31. “哭哭马”玩具热销 揭示中国何种真相
  32. 40岁上哈佛,想逆袭,但没成功
  33. 春天还有多远?“气象神兽”土拨鼠最新预测出炉
  34. 民运领袖朱虞夫揭中共跨国镇压机制
  35. 加州野生海豚“用尾巴走路” 游客看傻眼
  36. 金价暴跌 大陆黄金回收商单日亏百万元
  37. 爱泼斯坦单点名习近平 从“权力掮客”到中南海隐形操盘手
  38. 本届中央军委是如何被毁灭的 原来领袖不放心
  39. 加州海豚“用尾巴走路” 导游看傻:这行为太罕见!
  40. 湖南纯白银打造银楼被拍卖 每克仅6.88元仍流拍
  41. 国土安全部:明州所有一线ICE人员将配记录仪
  42. 泰国军方:柬埔寨诈骗窝点查获大量证据
  43. 为何阿尔茨海默病人 很少得癌症?科学家惊人发现
  44. 两个95后,搞出硬件版Clawdbot
  45. 看到自己的影子 土拨鼠预测冬季还有6周
  46. 大温这座主要桥梁即将大修一年半
  47. 伊朗总统下令与美国进行核谈判
  48. 【视频】两次逃离中共迫害的神韵艺术家
  49. 活体水晶与亚特兰提斯末日
  50. FT社论:美国人终于在明尼苏达划下一条红线
  51. 哈梅内伊说美袭伊朗将挑起区域战争 川普回应
  52. 纽时:川普新提名的他 可能是Fed最危险的主席
  53. 比亚迪销量降三成 股价暴跌 汽车股普降
  54. 日本900万人沦为底层阶级
  55. 张又侠被抓后 中国出现“七大异常现象”
  56. 女子在梦中看见自己一生的命运
  57. 为了这道光,越来越多人飞去摩尔曼斯克
  58. 姐弟打折卖肉,年入百亿,负债率近200%
  59. 曾有病人多次要求出院无果后自杀!记者卧底调查内幕
  60. “废除ICE”!榜莱美颁奖典礼上,多位顶流一起发声!