腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 张又侠致习近平公开信 网评翻车
  2. 传张又侠、刘振立被暗杀身亡 红二代大骂习“坏了规矩”
  3. 新美联储主席为何是他?
  4. 中国政客遭入室盗窃,损失约700万欧元
  5. 【翻墙必看】中共军方高层出现根本性分歧
  6. 中共军报谈反腐避提张又侠 军队动向异常
  7. 内幕:张又侠落马当日 军方启动临战状态
  8. 张又侠落马后,中共政治局要求维护“党中央领导”
  9. 中国对英30天免签,阿斯利康在华投千亿
  10. 陈伟义投案 曾是习心腹蔡奇主政台州时旧部
  11. 美国人预期寿命:创历史新高
  12. 沙利文:张又侠与众不同 谈到中国实际对抗美国的意愿
  13. 中国转为零工经济国 民众挣扎求生存
  14. 中英达成11项核心成果,英国人可免签入华
  15. 分析:巴拿马运河判决对中共是外交挫败
  16. 巴拿马法院宣布李嘉诚合同违法 美拿回港口控制权
  17. 英首相:中国同意解除对英议员的制裁
  18. 证监会最新发声
  19. 上海访民顾国平进京上访遭行政处罚
  20. 旧金山“泛海中心”原址将建摩天楼
  21. 中共内部人士惊曝:2025年1400万人惨遭活摘器官
  22. 巴拿马最高法院裁定长和营运港口合约违宪
  23. 中生技公司“嘉必优”成为奶粉下架焦点
  24. 各国忙谈双边协议 “去中化”转向“分散美国风险”
  25. 爆张又侠官宣当日 军方启动“临战状态”习低估后果 陷入了危险
  26. 委内瑞拉签署新法 告别石油国有化时代
  27. 中共应急管理部长王祥喜缺席会议 传被调查
  28. 被骗走3.5亿,光大银行起诉一连串友商
  29. 1.8亿理财资金仅剩44万 大连银行称嫌犯失踪挨批
  30. 字母哥交易倒计时,勇士成最热下家
  31. 绕开欧盟27国一致同意,德国邀五国打造“多速欧洲”
  32. 英相游故宫无高层陪同无清场 英媒对比川普待遇
  33. 南京竹桥清晨的离奇命案
  34. 张雨绮彻底完蛋?
  35. 外媒争相追问张又侠事件 中共对内封杀消息
  36. 铠侠高管:AI数据中心正处于存储饥渴期
  37. 大陆网红周媛培训课程引发批评 被立案调查
  38. 一封误发“死亡日历”,引爆亚马逊16000人大裁员
  39. 前FIFA主席拍案:球迷别去美国看世界杯!枪口对准平民
  40. 为中国创业项目窃取AI技术,前谷歌工程师被定罪
  41. Clawdbot没有商业价值,但给“鸡肋”的AI PC上了一课
  42. 移民团体状告ICE:拘留中心不人道
  43. 英国首相检阅仪仗队“尴尬一幕曝光”李强急出手扶他
  44. 欧洲天然气价格狂飙38%
  45. 大陆知名手办工厂遭故意纵火 部分产品被烧毁
  46. 两党妥协暂时避免政府停摆
  47. 中国经济低迷 中年人失业备受煎熬
  48. 诈骗11亿余元,缅北徐发启案宣判
  49. 川普签令,施压加州加速野火重建
  50. 张又侠当年是怎么扶习上马再送一程的?
  51. 一念之仁,亦可嘉也
  52. “杰我睿”暴雷:有人“存”1000克黄金无法拿回
  53. 亚裔女冒充医生丰臀,致人濒死被捕
  54. 精神残障女硕士“被收留”案:男方不予起诉引发众怒
  55. 从非欧几何视角解释和改造Transformer
  56. 张又侠又一老领导去世 传其所送花圈遭拆
  57. 这个iPhone小宝能,让美国大佬们抓狂
  58. 美专家:张又侠倒台引发党内对习领导力质疑
  59. 前CNN主播莱蒙因卷入明州教堂冲击案而被捕
  60. 金晨为何只为“占用社会资源”道歉?