腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 2026中国美女主播全翻车!变妆大曝光 现场连环炸!
  2. 中国影视全毁!100万演员失业 吃不上饭!转行送外卖 摆地摊!
  3. 日本政府拟修改自卫队“官阶”名称引质疑
  4. 午夜开枪密令与差点发生的“二次六四” 回眸“4.25”
  5. 北京罕批地方官盲目蛮干 分析:相互甩锅
  6. 韩正老家宁波慈谿官员接连被查
  7. 川普:英王访美时 将讨论数位税和伊朗问题
  8. 许家印“密友”,10万亿巨坑比恒大更恐怖
  9. 美联储亏损1.5万亿,撑不下去了?
  10. 党媒称李干杰外出调研 地方媒体打脸 辽宁官员传坠楼
  11. 太神奇了!一部不存在的法规何以被引用多年?
  12. 全国十大顶奢商场排名
  13. 美国施压,近40船只与公司受制裁
  14. 美太空军斥资32亿美元 打造金穹天基拦截器
  15. 三十七天倒计时,无数人在默默牵挂于凯律师
  16. 血腥灭门案续篇 周恩来手下特工的沉浮人生
  17. 贪官落马后 狱中确诊艾滋?网传牵出36女公务员
  18. 川习会前 美制裁中国炼油巨头与数十航运商 斩伊朗金脉
  19. 曹德旺放话“关厂”,底气从何而来?
  20. 美菲军演规模再创纪录,挑动军事对抗?
  21. 新疆兵团频出事 建工集团原董事长夏建国被查
  22. 20岁何泽慧的艰难选择,鲜为人知
  23. 加州选民身份证倡议获足够签名 11月全民公投
  24. 白宫发言人请产假 传内阁轮流代职 包括川普和万斯
  25. 习捞钱套路曝光 中组部外逃官员:巡视组按指标抓人
  26. 6种女贵人相 持家旺夫
  27. 从开放到崩溃 欧洲正走向无法回头的转折
  28. 华为升腾超节点支持DeepSeek V4模型
  29. 巩俐亮相戛纳,气场碾压全场
  30. 单核带队3比0,詹姆斯继续书写伟大
  31. 这2种饮料千万别混着喝
  32. 真子公主带孩子“逃亡”到美国乡下
  33. 中国留学生支持清零回国 被公安带走 认清中共
  34. 涉橙县数十起罪案 25名墨西哥黑手党成员被捕
  35. 古籍中的有趣常识——仲夏五月
  36. 美国财长:川习峰会意在“稳定”关系
  37. 全面进攻共和党!美民主党宏大计划曝光
  38. 云南昆明突遭强冰雹袭击 网友形容如灾难片
  39. 吃海鱼还是淡水鱼? 哪个更有营养?
  40. 这道中国菜滑嫩中夹点“脆” 让人越吃越想吃
  41. 美方动机引解读 美媒称白宫拟邀普京出席G20峰会
  42. AI打倒了英特尔,AI又救了英特尔
  43. 网恋“精英男友” 南京女险被诈骗185万元
  44. 瞿秋白亲弟弟为何愤而“退党”?死因扑朔迷离
  45. 中国科学院外籍院士黄铭钧辞世
  46. 印度工人头戴摄像头,边打工边教机器人抢自己的饭碗?
  47. 女大学生赴东南亚过节,成电诈“猪仔”
  48. 华裔家长提告纽约市 挑战“探索计划”招生政策
  49. 伊朗国防部:伊朗仍留存了大部分导弹能力
  50. 切尔诺贝利40年:人类集体核安全
  51. 广东工业大学教授谢胜利获“钱学森杰出贡献奖”
  52. 匈牙利新政府将调查欧尔班亲信
  53. 五角大楼附近2辆巴士相撞 23人受伤 视频曝光
  54. 婚变传闻仅4个月,42岁唐嫣有了喜讯
  55. 哈里王子突访乌克兰,身份引争议
  56. 路边死鹿被一家中餐馆捡走 冻在冰柜里 惊动警方
  57. 中国将流浪乞讨人员改为“流散人员” 引发网络群嘲
  58. 内塔尼亚胡自爆曾患前列腺癌,为战争隐瞒病情
  59. 美国务院发言人悬缺数月 副发言人“扶正”
  60. 伯克利大学生宿舍区坠亡事件:21岁华裔生不幸身亡