腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 军队不甩习近平 张又侠受“响箭”保护不可能出事?
  2. 张又侠落马网络炸锅 中国正发生政变?
  3. 墙外“恶意寻将张又侠” 墙内“恶意寻子叶文斌”
  4. 实战派张又侠刘振立落马 分析:重创中共军力
  5. 中共军委副主席张又侠被立案审查 网评翻车
  6. 加拿大卡尼“反霸凌”演讲“捅了马蜂窝”,川普怒了
  7. 张又侠落马对台湾有何影响?专家分析
  8. 医生希望你别再相信的9个健康“常识”
  9. 远古曾有巨兽战争?雷鸟与鲸鱼的大战
  10. 为何说“宁娶从良女,不娶过墙妻”
  11. 法国送货员3年骗了11万欧
  12. 大叔这一背暖哭全城
  13. 川普政府解雇2个涉华官员,负责应对“中国威胁”
  14. “平头哥”单独上市?
  15. 分析:中共加速清除裸官 泄政权倾覆焦虑
  16. 党为刀俎民为鱼 为救孩子民众吁“孟加拉式”
  17. 美国、罗德里格斯兄妹与委内瑞拉权力重组内幕
  18. 泽连斯基狂喷欧洲“迷失方向”:不能再指望美国
  19. 七院士密集病亡 全是中共党员 含三名军工专家
  20. 消息:美考虑新策略 推动古巴共产政权垮台
  21. 全球银库快被“掏空”了?
  22. 巴西对中国人免签
  23. 北京政变传闻再起 “局势随时突变”
  24. 川普撤回卡尼加入“和平委员会”的邀请
  25. 卢拉宣布:巴西对中免签
  26. 张又侠落马 现役上将只剩4人 共军元气大伤
  27. 全球“镍矿和不锈钢老大”进军铝业和电池
  28. 嫦娥6号挖到月球黑科技
  29. 搭机穿哪几类服装 有可能被请下飞机
  30. 是谁抓了张又侠?外界流传不同版本
  31. 担心美军空袭 传伊朗最高领袖已藏身地下
  32. 张又侠落马 被指中共版“纳粹长刀之夜”
  33. 每天吃花生酱 会发生哪六件神奇事?
  34. 张又侠落马 分析:中共内讧激烈 元气大伤
  35. 黄仁勋2026年首度来华,参加英伟达新年晚会
  36. Netflix再提收购华纳新方案
  37. 越南之变
  38. 学费暴跌15万,招生反而更难了?
  39. 说好的“AI革命”,怎么就带不动手机销量?
  40. 从天而降的奇闻 不该死的却死了
  41. “甜蜜天后”王心凌爆演出事故
  42. 重庆讨薪者与保安爆冲突 山东工人跳楼讨薪
  43. 张又侠被查 传因未能第一时间向党领导汇报
  44. 实锤!中国宣布调查解放军最高级将领张又侠
  45. 对生命的体验,不能只有入口
  46. 美元全球支付占比创新高 人民币降至2.7%
  47. 张又侠成自六四以来被清洗的最高中共将领
  48. 被造谣力挺闫学晶,老艺术家哭了
  49. 我检测了爱新觉罗家的DNA,发现了流言背后的秘密
  50. 冬天穿短裙,6大御寒绝招兜底
  51. 中共军委副主席张又侠落马 引外媒关注
  52. 卡尔美成为印尼国家足球队官方合作伙伴
  53. 嫣然天使儿童医院捐赠名单曝光,邓超、孙俪在列
  54. 女游客退房,网友纷纷留言
  55. 从匈牙利到伊朗的美国抉择
  56. 男子生病留遗书徒步回老家,病好了
  57. 越共中央政治局,“新面孔”接近一半
  58. 中共军头双双落马 中共军内危机全面浮现
  59. 法国军用无人机工业崛起
  60. 为何泰勒·斯威夫特能迷倒全球歌迷