腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 上海市民惊现街边新立着“应急避难场所”牌子
  2. 张又侠被抓军报造反?民间炸锅
  3. 呻吟声传遍办公室!CEO大战网红女下属
  4. 传“双面间谍”骗张又侠入局 习近平“苦肉计”何卫东被献祭
  5. “整个国家都在办护照”传江浙沪粤爆出国潮
  6. 美国当局调整执法方向,只锁定已被定罪的移民
  7. 【独家】张又侠落马后 军令在基层遭抵制
  8. 意识到可能被抓 惊传张又侠提前备好的密信公开
  9. 情报传来德军开战 斯大林粗口批注后精神崩溃
  10. 分析:习张斗 源自武统台湾的野心
  11. 歼-20量产飙破千架?
  12. 习近平要下狠手了 军报重提五大死刑
  13. 张又侠被抓 党媒军方持续沉默 分析:中共危矣
  14. 习近平悬了 军报号召“换羽” 李强反常上位 全军集体噤声
  15. 张又侠落马后 官员外逃、严重内讧传言四起
  16. 永乐大典被神化 光靠这部书 明朝就能实现工业革命?
  17. 亚马逊“算总账”了:北京裁员50%
  18. 中国开绿灯批准进口H200芯片 3大巨头名单曝光
  19. 共和党提案:拟切断“非公民”联邦福利
  20. 航母打击群就位,美国提出3要求
  21. 高速铲雪车突发大火
  22. 美联储会议维持利率不变 这两人投下反对票
  23. 家庭礼仪:“菜不摆三、筷不成五、席不成六”
  24. 亚马逊凌晨3点裁员:16000
  25. 内塔尼亚胡手机摄像头被贴纸封住,原因竟然是...
  26. 孙雯案律师费成焦点 重审定于2027年1月
  27. 破“碱”重生,从一粒种子开始
  28. 宜家中国连关7店 清仓上演全武行 为抢货扭打成一团
  29. 金价破5300美元 专家谈何种情况突破1万
  30. 鲁比奥:中国“统一台湾”不会因马杜罗被抓受影响
  31. 中方发布的这个数字,让美媒惊呼
  32. 宴席散了
  33. 爆料:原中组部副部长外逃 习大清洗涉千万人
  34. 北京剩女92万!9女抢1男!
  35. 北京出大事?张又侠被抓内幕爆六大版本!
  36. 学者披露:中美卫星12月险相撞 星链大规模降轨
  37. 张又侠被拿下 传解放军“陷混乱” 爆辞职潮
  38. 铜供应警报拉响
  39. 川粉大转向"65%挺海外动武",台湾,中国支持比例曝光
  40. 云南毒红薯湖北毒蔬菜流遍多省 民众恐慌
  41. “中国牌”晶体上新
  42. 厉鬼推动日本历史
  43. 我在英国当陪审员
  44. 种种惊人巧合造就最离奇轮回故事
  45. 陕西一水井突涌60℃热水 村民忧地质异常
  46. 美墨同意就修订《美墨加协定》展开谈判
  47. 她是姜文前妻,离婚后回法国生活
  48. 灵媒帕克预言 2026天灾人祸与“祈祷”
  49. 80后、90后、00后,哪一代最惨?
  50. 淫魔爱泼斯坦案档案公布做手脚 司法部被疑阴谋论
  51. 体感温度-43°C 美国主播魔术师户外分享奇妙瞬间
  52. 弱势美元时代来临 亚币强升、金银价同步创高
  53. 三项社保基金累计结余10.2万亿元,创历史新高!
  54. NASA高空飞机机腹迫降火龙直窜!飞行员秀神级技巧
  55. 黑鹰撞客机67死!还原驾驶舱第一视角 根本闪不了
  56. 【内幕】中共军队内部普遍反对攻打台湾
  57. 那些买刚需房的年轻人:不买房,是自由还是特权?
  58. 大陆律师析张又侠案:法律是工具 权斗是本质
  59. 肝病最危险信号,不是犯困
  60. 伊朗外长:"手指已扣在扳机上",准备应对任何来自美国的攻击