腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 中南海惊魂 丢失“后门钥匙” 斩首行动更易如反掌
  2. 丹麦尴尬,"抵制美国代价高昂,却眼睁睁看着格陵兰离开"
  3. 川普下令制定入侵格陵兰岛计划,遭军方抵制
  4. 美军神秘武器?传委国士兵"集体吐血倒地":像脑袋爆炸
  5. 新疆大发现,突破40年纪录
  6. 美军从委内瑞拉获取中共防空“万用代码” 中俄雷达变废铁!
  7. 员额制十年:沉默的心与未凉的血
  8. 日本恐“一夜之间”拥有核武!拜登曾警告习近平…
  9. 伊朗抗议:死亡人数持续上升 美以公开声援
  10. 两俄罗斯人竟因这事在中国被捕
  11. 美军空袭"伊斯兰国"目标,至少有4枚“战斧”似乎未能引爆
  12. 中产“大逃杀”,正在席卷全球
  13. 美国为何要委内瑞拉石油?
  14. 46岁殷桃近照:脸又僵又肿
  15. 北京失控!房价狂跌40%!领跌全国!
  16. 男子以相同号码玩乐透20年 最终中3291万美元
  17. 皇后区治安改善,重大犯罪年减6.4%
  18. 川普宣布国家紧急状态,签政令保护委内瑞拉石油收益
  19. “委内瑞拉事务,或让鲁比奥当上美国总统”
  20. 斩杀线风云:富人无国籍,穷人无国界
  21. 抗议ICE枪杀女子 全美周末组织超1000场抗议活动
  22. 川普向古巴下最后通牒:无油无钱,赶紧谈判!
  23. 美国扩大“签证担保人”指定入境机场
  24. 河北取暖“斩杀线” 无数老人冻死
  25. 私人医生李志绥曝毛泽东最大嗜好 “鬼混女人”
  26. 伊朗局势白热化,川普将听取美方方案
  27. 消息:川普正权衡对伊朗军事干预的方案
  28. 美将开多国会议 聚焦加快减少对华稀土依赖
  29. 从委内瑞拉被抓至美关押逾1周 马杜罗首度发声
  30. 高市回应中方管制:不可接受
  31. 比尔·盖茨2026年度致辞全文:乐观展望及附加条件
  32. 日产Aura Nismo RS概念车首发
  33. “死了么”App登苹果付费榜首 取名引争议
  34. 老乡鸡交出冲刺港股的第三份招股书
  35. 美军抓捕马杜罗 白宫秘书曝声波武器实战细节
  36. 缅甸政变后首次大选 进入第二轮投票
  37. 供不应求,悉尼“姻亲房”房租暴涨
  38. 德国民调:对委动武后美国形象跌至新低
  39. 智利的“魔法谷”岩画上的神话与外星之谜
  40. CES2026揭示的AI三场变革:从眼镜到机器人,从家庭到工业
  41. “死了么”走红,独居风险不容忽视
  42. 单日游客破万,澳知名景点不堪重负
  43. 丹麦首相警告美国勿要终结战后秩序
  44. 缅甸宣布已炸毁"KK园区",635处诈骗据点被夷为平地
  45. 加州全境实现100%“零干旱”
  46. 伊朗警告川普!扬言报复反击美以基地,以色列高度警戒
  47. 流鼻血后,第一要做的不是仰头
  48. 2025年中共对台认知作战 国安局揭中共认知战5手法
  49. 伊朗血腥镇压!抗议民众"尸体塞爆停尸间"只能堆祷告室
  50. 川普已听取打击伊朗新方案的简报
  51. 农民日报:河北农村取暖问题,不能再耽搁了
  52. 习特使唐仁健贪腐内幕 古玩商成其“白手套”
  53. 马杜罗通过儿子表示,他在拘留中心一切安好
  54. 她创造两项金球奖历史纪录
  55. “川普认真考虑打击伊朗”,方案细节披露
  56. 武装民兵正四处搜查美国人 美使馆吁公民立刻离境!
  57. 多人被骗,论文发表需认准正规渠道
  58. “死了么”创始人:计划100万出让股份
  59. 川普再次威胁古巴
  60. 太空实验室:赴星程,启新知