腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 全球金融市场即将迎来“超级央行周”
  2. 五一出境游,南亚断崖式下滑
  3. 中国将流浪乞讨人员改为“流散人员” 引发网络群嘲
  4. 安徽合肥市委书记费高云活动异常 传被查
  5. 中共贪官入狱确诊艾滋 牵扯36名女公务员中镖
  6. 伯克利大学生宿舍区坠亡事件:21岁华裔生不幸身亡
  7. 杨立昆用15M参数打平了万亿参数
  8. 美国猎人在加蓬被五头大象踩死
  9. 史上罕见兵力集结!美军三大航母打击群压境中东
  10. 美伊谈判有望?
  11. 下一波失业潮?美就业数据发警告 AI正瞄准这些行业
  12. 情侣花16万买房车当家,被骂“停车场乞丐”
  13. 川普第三度遭遇死亡威胁
  14. 一部不存在的法规被引用多年,为什么?
  15. 中国作家协会,还有存在的必要吗?
  16. 吃了冷藏的鸡肉后,他出现“死神之征”
  17. 播客破悬案!少女惨死44年 4恶徒落网全变6旬翁
  18. 美国催化德日军事扩张,重现二战隐忧?
  19. 小S终于说出了这件事
  20. 终于找到失散多年父亲 为争夺父爱 她直接嫁给他…
  21. 川普突取消谈判:伊朗方案“不够好” 10分钟后反转
  22. 白宫晚宴枪击嫌犯来自南加州
  23. 美舰载直升机在阿拉伯海拦截受制裁商船
  24. 鲨鱼为何不攻击潜水员?
  25. 于和伟,获最佳男主角
  26. 69岁申军谊:患脑梗4年,女儿未婚单身
  27. 国家发改委原秘书长伍浩被查
  28. 川普公开枪手姓名长相!携“多件武器”闯安检
  29. 央企信科移动2025年亏损2.7亿 已连亏八年
  30. 颜宁团队发布重大科研成果
  31. 多所高校组建辅导员学院
  32. 中国青年潘德明见到希特勒后,留下一句话
  33. 校车司机突晕倒!美国中学生高速公路上自救
  34. 民主是长寿药,投票有益健康
  35. 川普取消美伊会谈
  36. 可怕!蒙面劫匪闯豪宅 勒颈抢劫 LA富人区陷恐慌
  37. Costco礼品卡疑遭盗刷,网友吐槽维权难
  38. 中共迫害法轮功 儿子回溯母亲被折磨致死真相
  39. “泰国释永信”更多详情曝光
  40. 预警!研究揭“接吻病”致残风险 全美95%人携带
  41. 制裁见效?哈格岛快撑爆 伊朗急调老邮轮
  42. 9万藏人,投票选流亡政府
  43. 清华教授和公司董事长的“量智”共创
  44. 亲历者详述白宫安保漏洞:没人查验证件
  45. 中东战争爆发后,首批美国原油抵达日本
  46. OpenClaw又双叒更新了:正式接入了DeepSeek V4
  47. BBC:关于白宫记者晚宴枪击案,我们还知道什么?
  48. 男星遭断言“无妻无子”,当场爆哭
  49. 诺奖得主安东尼·莱格特的忠告
  50. 白宫记者晚宴枪击曝光,30岁男子闯安检站射击特工
  51. 组图:纽约法轮功集会纪念“4?25”27周年
  52. DeepSeek-V4报告暗藏10个神级彩蛋
  53. 没等到涨养老金 先等来了骗子
  54. 花11亿美金,买回一座“靶子”?
  55. 咖啡到底有害无害?为何孩子不宜饮用
  56. 中科院伍浩被查 曾任中共国家发改委秘书长
  57. 马克龙罕见川普习近平普京都在反欧洲 “该觉醒了”
  58. 最大赢家?美国每日石油出口近1290万桶创新高
  59. 当总统是危险职业!川普自嘲:早知如此"不会参选"
  60. 霍尔木兹海峡受阻 致中国南方多省电价飙涨