腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 大陆网络传 “告全国人民书”吁全军全民起义
  2. 爆料:张又侠被抓后 军官纷纷辞职
  3. 习“斩首”张又侠爆恐慌 中国处历史巨变拐点
  4. 李东生把3800亿巨轮交给了爱将
  5. 张又侠落马 中共政局陷入拐点 专家解读
  6. 14年大清洗 张又侠落马 中共军委决策层遭团灭
  7. “眼神给出去”周媛被群嘲,撒娇女人还好命吗?
  8. 美法官阻止川普政府终止8400名移民合法身份
  9. 有“搭子”的年轻人,为何怕“死了没人知道”?
  10. 张又侠落马 与美军抓马杜罗有关?
  11. 【翻墙必看】张又侠刘振立预谋对习动手失败
  12. 张又侠落马,震撼世界!传军委已功能性瘫痪
  13. 特斯拉拍到正妹网红被绑架过程!惊动美国务院
  14. 深圳理工大学新增2位“荣誉学长”
  15. 张雨绮录辽视春晚遭抵制
  16. 中国调查解放军最高级将领张又侠,官媒批其"造成极大破坏"
  17. 夏洛山:美国全球拒止战略与台海安全结构重塑
  18. WSJ为川普1.5万亿军费背书:远低于与中国开战成本
  19. 分析:习曾被张又侠架空 马兴瑞被查引发反击
  20. 上海惊现出国潮!中国注销户籍!
  21. 男孩为“还债”创业,俩月赚6千
  22. 泽连斯基向盟友要求更多防空支持
  23. 千万别被骗 她看到2026-2027能活下来的人
  24. 张又侠像极了第二个林彪 崩溃路上狂奔的中共
  25. 暴风雪后长时间停电或导致严重后果
  26. 黄金价格逼近5000美元!美银给震撼目标价
  27. 超市抢空 上万架次航班取消 22州紧急状态 中领馆提醒
  28. 冬奥选手变FBI十大通缉犯!遭悬赏重金后主动投案
  29. 美重大冬季风暴即将来袭 逾8000趟航班停飞
  30. 海南大学三大二级单位同步挂牌
  31. 明尼苏达数千人抗议ICE
  32. 1991苏联解体 黑色幽默“翻车现场”
  33. 川普爆料:美军出动神秘武器 零伤亡活捉马杜罗
  34. “总统会把你驱逐!”佛州民主党众议员遭川粉攻击
  35. 超大版寒假练习卷火出圈 家长曝奇效:做完一套还想做
  36. 巴基斯坦卡拉奇商场大火 增至67死 约70人失踪
  37. 缅甸大选,毫无悬念
  38. 颜值高低和玩游戏有关系?
  39. 霍诺德徒手攀爬台北101,困难在哪?
  40. 梅洛尼:强烈愤慨,决定召回大使
  41. 全面封锁石油 传推翻古巴政权今年“100%会发生”
  42. 开国上将之子张又侠落马!与习近平关系被深挖
  43. 冬天洗澡“偷点儿懒”,反而对身体好
  44. 旅日大熊猫将返还中国,大批民众送别
  45. 美国小城多年谜团:河面木头上有3辆自行车
  46. 美TSA公布2025年在机场查获的奇特违禁品排行榜
  47. 日本数千粉丝向大熊猫道别
  48. 川普的“中选经济强心针”
  49. 央视一姐拒家乡37年内幕曝光
  50. 龙珠40周年纪念视频公布
  51. 光学领域垂直大语言模型在沪发布
  52. 世界防治麻风病日:穷人的疾病缺乏关注
  53. DeepMind CEO:AI投资越来越像“泡沫”
  54. 高市内阁支持率暴跌10%
  55. 张又侠被抓 数千军官面临被整肃
  56. 歼10CE竟把阵风打下来了?
  57. 海南封关1个月 物价飙升!
  58. 寒流来袭覆盖2亿人 专家:这5类物品别留在车内
  59. 纽时专栏曝:台湾才是美国战略命门 不是格陵兰!
  60. 陈汉典大婚,新娘惊人财力曝光