腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 中国出口繁荣幻象的背后
  2. 在格鲁吉亚,满城尽是中国人
  3. 霍尔木兹断油危机 日本和中共做法天壤之别
  4. 悲惨 张大千之子文革卧轨断腿而死
  5. 霍尔木兹断油危机 日本为国民兜底 中共让百姓买单
  6. 首批能活到1000岁的人或已出生
  7. 比哈梅内伊更危险!同窗爆料:伊朗新领袖痴迷末日
  8. 绝望中产,逃离海南岛
  9. 微软发布Copilot Health,主打加密隐私保护
  10. 巨大的讽刺 川普和习近平照片对比
  11. 上海惊人数据曝光“生不如死” 中国年减1100万人?
  12. 牛腾宇母亲寄语陷冤狱儿子:寻找真相 永不放弃
  13. 《礼记》10大金句 教你说话的艺术
  14. 中国两会人事观察:新晋大员 将领寥落 边疆重构
  15. 什么样的石头可以承载千年的文化
  16. 屡爆婚变,吴奇隆刘诗诗现况曝光
  17. 针对伊朗核计划 美欧和中俄在联合国交锋
  18. 中共无神论学会理事杨烈病亡 年仅49岁
  19. 两个盟友被打 中共作壁上观 分析:忌惮美国
  20. 全世界必须放弃幻想了
  21. 中朝客运列车只有5节客车车厢
  22. 骇进NASA找外星人 他声称看见“非地球人类的指挥官”文件
  23. 川普:伊朗正在付出沉重代价
  24. Sam’s Club加速扩张
  25. 人大现场松弛感满满 爆温家宝全家遭软禁 元老也被囚
  26. 退役空军少将已失踪两周 专家否认与UFO有关
  27. 分析:两战争令中共武器成笑柄 美优势彰显
  28. 习近平遭讽?中国男发视频:要不是你爹,你和我一样也是农民
  29. 非洲沼泽湿地中有翼龙?“破船者”孔加马托
  30. LNG短缺,比石油更紧迫
  31. 美国国防部奢华账单曝光
  32. 武汉男做核磁被医生遗忘 困在运行机器上6小时
  33. 美自驾新创公司Nuro赴日本测试 挑战东京窄巷
  34. 以专家披露真主党袭击细节
  35. 韩国拉面杀到法国开厂,欧洲人慌了
  36. 熊猫血被盯上?贵州男孩校内失踪校方主动赔150万遭拒
  37. 港驻英经贸办共谍案开审 控方指涉“影子警察”行动
  38. 印度拟投资本土芯片制造产业
  39. 蔚来现曙光,李斌签“赌约”
  40. 被肾脏科医生拉黑的5种毁肾食物
  41. 内塔尼亚胡这句“黑话”,“暗示刺杀”伊朗新领袖
  42. 中国通过民族团结进步促进法 引发少数民族人权担忧
  43. 越来越多编外人员,被拖欠工资
  44. 中国App Store“苹果税”历史性下调
  45. 重庆技术预见与制度创新项目开始申报
  46. 中共公安权力清单成“国家秘密” 引嘲讽
  47. 男子德国强奸4名中国女性,终被法办
  48. 王友群:为什么马兴瑞“出事”迟迟不公布?
  49. 美发布中共核弹头机密报告 知情人:美方反渗透中共
  50. 美参议员警告:美国药品供应过度依赖中国
  51. 美国巨型探测器提前坠落地球 NASA称危害“低风险”
  52. 美报告揭中共核弹头管理及其弱点 专家解读
  53. 中国规模最大律所,创始人“爆雷”了?
  54. 甘肃省氨省长活动信息从官网消失 传已被抓
  55. 扎心!调查:1/3美国人为交医疗费被迫减少吃穿用度
  56. 出生公民权将作判决 共和党人再聚焦中国人生育游
  57. 被指爱泼斯坦的“中国引路人” 沈栋说“关系不密切”
  58. 联合国:当前冲突致伊朗境内320万人暂流离失所
  59. 终结700年传统 英议会投票废除上议院世袭贵族席
  60. 美情报:遭轰炸2周 伊朗领导层仍稳固 无垮台迹象