腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 中南海惊传枪声 陆军司令李桥铭逼宫?军报连发三文
  2. 北京要出事?“春节”现四大怪象!
  3. 刘美贤父亲六四被通缉逃亡美国 陆网禁搜
  4. 过年胖一圈 饮食6个“小澳变”有助减重瘦腰腹
  5. 读懂川普最新关税措施:最新全球关税将如何运作?
  6. 张又侠出事前后传朱日和训练基地停摆 内藏侵台祸心
  7. “真相比黄金更重要” 华人盛赞大纪元新唐人
  8. 多伦多关闭3处难民庇护中心
  9. 98岁李嘉诚自己走进寺庙
  10. 比特币的“叙事”逐个崩塌
  11. 中国北方暴雪大风齐袭 多地黄沙蔽日景区关闭
  12. 冠军之路——“六四二代”刘美贤与“叛国者”谷爱凌
  13. 42名农民工讨薪三年未果,骑手春节被迫待命
  14. 古训“人到六十,两地不踏”避开才是真聪明
  15. 小酒商杠上川普关税!一路告到最高法院还赢了
  16. 洛县911系统大面积“失联”,原因竟在这
  17. 秦昊伊能静逛街,牵手互动很甜蜜
  18. 中共干扰神韵丹麦演出 法轮功中使馆前抗议
  19. 七千座石塔之谜 仙女之家的传说
  20. 年轻人过年,把洗浴中心玩成了“性价比酒店”
  21. 美国洛杉矶宣传 “不要在公交车上拉屎”,令乘客不适
  22. 这届年轻人,为了发财什么都能干出来
  23. 世界更加惧怕川普
  24. 一周一图看市场,不温不火
  25. 触目惊心 传“大年初一太多的孩子失踪”
  26. 川习会前夕美对台军售陷僵局 学者析台湾民主安全风险
  27. 张又侠被抓前后 朱日和基地停止实兵对抗演训
  28. 过年市场冷清 分析:中国人消费为何转冷
  29. 巴西股市被热捧:投资大佬重仓
  30. "以色列拿下中东没问题"?沙特14国:强烈谴责美大使言论
  31. 晨起急救:3分钟“瞬效消眼袋”
  32. 结婚就能扭转遣返令?
  33. 中国男星一年痛失3至亲“户口本剩自己” 靠AI春节团聚
  34. 中国资产管理巨头AI投资转向 集体加码Google
  35. 英媒揭乌克兰战争情报内幕 难以想像之事未必不可能
  36. 未来不是“为人创造”,而是“为AI服务”
  37. 裁定川普违法 美最高大法官:IEEPA根本没提关税
  38. 炸弹气旋袭美东 纽约等市或遇“雪中雷鸣”
  39. 川普要求奈飞开除董事会成员赖斯 否则将付出代价
  40. 纽约州22郡紧急状态!10年最强暴风雪来袭 积雪达60公分
  41. 美前副贸易代表:多国不愿激怒白宫 将遵守关税协议
  42. 谷爱凌、李方慧,包揽冠亚军
  43. 美国超市自助机器人竟索要小费
  44. 来看看宋朝的年有多热闹
  45. 刘美贤冬奥摘金 父亲分享百感交集心情
  46. 秋游捷克:布拉格的艺术与美食
  47. 智谱发布GLM-5技术细节:工程级智能,适配国产算力
  48. 伊朗革命卫队被曝已接管黎巴嫩真主党
  49. 什么是基于规则的国际秩序?它能否持续下去?
  50. 7名中国游客贝加尔湖坠湖 瞬间画面曝光
  51. 刘涛妈祖照爆火,回应堪称教科书级别
  52. 买房会带财!女入厝"听朋友话买彩券"爽中300万大奖
  53. 川普:已派出一艘大型医疗船前往格陵兰岛
  54. 老伯吃饭误吞枣核,肚大如孕妇
  55. 美国关税案终审判决书中最打动我的一段话是...
  56. 加国房市复苏遥遥无期 多伦多房价跌破百万
  57. [慎]日本“裸祭”,3人昏迷
  58. 前英伟达AMD大神将AI刻芯片上
  59. 从UFO到总统大选 跨越宗教与战争的预言时间线
  60. 这项研究可能造福猫主人以及全人类