腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 安吉丽娜朱莉出售加州$2450万豪宅 将移居柬埔寨和欧洲
  2. 蔡奇“卡位”儿子蔡尔津升官爆光 李强被逼墙角
  3. 一场万里“大逃杀”
  4. 中国无预警制裁日本!外务官员:蓄意外交升级
  5. 哪3种肉对心脏最友好?常吃让血管洁净!
  6. 天文学家发现以暗物质为主的新型天体
  7. 人类曾击败“它们”澳洲大脚怪尤维
  8. 两台湾人涉网络上发恐吓言论 检方起诉求重刑
  9. 美防长:委内瑞拉一役立威 中俄“绝对不敢”再试探
  10. 【翻墙必看】海南封关第五天 房价就崩了
  11. 校长不爽情妇共用 偷袭副校长 女教师全靠睡上司…
  12. 宜家中国将关闭上海广州天津等地七家门店
  13. 马杜罗夫妇皆有受伤迹象
  14. 从飞行圈视角解读美军逮捕马杜罗的极限难度
  15. 国内最大的ETF官宣更名
  16. 马杜罗被捕将曝中共三大机密?美军闪电战重创中共五大要害
  17. 葛惠明:洛杉矶中领馆外冲突事件的法律解读
  18. ICE执法致明州女子死亡 川普:系自卫
  19. 【新闻大家谈】火拼曝光 马杜罗官邸迸巴卫军覆没
  20. 马杜罗被捕 重创古巴情报机构
  21. 马斯克融资,黄仁勋打钱:百万GPU豪赌AGI
  22. 美国将“代销”委内瑞拉石油
  23. 美议员吁士兵"拒川普命令"遭记申诫,恐被降阶扣退休金
  24. 卖情报"害死10名CIA探员"!美国最恶叛国间谍去世
  25. 惊悚!大批特警闯北京医院 欲抢走病童火化
  26. 73岁好莱坞明星欠租遭驱逐 拒收10万捐款 这太丢人!
  27. 也门反胡塞联盟开除分离派领袖 指控其涉叛国罪
  28. 知情人称:美国要求委内瑞拉驱逐中俄等国官方顾问
  29. 蹭老,年轻人摸索出的新性价比生活?
  30. 泰国越南“GDP竞赛”,牵动东南亚经济格局
  31. 川普指示美国退出66个国际组织:不再符合美国利益
  32. 川普警告北约 但也承诺美将应对中俄威胁
  33. 美暂停审批另外20国移民申请 禁令扩至39国
  34. F-16V夜航失事 飞官辛柏毅坠海生死未卜
  35. 不只H200 黄仁勋:Blackwell与Rubin将及时售中国
  36. 江苏省前政协副主席王昊获刑13年
  37. 美军抓马杜罗重击中共 王毅要背锅?
  38. 华纳再次拒绝派拉蒙收购 股东支持奈飞提案
  39. 美国将另25国纳入签证保证金计划,申请人最高须缴1.5万
  40. 山东省爱副秘书长卢杰落马 郭树清、李干杰危殆
  41. 英伟达宣布下一代人工智能芯片全面投产
  42. 中国留学生德国车站遭袭,反击致对方锁骨骨折
  43. 马杜罗瑞士资产遭冻结 3年运出52亿美元国库黄金
  44. 美公布高校外资透明平台 中共资金规模受关注
  45. 中国地铁挤爆!上不来也下不去
  46. 美国人都在往哪搬?
  47. 三官员遭列“台独”清单 台湾批中共跨国镇压
  48. 白宫:川普支持者是“和平示威者”
  49. 老得慢的女人,多半养成了7个好习惯
  50. 委内瑞拉将向美移交5000万桶石油
  51. 2026年,最容易赚钱的两条方向
  52. 黄仁勋点赞三款中国大模型,英伟达押宝物理AI
  53. 普京与军人及家属共度东正教圣诞节
  54. 女子无才便是德 一句被误读的慈悲
  55. 研究发现常用家电会释放大量有害微粒
  56. 恩怨、爱恨与算计——AI巨头的2025
  57. 宜家中国确认关闭7家线下商场
  58. 93岁翁枪杀86岁妻,检方起诉
  59. 时隔22年真相大白 王祖贤首度回应息影之谜
  60. 美司法部披露布朗大学枪案凶嫌自白影片内容