腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 婚礼主持抱怨“五一零订单” 中国年轻人都躺平了?
  2. 中国海归人员被列为风险群体 遭重点监控
  3. 美国公布东航MU5735坠机前重要飞行信息
  4. 前防相:日本需分担更多防务 减轻美国负担
  5. 要想血管通畅,5种水果要少吃
  6. 十年来年轻人口减半:北京为什么留不住年轻人了?
  7. 沾染上这七种行为 会悄悄废掉你的人生
  8. 谁制造了“躺平一代”?扒一扒习近平4个重大失策
  9. 世间因果12条 信不信由你
  10. 2个月内河北秦皇岛再现海市蜃楼 目击者:非常震撼
  11. 纪念林昭去世58周年,《中国青年报》:寻找林昭
  12. 爆张又侠案将在七月官宣 分析:反习派牺牲张、刘?
  13. 荒谬的“爱国粉” 去天安门看升旗安检严过登机
  14. 吃菜籽油时,一定要注意4点
  15. ADHD的“民间偏方”有多赚钱?
  16. 川普再抛震撼弹 40基地10万驻德美军及眷属恐撤离
  17. 智库:中共助伊朗政权续命 利用其牵制美国
  18. 疫情趁乱严控,朝鲜处决暴增2.5倍
  19. 中年人婚姻的“暗疾”,流淌在生活的水面下
  20. 清朝“奴才”史论
  21. 6500吨空对地弹药等装备24小时内从美运抵以色列
  22. 广州地铁一男子乱喷辣椒水 多名乘客遭殃
  23. 中企强硬反击,将澳政府告上法庭
  24. 情感赛道变形记:关于“性商课”的揭秘
  25. 中共二名“易”姓高官相继落马
  26. 加州油价飙涨 普通汽油每加仑超过6美元
  27. 享受孤单
  28. 因为53年前颁布的法案,川普不能继续打伊朗了?
  29. 美众院长:美国未与伊朗交战 国会无需表决战争权
  30. 分析:中南海严防习身体秘密泄露
  31. 中共鼓动民间抓间谍 学者叹全民陷猜疑恐慌
  32. 川普政府为何要说对伊战争已结束?原因揭晓
  33. 中美日对比“黄金周”怎么过?差距有点大
  34. 川普考虑削减驻德美军 跨大西洋关系承压升级
  35. 江苏转业军人沈爱斌遭三次冤狱 忧再遭迫害
  36. 白宫晚宴枪击案:检方称嫌犯蓄意行凶或加重指控
  37. 逆转年龄?当生物在死亡边缘“退回”童年
  38. 张静甫被枪决,34年后其妻喊冤
  39. 美国4月ISM制造业指数52.7
  40. 乌大使:日本解禁武器出口,是“巨大进步”
  41. AI集体涨价后,打工人反而赢麻了
  42. 2500年前的异象 是反映现代的预言?
  43. 法朋甜点进驻华航 机上服务摘国际大奖
  44. 五一:当全球劳动者不愿再为战争承担代价
  45. 人生加时赛35岁去考公,等待上岸的大龄考生
  46. 美军承认难以防御高超音速武器
  47. 伊能静舌战网友,秦昊也挽回不了口碑
  48. 美英破冰的“双王会” 用幽默与血缘重塑大国关系
  49. 中国知名企业家在阿尔巴尼亚遇车祸 当场去世
  50. 美国智库揭中共如何为伊朗政权续命
  51. 六大行集体公告
  52. 浙江男子中年失业 在车内连睡7天后情绪崩溃
  53. 云南巴士被追尾侧翻多人被甩车外 致7死12伤
  54. 望帝春心托杜鹃 杜鹃花的传说
  55. 高中学历单亲妈,培养出藤校学霸
  56. 美众院通过拨款法案,国土安全部“停摆”结束
  57. “五一”假期首日热门目的地出炉
  58. 科技巨头的财报启示
  59. 美退役少将吁台湾“川习会”前通过国防特别预算
  60. 2026年度国防科学技术奖提名工作启动