腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 张又侠蒙冤 孙绍骋“买单”
  2. 上海老太因强拆被软禁12年 遗体不知去向
  3. 骗 杀和玩玩女人也是打江山?“红色江山”来历
  4. 习近平拿下解放军二把手,川普回应
  5. 军方代表缺席政治局会议 攻台成习、张核心矛盾
  6. 川普:印度将进口委内瑞拉石油,同样欢迎中国
  7. “世界最大蜜罐陷阱” 艾泼斯坦档案普京被点名上千次
  8. 美外交特使抵达委内瑞拉 双边关系正逐步恢复
  9. 如何看待美国可能对伊朗发动攻击?
  10. 爱泼斯坦临终立遗嘱,现金钻戒小岛房产给女友
  11. 若万人不死 必“换羽重生”
  12. 张又侠落马 “习转向不开一枪就瓦解台北决心的行动”
  13. 白萝卜正上市,不可与3物一起吃
  14. 美议员反驳鲁比奥:要是美总统被掳走,我肯定支持宣战
  15. 阿拉伯国家和以色列如何看待美国可能对伊朗发动攻击?
  16. 王石发文,疑自证失联传言
  17. 川普:不久后印度将购买委内瑞拉石油
  18. 印度学者:张又侠落马直接影响中共21大
  19. 新生儿地图重绘:人口下滑重塑经济结构
  20. 沈舟:中共宣传的上甘岭战役不在上甘岭
  21. 阎罗王错抓了老人 葛老爷子死而复活
  22. 小米汽车进军美国?
  23. 伊朗最弱时刻 以色列的沉默 是场精心计算的豪赌
  24. 美俄乌三方会谈推迟
  25. 美国女子扭脖子缓解头痛 不料随后突发中风
  26. 一场持续四十年的恶梦 最终找回前世真相
  27. 加密货币市值一夜蒸发1110亿美元,超41万人爆仓
  28. 为何伊朗监视系统难确定林肯号航母位置
  29. 从元宝10亿拉新,看腾讯“用户姿态”急转
  30. 以“四个农业”推动乡村全面振兴
  31. 泽连斯基:2月4日举行三方会谈
  32. 高市早苗身体不适,临时“放鸽子”
  33. 川普“退”了一步
  34. 福布斯中国富豪榜出炉 雷军身家超马云引关注
  35. 全球连锁餐饮品牌“门店王”取代麦当劳
  36. 2026大逃亡 富豪全球造地堡 普通人怎么办?
  37. 中国人大代表巴黎家中遇袭遭窃 损失高达700万欧元
  38. 美俄乌三方会谈时间敲定
  39. 川普宣布:白宫草坪看格斗,首都街头飙赛车
  40. SpaceX计划部署100万颗AI算力卫星
  41. 中美最新财报中的行业配置线索
  42. 河南省科技厅公示一批项目受理情况
  43. 一边赚钱一边收割,苹果如何能在中国"两头通吃"?
  44. 比尔·盖茨否认爱泼斯坦电邮指控,称内容"荒谬且完全不实"
  45. 姚笛首演话剧,颜值演技都能打
  46. “不患寡,而患不均”的农村养老金!
  47. 白银跌倒,光伏能否吃饱?
  48. 这国让50万无证移民就地合法
  49. X负责人爆:中国局势不稳时 就会散播大量色情洗版
  50. 偷拍新疆拘留营 中国公民记者“润”美获庇护
  51. 狂撒10亿红包,腾讯坐不住了
  52. 猛涨6000亿,紫金矿业又拿下4座金山
  53. Andrej Karpathy:15万个全自动AI Agent“前所未见”
  54. 绍伊古抵京会见王毅
  55. 黄仁勋否认搁置千亿美元OpenAI投资,斥报道胡说八道
  56. 米勒力压温班亚马,黄蜂6连胜入袋
  57. Space X IPO——史上最大造富事件
  58. 以色列空袭卡萨酿32死,大多数是儿童和妇女
  59. 古训“宁惹武松 别惹林冲”啥意思?
  60. 余茂春:军委副主席难为 1949以来已9人遭清洗