腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 爆料:京西宾馆枪战细节 双方几十人被击毙
  2. 张又侠如何成了习近平“死敌” 解放军报露杀机
  3. 【独家】张又侠从八一大楼被带走 北京岗哨密布
  4. 【独家】知情人:张又侠从八一大楼被抓
  5. 张又侠被关押地点流出 传军中乱成一团 军长拒表态
  6. 张又侠、刘振立案被定性分裂中央 全军沉默不肯表态
  7. 张又侠被抓大局未定?内部暗战传闻四起
  8. 70年代东北农村冬天:3件事现在想都后怕
  9. 研究揭示人类丁丁尺寸之谜
  10. 张又侠被指泄中共核武机密 引质疑
  11. 张又侠与习近平彻底决裂背后 惊天的秘密
  12. 知情人:张又侠和习斗了三年 涉价值观之争
  13. 军权之争:习近平的生死一搏
  14. 政制局长被免职传“高层大地震” 李家超否认
  15. 【翻墙必看】张又侠被抓时的反应
  16. 分析:习张在同一辆飞车上厮杀 后果会怎样
  17. 张又侠被抓大局未定?中共官网现多个异常
  18. 华人偷渡失败引爆纠纷,法院最终这样判决…
  19. 川普被拍“闭眼”开会 卢比奥:他在启动“过滤机制”
  20. 致命“尼帕病毒”将全球大流行?武毒所发现有效药物
  21. 震撼军中:张又侠被指核泄密 还是另有隐情?
  22. 五大伤肾酱料排行榜 第一名竟是它
  23. 搜索失速,AI烧钱:百度一场没有退路的“转型”
  24. 印度疫情,会失控吗?
  25. 教育自保第一县:取消中考,全员普高!
  26. 2026报税启动 白宫预期迎来史上最大退税潮
  27. 中共黑客被指曾入侵英国首相府官员手机数年
  28. 英国首相斯塔默访华,伦敦在中美之间“走钢丝”
  29. 吴佩慈安以轩们的旧式婚恋,把赌局具象化了
  30. 【心灵低语】别去踩别人丢来的泥巴 会脏自己的脚
  31. 拿下张又侠习失敢讲真话将领 军事误判风险增加
  32. PUMA变中国品牌!安踏收购近3成股权成最大股东
  33. 北约秘书长:欧洲自我防卫“根本是作梦”
  34. 美股科技四巨头财报焦点
  35. 邬君梅的妈妈原来是她
  36. 匈牙利指控乌克兰干预大选 奥班召见乌克兰大使
  37. 成都人大主任包惠及绵阳市长李云同日落马
  38. 美菲在黄岩岛附近海域举行海空联合演习
  39. 美日拟合建人造钻石厂 减少对中依赖
  40. 俗语“穷不走水,富不涉淫”“走水”原来是这个意思
  41. 嘉州监狱害死法轮功学员庞勋的凶手遭厄运
  42. 印疫情详情披露:护士误饮蝙蝠污染椰枣汁 传染同事
  43. 以女子看电视,竟发现自己“死”在伊朗
  44. 印度尼帕病毒疫情升温 中国网民忧再封城
  45. 白银急转直下,投机行情显现退潮迹象
  46. 美大使威胁:若加拿大不推进采购88架F-35战机.....
  47. 美上诉法院裁决 解除明州对ICE人员执法限制
  48. 加州州长指TikTok压制批评川普内容,启动审查是否违法
  49. ICE执法引风波 国安部长诺姆遭川普政府内部问责
  50. “军委主席复仇制” 解放军被整骨转型成伊朗革命卫队那种
  51. 张又侠被抓 专家曝动手背后盘算:安全时机
  52. 李俊杰,履新
  53. 印欧敲定“历史性”自贸协定
  54. 系统里,只有幸存 没有生存
  55. 不生孩子的韩国年轻人,花几千元送狗上学
  56. 华裔女孩竞选市长成功,而她竟是电诈园主
  57. 中国网友热搜“幼儿园长沦男家长小三” 正妻直播爆料
  58. 美人权专家:停止跨国镇压法轮功
  59. 陈逸飞de古典美女,肌肤温润如玉
  60. 高市:若日本无视台海危机 日美同盟恐瓦解