腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 山东2千学生拉横幅起义 成功逼校方取消苛制
  2. 零食包装也变黑白,死亡氛围在日本蔓延
  3. 阿联酋咋成了伊朗头号目标?
  4. 史上首次:台湾总统弹劾案未通过
  5. 拿遍大奖的导演,当了16个月部长辞职了
  6. 中科院院士方岱宁2月去世 官方延迟确认
  7. 川普不甘:要是我加税,就没台湾什么事了
  8. “指着”纽约市长 巨大竖中指雕塑正对纽约市政厅
  9. 10岁开始抗衰老,美国小孩已经被流量逼疯了
  10. 老佛爷百货北京门市即将关闭 曾是时尚地标
  11. 美债30年期关口失守后,华尔街陷入分歧
  12. 中国稀土传来重大突破 东北发现“更好挖”新稀土矿
  13. 通胀担忧下全球债市现抛售潮 成G7财长会焦点
  14. 山东汶上一中学2000学生聚集 抗议延后放学
  15. 全球第2款双座五代机,俄Su-57曝光
  16. 不降息了!这三种情况下,美联储甚至可能重新加息
  17. 六四图片展法拉盛举行 呼吁结束中共暴政
  18. 正奇未来QUORRA X5完成极寒测试
  19. 这两个新闻放在一起看,感觉特别无力
  20. 传沈阳某高校毕业多年的学生回校报复 刀杀校领导
  21. 安徽公布4起黑恶案 前警察揭警匪勾结内幕
  22. MTA与工会达协议,长岛铁路罢工落幕
  23. 妹妹遭以军扣押,爱尔兰总统发声
  24. 5.2级地震,为何致2人遇难、13栋房屋倒塌?
  25. 老板出轨女技师,送200万被妻子追回
  26. 新版星舰即将发射 SpaceX基地发生致死事故
  27. 古巴警告美国若动武将“血流成河”
  28. 日韩首脑安东峰会 加强稳定能源供应合作
  29. 苏姿丰预测:5年内,50亿人每天用AI
  30. 中国消费市场不景气持续 多个产业现倒闭潮
  31. 中国剩女4200万 男人集体觉醒!舔狗经济崩盘!
  32. 地平线前高管,做机器人底层智能
  33. 文革发动60周年 中国民主党集会:文革并未真正结束
  34. 摩尔线程以算力赋能全场景AI应用
  35. 纽约第二家市营超市落脚布朗士杭兹点
  36. 美防长神模仿川普笑翻全场 被要求“像屎一样强悍”
  37. 芝高中生被拘留,母子被关押两地
  38. 马斯克告输了,但奥特曼也“扒了一层皮”
  39. 洛杉矶“最乱”公园,吸毒、游民少了
  40. 防“纳米级下毒”?网热议:川普访华真的没吃中国菜?
  41. 广西地震 三兄弟斧劈铁门 全家11口惊魂脱险
  42. 市场对锂需求的预测过于保守
  43. 欧盟对美贸易协议敲定最终文本
  44. 疑似亚裔男攻击男童,遭通缉
  45. Anthropic反杀OpenAI,双雄独吞89%
  46. 招聘软件找对象 相亲市场找工作 精英们流行“反向操作”
  47. 伊朗股市重新开市,川普刚刚下令
  48. 高市在川普回国途中与他通话
  49. “透明卷门”法规7月上路,商家忧增成本
  50. 广西车辆坠河,致6人遇难
  51. 美东迎“超前夏天” 纽约高温飙95℉ 官方发高温警报
  52. 川普告诉习“对台政策不变” 美驻华大使:我就在现场!
  53. 泰国内阁决定取消60天免签政策
  54. 爱国者太贵!美军正开发廉价导弹打无人机 细节曝
  55. 美对伊朗祭最新制裁 含多家中港幌子公司
  56. 全网热议:盲道上演戏的网红,坑了1700万真盲人
  57. 美重量级参议员:北京若犯台将承受全面制裁与关税
  58. 美指控4中企及7高管疫情时串谋垄断货柜
  59. 伊朗被曝想将浓缩铀交给俄罗斯
  60. 普京访华代表团成员和讨论议题公布