腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 内幕:习近平狮子大开口 普京愤然走人
  2. 台湾偷偷联系乌克兰,企图“取经”
  3. 一招拿捏习近平 普京宣布重大战略转向
  4. 如果台海发生冲突 美国会不会出兵?
  5. 俄罗斯双座型五代机苏-57D有何优势?
  6. U系列国家队连续出彩,中国足球触底反弹
  7. 鲁比奥抵达印度,开启首次访印之行
  8. 山西矿难背后:一座高瓦斯矿井的三亿年地质风险
  9. 美军海马斯秀“打了就跑”战术 印太展实力
  10. 申办退休遭拒 大陆异见人士陈树庆状告人社局
  11. “这些景象让我们哑口无言” 美国防部再公布UFO文件
  12. 五角大楼再公开UFO档案 更多人怀疑政府早已知道真相
  13. 【百年真相】六次对习抗命 赵正永倒台内幕
  14. 泽连斯基放话:北约要么出钱,要么出人
  15. 世界正在进入转折时刻?五旬节的预言异象
  16. 战役几近全胜 战争赢了吗?伊朗3大现状令川普难堪
  17. 川普:美伊已基本达成协议 很快公布细节
  18. 和平分手?没那么简单 美国家情报总监离职内幕曝光
  19. 白天太阳能、晚间用电池 加州电网重塑意味着什么?
  20. F-22、F-35A双隐身战机齐聚西太
  21. 美共和党参议员:习主席简直紧张得像怀孕的修女
  22. 马克龙首提奴隶贸易“赔偿”问题
  23. 美持续增兵 逾50架加油机停驻以色列民航机场
  24. 日本16年前曾评估过中国统一台湾后对日军事影响
  25. 巴基斯坦核心人物紧急飞往德黑兰
  26. 民主党发布大选失败“尸检报告”
  27. 消息人士称美台就潜在特赖通话有接触但无具体计划
  28. USCIS推海外领馆审绿卡 移民律师析新风向
  29. 画面极其罕见:全球唯一野生白色大熊猫长大了
  30. 中国AI投资逻辑正在悄然转向
  31. FSD入华,第一个慌的不是华为
  32. 大陆女子网购iPad 说明书印“Aqqle”
  33. 黄仁勋意难平:中国市场让给中企了
  34. 2030年解放军或装备全球首支六代机
  35. 华科大承办第79届世界卫生大会边会
  36. 3万亿时代:量化私募由竞速进入淘汰赛
  37. 川普庆祝死敌节目告终 还跳起他最爱的YMCA|
  38. 五角大楼“披萨指数”突然飙升 伊朗出现异常净领空
  39. 川普变卦前,接到电话警告“这样我们会输给中国”
  40. 山西矿难下修至82人遇难 专家:不存在“黄金救援期”
  41. 专家:警惕中共利用AI认知战全面渗透台湾
  42. 爱因斯坦:这个问题是大脑的禁区
  43. APEC贸易部长会上 日中半年来首次部长级接触
  44. 福克斯新闻被爆邀“人皮面具嘉宾” 这将军脖子露馅?
  45. 大陆知名招聘网站拉勾网申请破产
  46. 加州化学储罐恐爆炸外泄 州长宣布紧急状态
  47. 马克·库班如何保值57亿美元的股票?
  48. 中科院院士周成虎被官网除名 传被查涉逾20企业
  49. 习近平掌权时间的“商界预言”
  50. 伊朗“最大内鬼”浮出水面了吗?
  51. 燃油车,真的没人买了?
  52. 遭暴雨重创 湖南石门金家河村“几乎没了”
  53. 伊朗队把世界杯训练营从美国迁到墨西哥
  54. 农村惊现“轮婚”怪象
  55. 北大校长换人 陈希老乡龚旗煌异常卸职
  56. 习近平点名高市和赖清德,川普“当场护航”
  57. 北京的指示一到,山西煤矿的遇难者翻了十倍
  58. 暴雨侵袭纽约引发内涝 女子下巴士遭洪水冲走
  59. 胰腺最危险信号,不是尿急
  60. 估值110亿美元,美国富豪们戴的戒指要IPO了