腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 深圳女子公交站制止吸烟 竟被带到派出所“裸检”
  2. 俄防长会见金正恩:两国关系处于前所未有高水平
  3. 砸百亿美元收购卫星公司,贝索斯杠上马斯克
  4. 枪击案发生时,坐在川普旁边的华裔女记者是谁?
  5. 督战队打到自己人! 乌军发生重大误击 多国佣兵伤亡
  6. 川普身旁的华裔女记者是谁?
  7. 川普执政警钟!亚洲供应链危机逐渐朝美国蔓延
  8. 自导自演?川普三度遭遇枪击 “摆拍”阴谋论疯传
  9. 边治国边操盘?川普狂买债股 成最受瞩目财务批露
  10. 台湾最准命理师 习的克星来了
  11. 紧盯通货膨胀数据 美联储年底前降息门槛很高
  12. 2028总统大选,白宫看好卢比欧
  13. 甲骨文老板妻子是间谍?英媒曝中国“蜜罐行动”
  14. 台湾部会首长时隔7年登太平岛主持演练 越南抗议
  15. 抵御伊朗攻击 以色列送阿联酋铁穹防空系统
  16. 中共原驻美大使李道豫去世 曾惹毛美官员 被轰出白宫
  17. 经常喊累,大脑被三事掏空
  18. 川普2年内3度遇刺
  19. ChatGPT Images 2.0:具备思考能力
  20. 白宫晚宴枪击吓坏柯克遗孀 泪流满面:我只想回家
  21. 六四37周年前夕发声 王丹:我们都不要再天真了
  22. Token经济:一场正在展开的“智能定价革命”
  23. 美国建国250周年 作家呼吁官方语言别再叫“英语”
  24. 中国民主党在时代广场纪念4.25和平请愿27周年
  25. 现代推出中国专属电动车IONIQ V
  26. 枪手问ChatGPT如何犯案 OpenAI未报警阻止悲剧
  27. 消息:意大利将涉窃疫苗中国男子引渡至美国
  28. CPO量产瓶颈:不是制造,是测试
  29. 中国综合衰落最严重的十大城市
  30. 白金汉宫确认,查尔斯如期赴美
  31. 白宫记者晚宴枪手反川普宣言曝光:赴宴者皆共謀
  32. 美印建立防务伙伴关系 意在马六甲 暗指中共
  33. 以色列狂妄,在联合国当场发难
  34. 吉林惊现超豪华“住宅式”墓地 独户两层售200万
  35. 越来越多人放弃加入美国籍
  36. 把SpaceX当提款机 马斯克如何为自己“输血”?
  37. 以色列政坛重大变局,内塔尼亚胡迎来劲敌
  38. 白宫晚宴枪手背景曝光 川普称他充满仇恨
  39. 于世洁拟任青海省属高校班子正职
  40. 女子劝阻吸烟遭拘留裸检:执法滥权刺痛法治底线
  41. 孙悦50岁复出依旧能打,丈夫身家10亿
  42. 印度裔医生去了趟地狱又折返人间
  43. 陆媒热捧本土AI技术 专家揭中国真实水平
  44. 每天吃鸡蛋和很少吃鸡蛋的人,谁更健康?
  45. 美伊谈判最新进度一次看
  46. 库克留给苹果新CEO"第一份作业",折叠屏iPhone
  47. 英国政府拟定“最坏情况预案”
  48. 失眠应视为一种独立疾病
  49. 加州11月公投,投票需查ID
  50. 民调打脸郑丽文 近6成民众反对谈“统一”能避战
  51. 中共铁路局原局长被起诉 曾被指结交政治骗子
  52. 台积电2纳米泄密案 4内鬼工程师遭判刑2至10年
  53. 白宫记者晚宴发生枪击后!川普再提宴会厅建设
  54. 伊朗仍没与美直接会谈的打算
  55. 川普转发反中国及印度移民言论引发批评
  56. 中国青年五四奖章等评选结果揭晓
  57. 轰炸中,伊朗国宝来到中国
  58. 大陆网红蔬菜羽衣甘蓝价格飙涨30倍
  59. 中国制裁欧盟实体
  60. 哥伦比亚公路炸弹袭击,14死38伤