腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 中共代理人接连现形 姚诚“逃离”美国为哪般
  2. 内幕:习近平狮子大开口 普京愤然走人
  3. 一招拿捏习近平 普京宣布重大战略转向
  4. 如果台海发生冲突 美国会不会出兵?
  5. 俄罗斯双座型五代机苏-57D有何优势?
  6. 台湾偷偷联系乌克兰,企图“取经”
  7. U系列国家队连续出彩,中国足球触底反弹
  8. 鲁比奥抵达印度,开启首次访印之行
  9. SpaceX第三代星舰发射,飞船成功释放星链模拟器
  10. 美严限非移民签证境内转绿卡 律师:影响巨大
  11. 申办退休遭拒 大陆异见人士陈树庆状告人社局
  12. 美军海马斯秀“打了就跑”战术 印太展实力
  13. 黄仁勋新一季财报背后:他有了新“皮衣”
  14. 人们猎杀14万只山羊,残忍的背后是一场拯救
  15. 只能卖、不能买?内地人炒港股面临史上最严监管
  16. 世界正在进入转折时刻?五旬节的预言异象
  17. “喜剧教父” 黄百鸣在香港被法院定罪,原因竟是...
  18. 五角大楼再公开UFO档案 更多人怀疑政府早已知道真相
  19. 山西矿难背后:一座高瓦斯矿井的三亿年地质风险
  20. 和平分手?没那么简单 美国家情报总监离职内幕曝光
  21. 对谈美资巨头:AI最赚钱的地方,不在模型,在...
  22. F-22、F-35A双隐身战机齐聚西太
  23. 泽连斯基放话:北约要么出钱,要么出人
  24. 白天太阳能、晚间用电池 加州电网重塑意味着什么?
  25. 回母国申请美国绿卡?律师解读移民局新政
  26. 美持续增兵 逾50架加油机停驻以色列民航机场
  27. 解析《主角》原著大结局
  28. 燃油车集体骨折清仓,有车型直降近20万元
  29. 画面极其罕见:全球唯一野生白色大熊猫长大了
  30. 巴基斯坦核心人物紧急飞往德黑兰
  31. FSD入华,第一个慌的不是华为
  32. 战役几近全胜 战争赢了吗?伊朗3大现状令川普难堪
  33. 川普:美伊已基本达成协议 很快公布细节
  34. 消息人士称美台就潜在特赖通话有接触但无具体计划
  35. 日本16年前曾评估过中国统一台湾后对日军事影响
  36. 美共和党参议员:习主席简直紧张得像怀孕的修女
  37. 不祥之兆?习用前苏联“哀曲”接待普京
  38. 【百年真相】六次对习抗命 赵正永倒台内幕
  39. 马克龙首提奴隶贸易“赔偿”问题
  40. 中国AI投资逻辑正在悄然转向
  41. 上海地铁乘客上厕所要先“刷脸” 引争议
  42. USCIS推海外领馆审绿卡 移民律师析新风向
  43. 董事长年薪500万同业领先,民生银行何时触底反弹
  44. 爱因斯坦:这个问题是大脑的禁区
  45. 2030年解放军或装备全球首支六代机
  46. 华科大承办第79届世界卫生大会边会
  47. 美政府:在美外国人申请绿卡须返回原籍国提交申请
  48. 黄仁勋意难平:中国市场让给中企了
  49. 民主党发布大选失败“尸检报告”
  50. 3万亿时代:量化私募由竞速进入淘汰赛
  51. 大陆女子网购iPad 说明书印“Aqqle”
  52. 川普变卦前,接到电话警告“这样我们会输给中国”
  53. 蒙市市长谈婚姻:将破碎视为礼物
  54. 大陆投资人如何应对中共境外征税?
  55. 专家:警惕中共利用AI认知战全面渗透台湾
  56. 五角大楼“披萨指数”突然飙升 伊朗出现异常净领空
  57. 川普庆祝死敌节目告终 还跳起他最爱的YMCA|
  58. 山西矿难下修至82人遇难 专家:不存在“黄金救援期”
  59. “这些景象让我们哑口无言” 美国防部再公布UFO文件
  60. 本周我国多领域迎来硬核突破