腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 一名乡镇公务员之死:“他太想‘进步’了。”
  2. 深圳发布暴雨红色预警 下午全市停课
  3. 习近平愚蠢政策背后藏算计?体制内人士惊曝真相
  4. 分析:政经危局下 北京推新洗脑运动
  5. 福报正在增厚的人 身上有13个征兆
  6. 美国B-52轰炸机加州试飞时坠毁 机上8人全部遇难
  7. 央视这个新闻,我越想越觉得不对劲
  8. 浙大停招学硕 分析揭理论经济学遭挤压的背后
  9. 重庆官场涎蹋局 袁家军表忠言论引猜想
  10. 40岁佛得角队门将一战封神
  11. 中国元素充斥世界杯赛场独缺国足球队 引热议
  12. 美最高院驳回上诉 川普对华关税维持不变
  13. 清华“小学博士”“兵帮外交”考
  14. 懂得这11条道理 让你人生过得通透自在
  15. 上海女高官黄春怡被查 曾与落马副市长共事
  16. 一个乡镇公务员之死折射官场暗黑 陆媒删文
  17. “草台三杰”并非爽文
  18. 世界杯首战惨败,突尼斯解雇总教练
  19. 世界杯首战涌人8万人,跨州交通过关
  20. 每日组图:白宫“UFC自由250”综合格斗赛
  21. 蓝色起源大爆炸:贝索斯不满落后SpaceX
  22. 语言的艺术:是谁投降了?
  23. 林志玲亮相上海迪士尼红毯,网友抵制
  24. 美砸3千亿帮伊朗重建?"背后金主":各国都有兴趣
  25. “我面馆都倒闭注销几个月了,还莫名其妙被告”
  26. 南太行失联19天小伙已找到:在崖底搜寻到遗体
  27. 党建会议两大异常 习失权又添佐证 央视给习暗中庆生
  28. 四川江油聚会遭中共警方突袭 秋雨圣约教会33人被带走
  29. 西雅图大佬自费立牌,死磕嫖客
  30. 坠毁B-52神秘任务曝光
  31. 阿拉米达海滩发生枪击,两人受伤
  32. 黑龙江省纪委副书记姜宏伟任上被查
  33. 两度扳平:伊朗2-2新西兰
  34. 中国一知名地下教会遭警方突袭,两名领袖被拘
  35. 大陆官方数据不妙 房地产开发投资暴跌16.2%
  36. 郑丽文美国四处密会中共代理人 引发国安破口之忧
  37. 陕西男子参加幼儿园亲子马拉松猝死 年仅36岁
  38. 万斯说漏嘴:美伊备忘录仅1.5页
  39. SpaceX全股票收购AI编程工具Cursor
  40. 青海海西州发生6.3级地震 40分钟内连震8次
  41. 川普赴G7峰会 各国聚焦美伊协议与俄乌谈判
  42. 保守党提议取消二手车GST
  43. SpaceX给美股点了把火?
  44. 中国生猪价格继续下跌 专家:反转拐点不会来
  45. 加移民部要求失落加人交回公民证
  46. “盛世之牛马 乱世之炮灰” 大陆底层人心声登微博热搜
  47. 胡可受邀现身英国驻华使馆
  48. 美国人为什么不快乐?
  49. FBI破获佛州度假村绑架虐待案
  50. 美加墨合办的世界杯,像三项不同的赛事
  51. 我国学者严格确立高阶引力波可观测量
  52. 蔡奇推洗脑新运动 专家:告别改革迎文革
  53. 河北老板百亿投资,又被英国人没收了
  54. “全网搜不到”广西一家4孩同时遇害网传真相惊人
  55. 时常灵魂出窍?母亲死亡后看见的“世界”
  56. 加州四名玩家凭1美元彩票赢近48万
  57. “真的想知道现在失业人有多少”上微博热搜
  58. 2万亿存款“搬家”中国5月金融数据现反常
  59. 保底1200万画作参加拍卖 画主被安排举牌5折拍下
  60. 鞍钢清退百名评标专家 分析揭中共国企黑洞