腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. “中纪委”张又侠落马通报秒删 习近平的“林彪时刻”即将到来
  2. 蔡慎坤:张又侠早被剪裙边 张升民进入倒计时
  3. 是谁抓了张又侠?外界流传不同版本
  4. 习近平相信推背图?纽约华人热议张又侠被抓
  5. 军变 贪腐 中国军队二号人物张又侠到底做了什么?
  6. 张又侠被抓前 美中情局发视频寻中国真相
  7. 张又侠刘振立被查落马 中央军委7人领导班子剩2人
  8. 张又侠为何躲不过习近平的暗箭 高人天目所见道天机
  9. 爆料:张又侠政变未遂被抓 京西宾馆曾爆枪战
  10. 实锤:张又侠、刘振立被抓 央视发视频要打台湾?
  11. 红墙黑幕尽泄 林彪死党吴法宪临终大骂谁?
  12. 大陆网络传 “告全国人民书”吁全军全民起义
  13. 张又侠被查 分析:官宣泄异常 中共局势不稳
  14. 052D迎完美搭档,海军远洋战力再升级
  15. “大闹怀仁堂” 一场未遂的政变与军心震荡
  16. 张又侠和刘振立落马 海外专家学者怎么看
  17. 全球银库快被“掏空”了?
  18. 澳总理:我的朋友卡尼3月访澳
  19. 张又侠被抓 大批军官或成清洗对象
  20. TikTok成立美资控股公司 专家析将成美国人APP
  21. 担心美军空袭 传伊朗最高领袖已藏身地下
  22. 中国调查解放军最高级将领张又侠,官媒批其"造成极大破坏"
  23. 多方爆料罕见指向同一惊人内幕 中南海出大事
  24. 命中有定数 异象预告天子的诞生
  25. 美股遭大规模做空,贝莱德CEO发出严重警告
  26. 张又侠落马 与美军抓马杜罗有关?
  27. 梅洛尼:强烈愤慨,决定召回大使
  28. 高市内阁支持率暴跌10%
  29. “人间精品”章小蕙
  30. 小蚌子也能驾驭长风衣的“3个技巧”
  31. 河北老人神仙山造万步“天梯” 耗时11年
  32. 印度学霸微波家乡菜遭嫌“刺鼻” 告美大学获赔20万
  33. 川普亲口披露:秘密新武器成抓马杜罗关键
  34. 【翻墙必看】张又侠刘振立预谋对习动手失败
  35. 张又侠像极了第二个林彪 崩溃路上狂奔的中共
  36. 从匈牙利到伊朗的美国抉择
  37. 美国“退群”,世卫警告
  38. “门前不栽桑,屋后不种柳”背后含义
  39. 中国70城房价狂跌 贷款卖房成新趋势
  40. 高铁常见乘客“昏昏欲睡”,专家回应
  41. 歼10CE竟把阵风打下来了?
  42. 为什么最有智慧的人效法的是“四季”?
  43. 包钢爆炸:每天上班都提心吊胆的
  44. 在京都漫步千年古城,探寻幽静寺庙
  45. 芬兰总理明访中国,是否送“这大礼”受瞩目
  46. BBC:中国正在悄悄赢得AI竞赛吗?
  47. “没有个不散的筵席”《红楼梦》警世名言22句
  48. 欧洲最强反击来了,丹麦宣布抛售美债,美国股汇债三杀
  49. 三次邂逅都是相同对话 都市中被“复制”的陌生人
  50. 五角大楼高官访日韩 推动“以实力促和平”
  51. 今年春节会迎来6个“反常现象”
  52. 写公众号要注意了,不要碰出生率这个题材,不然会违规被删的
  53. 国家如何收买企业?一场政商关系的"猫鼠游戏"
  54. ICE猛于虎!FEMA发风暴警示 拒用“冰”字避免误会
  55. 美国遭遇历史性冬季风暴 逾23万户停电
  56. 格陵兰大规模停电!首府全城漆黑,网络连线量骤降
  57. 中国进口车销量下降近三成 规模不及高点一半
  58. DeepMind CEO:AI投资越来越像“泡沫”
  59. 格陵兰努克强风吹袭,电力中断网络遭殃
  60. 零下20度极寒来袭,医嘱分层保暖