腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. “中纪委”张又侠落马通报秒删 习近平的“林彪时刻”即将到来
  2. 中共军委副主席张又侠被立案审查 网评翻车
  3. 是谁抓了张又侠?外界流传不同版本
  4. 蔡慎坤:张又侠早被剪裙边 张升民进入倒计时
  5. 习近平相信推背图?纽约华人热议张又侠被抓
  6. 张又侠刘振立被查落马 中央军委7人领导班子剩2人
  7. 爆料:张又侠政变未遂被抓 京西宾馆曾爆枪战
  8. 张又侠被查 传因未能第一时间向党领导汇报
  9. 军变 贪腐 中国军队二号人物张又侠到底做了什么?
  10. 张又侠落马 分析:中共内讧激烈 元气大伤
  11. 红墙黑幕尽泄 林彪死党吴法宪临终大骂谁?
  12. 张又侠为何躲不过习近平的暗箭 高人天目所见道天机
  13. 张又侠落马 现役上将只剩4人 共军元气大伤
  14. 实锤:张又侠、刘振立被抓 央视发视频要打台湾?
  15. 张又侠被抓前 美中情局发视频寻中国真相
  16. 张又侠被查 分析:官宣泄异常 中共局势不稳
  17. 海外热议张又侠落马:军队被掏空 冲击中共
  18. 张又侠成自六四以来被清洗的最高中共将领
  19. 北京政变传闻再起 “局势随时突变”
  20. 实锤!中国宣布调查解放军最高级将领张又侠
  21. 张又侠落马 被指中共版“纳粹长刀之夜”
  22. 052D迎完美搭档,海军远洋战力再升级
  23. 全球银库快被“掏空”了?
  24. 每天吃花生酱 会发生哪六件神奇事?
  25. 张又侠和刘振立落马 海外专家学者怎么看
  26. 巴西对中国人免签
  27. Netflix再提收购华纳新方案
  28. 分析:张又侠被查 中南海陷动荡 人人自危
  29. 全球“镍矿和不锈钢老大”进军铝业和电池
  30. TikTok成立美资控股公司 专家析将成美国人APP
  31. 担心美军空袭 传伊朗最高领袖已藏身地下
  32. 男子生病留遗书徒步回老家,病好了
  33. 中共军报批张又侠措辞激烈 坐实涉政变?
  34. 中共军委副主席张又侠落马 引外媒关注
  35. “大闹怀仁堂” 一场未遂的政变与军心震荡
  36. 命中有定数 异象预告天子的诞生
  37. 美股遭大规模做空,贝莱德CEO发出严重警告
  38. 越共中央政治局,“新面孔”接近一半
  39. 印度学霸微波家乡菜遭嫌“刺鼻” 告美大学获赔20万
  40. 川普亲口披露:秘密新武器成抓马杜罗关键
  41. “人间精品”章小蕙
  42. 小蚌子也能驾驭长风衣的“3个技巧”
  43. 从匈牙利到伊朗的美国抉择
  44. 张又侠被抓 大批军官或成清洗对象
  45. “门前不栽桑,屋后不种柳”背后含义
  46. 河北老人神仙山造万步“天梯” 耗时11年
  47. 解放军报社论 坚决打赢军队反腐攻坚战持久战总体战
  48. 中共军头双双落马 中共军内危机全面浮现
  49. 冬天穿短裙,6大御寒绝招兜底
  50. 卡尔美成为印尼国家足球队官方合作伙伴
  51. 大陆网络传 “告全国人民书”吁全军全民起义
  52. 中国调查解放军最高级将领张又侠,官媒批其"造成极大破坏"
  53. 澳总理:我的朋友卡尼3月访澳
  54. 叶一茜晒母女簪花合照
  55. 纽约严查哄抬物价奸商
  56. 多方爆料罕见指向同一惊人内幕 中南海出大事
  57. 包钢爆炸:每天上班都提心吊胆的
  58. 高市内阁支持率暴跌10%
  59. 为什么最有智慧的人效法的是“四季”?
  60. 美国“退群”,世卫警告