腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 许家印认罪,其子女如今怎样了?
  2. 封锁生效!川普呛“靠近就击沉” 美军“拦截通知函”曝光
  3. 中共导弹专家冯煜芳少将院士去世 终年63岁
  4. 冲击中共党禁 中国民主党7成员北京遭重判
  5. 川普:伊朗已打电话给美方 想达协议
  6. 谈成80%仍破局!美伊21小时谈判内幕曝
  7. 大众汽车Q1全球交付量下滑4%
  8. 苏林抵达北京开始访华
  9. 真主党吁黎巴嫩取消以黎和谈
  10. 中纪委书记李希两名辽宁旧部接连被查
  11. 1889年,一个日本人指出大清是“全民腐败”
  12. 商场动漫展突降“玻璃碎片雨” 多人带血狂奔 有人失明…
  13. 留美签新姿势:中国留学生开始靠“吃鸡”转运
  14. 伊朗挂起巨型广告牌:霍尔木兹永远在我们手中
  15. 从飙车到开枪!LA华人区首爆发“街头接管”枪击案
  16. 云南一银行招聘条件“独特” 被指萝卜岗
  17. 川普下令封锁荷莫兹!北京陷两难,"川习会"恐告吹
  18. 川普:周日有34艘船只通过霍尔木兹海峡
  19. 新冠新变种"蝉"有多令人担忧?儿童更容易感染?
  20. AI突袭短剧,“霸总爹”失去了工作
  21. 墙内观点:川普流氓起来,就没伊朗什么事了
  22. 多市纳税人或为高成本买单,物价难降
  23. 教宗:将公开反对战争
  24. 比亚迪深圳工厂凌晨突发大火
  25. 菲律宾指中共在南海投毒 危及驻军与生态
  26. 一步一景——书香
  27. 司机顺手买彩票,竟中224万
  28. 川普陷入“共损式对抗” 互掐脖子 谁先松手谁输!
  29. 美中央司令部:美东13日上午10时起 封锁伊朗港口
  30. 消息:逾15艘美舰在执行对伊朗港口的封锁
  31. 重庆两地同日发生地震 市民称震感很强烈
  32. 匈牙利大选获胜者:不支持乌克兰加入欧盟
  33. 美国是否真的能够封锁住霍尔木兹海峡?
  34. 以总理:美伊停火协议随时可能结束
  35. 川普调整战略 美伊玩“生存游戏” “双封锁”霍尔木兹
  36. 23年逾期书籍归还:免罚款政策引热议
  37. 留学生生病开始求助AI:省下一辆特斯拉
  38. 汕头女子持续20分钟向窗外撒大面值港币 遭哄抢
  39. 中国肥胖关键风险与对策全面揭晓
  40. 日本2024温室气体排放创新低
  41. 严歌苓携未删减《芳华》 纽约谈自由写作代价
  42. 菲律宾:中国船现氰化物 恐毒杀南海鱼群
  43. 欧洲思想文化长廊:荷尔德林
  44. 一碳气体发酵蛋白可产仿肉制品
  45. 性丑闻炸翻国会 斯瓦尔韦尔退选州长 4议员恐遭驱逐
  46. 真正的黄忠——不忠的实力派军阀
  47. 美“封锁令”生效,川普威胁伊朗
  48. 富二代公司咋成了人们想象的职场避难所?
  49. 打败共和党的,会是一张电费单吗?
  50. 白宫报告:DEI政策令经济年损940亿美元
  51. 停火谈判:搅动和平的四方盘算 长久僵持或准备决战?
  52. 硅谷震惊!OpenAI奥特曼豪宅48小时连遭枪击+纵火
  53. 乌军夜间发动大规模袭击
  54. 港城大首届十佳研究生毕业生揭晓
  55. 法官猥亵当事人,法院办公室岂能沦为“作案现场”
  56. 川普失控言行不断,前幕僚也叹:他疯了
  57. 涉恒大诈欺、行贿,创办人许家印当庭认罪
  58. 中国兵器装备集团前副总刘卫东一审获刑13年
  59. 纽约时报:重回世界大战时代
  60. 中国巨石手握3个全球第一