腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 三星实现900层V-NAND原型测试
  2. 兵工大佬落马 中科院院士被跨省带走 前博士爆剽窃乱象
  3. 分析:中共经济政策畸形导致全球遭殃
  4. 若想控制血压,这3种汤要少喝
  5. 男性有没有衰老,“下半身”会说实话
  6. 高盛:宏观空头头寸处于10年高位
  7. 煤矿一炸 恐重击中国用电 山西矿难冲击浮现
  8. 中美经济新局范式下,股比债好
  9. 强省会之争:吸血还是辐射?
  10. 美银示警:“厄运之门”快打开了 全球市场恐迎巨震
  11. 美移民新政下 这六类人或能留在境内拿绿卡
  12. 真人真事告诉你 誓言立下不可背
  13. 英媒爆料:万斯陷入空前孤立 或放弃2028年大选
  14. 全球“吃货”表演大赏:从表情包看中韩日食文化?
  15. 波兰士兵冒死进纳粹集中营 将暴行公诸于世
  16. 中共保密局罕见曝光航天系统泄密案
  17. 越“逃”越悲剧 人间每一场相遇都是必然
  18. 绿卡新规“须先离境返国办理” 科技界担忧人才流失
  19. 存在不到10年,却影响中国1000年
  20. 前有麦加朝圣 后有世界杯 川普的战争只能权宜结束
  21. 伦敦附近飙摄氏33.5度
  22. AI金融的“静默革命”
  23. 菲兴建中饭店暴雨后突然倒塌:已致4死17失踪
  24. 今年容易“亏阳气”?老祖宗留下补阳气的经验
  25. 古巴深陷经济危机 中国援助万吨大米 美国加大施压
  26. 习近平为武契奇举行颁授仪式
  27. 北大校长换人折射中共内斗?新校长是李克强老乡
  28. 川普:伊朗核浓缩将被移交美国或择地销毁
  29. 通灵男孩 看见死亡与轮回的真相(中)
  30. 潘玮柏自曝患面瘫
  31. 中国著名作家学者刘再复5月24日在杭州逝世
  32. 苏州知名企业厂区突发大火 火焰映红夜空和水面
  33. 中共正构建针对在华外国人的全景监控系统
  34. 川普回应外界对伊朗协议质疑
  35. 安省上万公务员遭“一刀切”拒绝
  36. 我在澳洲学打Netball
  37. 埃博拉瘟神上场!布兰登“看见”一场大瘟疫
  38. 伊朗最高领袖隐匿在一处秘密地点
  39. 川习会后 台周边军事紧张升高 美中在第一岛链较劲
  40. 美国密集起诉中共渗透案 海外华人应看清楚的警讯
  41. 川普要求多国加入《亚伯拉罕协议》 亦欢迎伊朗加入
  42. 官媒鼓吹“80岁正是奋斗的年纪” 网民:这是国耻
  43. 倒下的中学生背后,他们有多累?
  44. 凌晨四点排队,一位非京籍学生挤进北京中职火爆招考
  45. 瘟疫的“标记”和奇特“气味”
  46. 低谈浅论几句关于读书
  47. 河南蓝天救援队批支队擅自救灾 引争议
  48. 停战协议将宣布?停火拟延长60天 海峡30天内开放
  49. 美伊谈判“谅解备忘录”曝光 伊朗称距签署仍有距离
  50. 北京惊见山寨“一兰”面馆 招牌LOGO几乎照搬
  51. 消息:伊朗在达协议30天后开放霍尔木兹海峡
  52. 传珠海星巴克发生砍人案 一死多伤现场血迹斑斑
  53. 美军自卫打击 空袭伊朗布雷船及导弹发射地
  54. 多重压力之下 宝马中国再次促销
  55. 依旧是“吃人的矿山”?山西曝盗采黑幕 82矿工命丧留神峪
  56. “掐脖事件”后 她“看到马英九就发抖” 躲厕所钻桌底…
  57. 重庆山洪泥石流等灾害齐发 官方删水库信息
  58. 苏州知名企业厂区突发大火 近80台消防车前去灌救
  59. “要么给美国,要么销毁” 川普让伊朗二选一
  60. 欧洲5月热浪破纪录 法国赛事传出跑者猝死