腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 沈舟:中共军队在朝鲜战场如何被打懵(十)
  2. 房产“白菜价”再现 山东70平海景房卖8万元
  3. AI泡沫破灭谁能幸存?
  4. 大陆多地医院爆满 广州有班级半数学生请假
  5. 比起痛失"人口红利", 扼住中国的真正"拐点"浮出水面?
  6. 任达华栽倒惊呆众人,妻子举动惹议
  7. 中国创投机构,批量从银行拿钱
  8. 东亚第一内卷国,全民贷款炒币
  9. 非常多人渴望对日开战,为什么?
  10. 川普被曝:正准备关税"备胎方案"
  11. 保罗退役决定引热议,詹姆斯高呼控卫之神
  12. 原版爱马仕柏金包以千万美元卖出 去了哪里
  13. 哈佛实验室如何成中国学者获名校身份的通道
  14. 权贵把共产体制当提款机 不放手 改革还是空谈
  15. 解放军多个备战画面曝光
  16. 上海交大扩招5000博士生 折射就业压力等困境
  17. 在新加坡陪读3年,我发现真相和网上很不一样
  18. 东芝和中企分道扬镳后 和日本半导体公司结盟
  19. 大陆青壮年人猝死频发 知名律师打羽毛球去世
  20. 马克龙:20国峰会或将走到尽头
  21. 力挺高市!日在野党魁表态"无须撤回发言",怒批中国施压
  22. 香港人照样去日本!北京吁勿赴日,日媒:几乎没人取消行程
  23. 习近平应该是最后一个知道真相的人
  24. 中国洗钱网络令人咋舌 连结富豪、贩毒集团及朝鲜黑客
  25. 【翻墙必看】沪实习生中奖被套路 事情闹大
  26. 川普:愿协商乌克兰割地计划
  27. 全球疯传:“6100亿美元AI骗局”要崩了?
  28. 中国引领全球绿色转型
  29. 14岁少女遭虐“瘦到剩16公斤”
  30. 流感肆虐现“停课潮” 广东天津等地学校教室空半
  31. 中国游客大规模取消赴日行程,韩国跃升最热门旅游目的地
  32. 偷中国游客现金,日本安检员被捕
  33. 美警告后 多家航空公司取消委内瑞拉航班
  34. 川普:美28点新计划并非“最终提案”
  35. 王思聪又换女友了
  36. 高市早苗再出手!传仿效“川普DOGE”
  37. 川普前重要盟友退出国会
  38. 研究实现水稻精准基因组编辑新突破
  39. 万锦接连发生入室盗窃未遂事件
  40. 辽宁11岁男孩摆摊 知情人:6岁已辍学照顾病案
  41. 三款欧美战机加盟 乌克兰未来空军正在成型
  42. 新毕业生正遭遇“完美风暴”冲击
  43. 中国专家曝汽车供应链3大风险
  44. 熊湖怪兽是“水怪”?一百多年间多次目击
  45. 高市政府将更积极干预日元
  46. 星期六以色列多次空袭加沙,致21亡
  47. 哈佛大学数据库遭黑客攻击 校友学生信息被盗
  48. 中共曾收购美情报特工投保公司 促美严查中资
  49. 以军:打死哈马斯武器装备负责人
  50. 德国政府通过太空安全战略
  51. BBC:英国预料将批准中国“超级使馆”计划
  52. 中国狠批日本调门不减
  53. 高市“台海发言”,仍65%支持率
  54. 美国终止俄乌战争的草案外泄:我们已知什么?
  55. 为何年薪六位数的美国人感觉手头不宽裕
  56. 杨立昆从Meta离职原因分析
  57. 习近平的战狼外交部 衍生成“断交部”
  58. 始祖鸟“炸山”后,依然卖爆了
  59. 为什么你越吃越累?饮食地雷曝光
  60. 上街抗议川普!韩农民团体怒控“巧取豪夺”