腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 中国大学排名飙升,是实力还是“捧杀”?
  2. 法博物馆馆长:若证实中国文物系掠夺 24小时内还
  3. 从1979到2026:三次冲向天安门的“绝望献忠”
  4. 中国如何应对人工智能革命?
  5. 在旧金山,年薪18万美元也是“住房难民”?
  6. 棋子胡海峰 内外交困下的“第一副部长”
  7. 美法院推翻川普行政令
  8. 美国6月ADP新增就业人数降至9.8万
  9. 广州公交部分司机罢工讨薪 市民:政府没钱发薪
  10. 张瑜现状,与前夫张建亚处境差别大
  11. 他当初净身出户,也要与闫妮离婚
  12. 四张图读懂破纪录的欧洲热浪
  13. 革命卫队“混入世足队”企图入境美国
  14. 韩国股市又被“小作文”打崩
  15. 跨国镇压法律化!中共民族团结法上路 台湾3措施因应
  16. 党建音乐会藏刀锋 胡锦涛大秘高调现身 他要架空蔡奇?
  17. 委内瑞拉华商:6点钟地震 9点时店铺被哄抢一空
  18. 苹果遭印度合作伙伴泄密
  19. 中国掀“抢老人”大战 逾16省砸钱发展银发经济
  20. Meta筹划进军云计算市场
  21. SK海力士长约价格打破惯例“不设上限”
  22. 曾是冷战象征 美国自助餐“吃到饱”文化为何衰落?
  23. 川普提名大法官再次否决川普行政令 确实值得深思!
  24. 6月电车成绩单,零跑蝉联新势力销冠
  25. 佛得角驻华大使:公务车全是中国电车
  26. 中国强化社会治理 新规要求不得任意跨省越级申诉
  27. 美客机降落时被无人机击中
  28. 开箱川普金色手机 499美元“爱国货”就这水平?!
  29. 最高法院判决后,美国司法部要求严查“赴美产子游”
  30. NASA罕见耗资2.4亿拯救“雨燕”卫星
  31. 文科生可以学医了,背后透露了哪些考量?
  32. 民族团结法七一实施 跨国镇压受诟病 习自揭中共画皮
  33. 中俄秘密军事训练获高层批准,包括放射生化战
  34. 中国推出成人全尺寸超仿生机器人 订单火爆 售价是…
  35. 清华大学前教授遭学生当场举报 课堂上警察上门
  36. “AI马克思主义”:中国如何应对人工智能革命
  37. MLCC龙头国巨涨价
  38. 获得首届国家自然科学奖后,华罗庚这样说
  39. 加州正式禁用“销售截止日期”食品标签 多州料跟进
  40. 习近平的“增量社会主义”
  41. 不顾美国强烈反对 伊朗阿曼推进霍尔木兹收费计划
  42. 女子卧底杀猪盘:骗子专攻情感软肋
  43. 杭州百亿巨头吞下“少女风顶流”
  44. 美司法部将“生育旅游”列为执法重点
  45. BBC:中国尊撞机后数日 为何至今仍是一片信息迷雾?
  46. 领队回怼降雨提醒,5人溺亡刺刀峡谷
  47. 两蒙面男女登顶帝国大厦后被捕 原来只为…
  48. 《国有器官》德国首映 国会议员出席并参与讨论
  49. 西北高温来袭,江南“火炉”也将开启
  50. 日本足球用20年告诉世界一件什么事?
  51. 法国晋级16强,墨西哥狂欢期间现死伤
  52. 台裔核子科学家得肺炎,1周骤逝
  53. 中国民族团结法上路 美14议员炸锅 促国务卿出重拳
  54. 华人"宗教领袖"案宣判:一袋大米牵出命案真相 4人获罪
  55. 求是刊出习近平讲话 老百姓又要成为“代价”了
  56. 比利时3比2淘汰塞内加尔
  57. 化石揭密 冰封南极曾有巨兽漫步?
  58. 建党音乐会满场黑衣人 习变孤家寡人 他们是人肉盾牌?
  59. 旅客千万不要“打包”害虫
  60. 中共党庆105周年 习总书记似有四面埋伏之虞