腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 张扣扣走了七年,他父亲的手机还在坐牢
  2. 一篇报告点燃华尔街的AI恐慌,道指暴跌800点
  3. 为什么你有气无力 原来你的压力象“巨石”
  4. 日本教授 人不会死 只是脱掉了肉体这件衣服
  5. 传张又侠被插管 从一个过来人看张又侠的生死局
  6. 赫伊森时隔4天更新社媒,转发了一张猴子的图片
  7. 内幕:中共借党建整肃官场 要求官员站队
  8. 云南盈江连发两次地震 民众紧急避险
  9. 地震、熊患、犯罪:北京叙事中“危险”的日本
  10. 美国学者:自由进步主义正走向终结
  11. 一文读懂苹果2026年股东大会:库克不会退休?
  12. 川普国情咨文仅提及中国1次 访华前明显克制
  13. “东江浮尸”惨状震撼全港 中共高层冷血实录
  14. 中国多地“献忠”:海南大火、二广高速重大车祸
  15. 为何国民党能在台湾成功推行土改?
  16. 1949年,为何急于建国?
  17. 党媒发文能上能下直戳习 崔永元现身《翠湖》首映礼
  18. 16年未解之谜终揭晓 银河系中一场恒星吞噬事件浮出水面
  19. 中共军报罕见不提“习主席” 习不断给张、刘找罪名
  20. 传浙江外卖员被两台救护车劫杀 死后“捐献7器官”
  21. 川普承诺帮无雇主资助退休账户人群建立养老储蓄
  22. 古人类学新发现重塑人类演化图景
  23. 中共相关黑客攻击全球53机构 被谷歌瓦解
  24. 同声传译:川普破纪录超长国情咨文都讲了什么
  25. 美商务部官员证实:2个月英伟达H200对华销售为零
  26. 进厂打工没人要的机器人,全在外面接商演
  27. 加州:中国家庭孩童朝海狮丢沙石 全家被驱离海滩
  28. 业绩史上最强,美股为何不买账?
  29. 民主党高层:川普今晚要讲很久
  30. 【直播】川普2026年国情咨文
  31. 贝加尔湖中客溺亡地事发前已有冰裂,北线仅供参观
  32. 在京访民怒轰中共领导人“眼瞎耳聋”
  33. “爱国教授”:我们正在目睹自由进步主义的终结
  34. 宁古塔到底苦不苦?
  35. 一文读懂苹果2026年股东大会
  36. 刘美贤拒招揽转籍中国被监视!案吐露真实心声
  37. ALMA图像揭示银河系核心隐藏的化学结构
  38. 华裔混血冬奥少女的两种人生 父母价值观的镜子
  39. 美房市进入买方市场:卖家比买家多44%
  40. 因存转控失灵风险 福特召回41.2万辆SUV
  41. 老话“女人三笑,福气难保”是哪三种笑?
  42. 韩国瑜以“清朝酷刑”示警国民党 被赞气魄独一无二
  43. 上海发布楼市“沪七条”
  44. “违背乔布斯意愿”?苹果MacBook Pro要加触摸屏了?
  45. 川普发表国情咨文 聚焦重振美国经济
  46. 专家警告: 湿重积雪让铲雪行为更危险
  47. 中情局视频成催化剂 习慌了 政绩观学习教育砍向官场
  48. 加赴英新规:未申请ETA不得登机
  49. 日防卫大臣:5年内将在与那国岛部署导弹
  50. 习“清洗”逾百将军 西方聚焦中共内讧
  51. 陈光诚再指控:王志安伤害性言论未停 保留在美起诉权利
  52. 挪威王室深陷丑闻之际 89岁国王哈拉德五世感染住院
  53. 哈萨克对入籍者设障 新疆哈族处境恶化
  54. 黄河发生的诡异事件 三层楼高的巨龟
  55. 马姆达尼为雪球事件降温 拒绝谴责袭警者
  56. 【更新】川普对国会发表国情咨文
  57. 伊朗外长:希望尽快与美国达成协议
  58. X帝——铁板图蕴含深意 白羽呆鸟撞山梁
  59. 2025年全球工业“一场奇特的反弹”
  60. 精神航空达成重组协议 预计今夏摆脱破产困境