腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 村民讲述湖北宣恩洪灾:凌晨洪峰突至,“浪高近4米”
  2. 硅谷最有权势的男人迭代了
  3. 华尔街罕见齐声警告
  4. 爆习向川普泄密 普习会降格 分析:习不会出手救普京
  5. 太空装修闹剧,73人3天套现近亿元
  6. 腾讯版Claude Design来了
  7. 女人必做4件抗骨松大事 最后一件很多人疏忽了
  8. 费城半导体指数七日跌幅逼近10%
  9. 外星人将人类视为“灵魂容器”?拉扎尔相关说法引发关注
  10. 高盛:高端铜箔有效供应严重不足
  11. 上海俩日本人被59岁男子刺伤 官方通报不提日本籍
  12. 以军再拦驶往加沙援助船队 爱尔兰总统妹妹遭扣留
  13. 70岁榜一阿姨:掏空儿子336万积蓄,守护男主播
  14. 纽约推出世界杯主题轮渡 并扩大夏日服务
  15. 劳资达成协议 长岛铁路罢工结束
  16. 北京国宴引爆阴谋论 女服务员“胸形不正”被热议
  17. 直接裁掉,独行侠再见了
  18. 中共外交涉台言论 外交部回应澄清
  19. 睡太多和睡太少一样加速衰老
  20. 普京专机刚要启程,乌导弹就来了
  21. 农村老人干不动了,屯里的地谁来种?
  22. 自然历史博物馆直播间免费看世界杯
  23. 欧中论坛变“战场” 专家:贸易战逼近临界点
  24. 反向迁徙,东北开始“抢”老人了
  25. 普京第25次访华,已经没有资格和中美坐一桌了
  26. 美财长会场被拦 曝中共变脸外交画皮 超限战已开打
  27. 普京访问北京之际 俄方公开表达不满
  28. 中国希望大力发展AI,但不能以牺牲就业为代价
  29. 一村庄585人中62人患癌 区环保局“护航”黑厂太能了
  30. 清华长三院发布首个真实场景AI竞技场
  31. 一专家:农民就应交公粮,天经地义,重新征收农业税?
  32. 为获取AI训练数据,巨头们向员工“下手”
  33. 退休金一夜归零!401k成诈骗新目标 比你想象更易被偷
  34. 美议员吁国会推反情报计划 对付外国间谍活动
  35. 国际刑警组织警告:AI令网络诈骗更容易
  36. 高市早苗与李在明频繁互动,韩日关系为何转暖?
  37. 人均两个账户,婴儿都在满仓:韩国股市还能疯多久?
  38. 从写代码到在工地打盒饭,他又站到失业边缘
  39. 退休警察发梗图调侃柯克遇刺坐牢37天 政府认赔83万
  40. 伊朗发最后通牒,再遭袭战火溢出中东
  41. 普京访华,与习讨论“最重要敏感的问题”
  42. 英国拟推“邀请制”投资者签证
  43. 主人倒茶时 客人为什么要敲三下桌面?
  44. 16月掷900亿美元,黄仁勋投遍AI圈
  45. 中国网红城市,正在陷入一场危险循环
  46. 加尔雷恩获川普背书 赢得肯塔基州党内初选
  47. 习近平看到会啥感觉 川普团队发布精彩瞬间
  48. 最奇幻的濒死体验 看见人类未来
  49. 普京第25次访华:与习会面讨论"最重要敏感的问题"
  50. 迟到后情绪失控:上海高校课堂男生怒吼“杀”
  51. 数学方法算出地月之间最高效路线
  52. 谷歌推出最新AI模型,皮查伊要帮大客户年省10亿
  53. 半透明超薄捌钛矿太阳能电池研发成功
  54. 创业板低开高走,一度涨1%
  55. 黑龙江科学基金项目评审入围名单
  56. Toyota最顶级世纪跑旅预计明年量产
  57. 油价飙50%只是"小钱"?川普:伊朗拥核武风险更大
  58. 原来他们是夫妻,和导演老公因戏生情
  59. 吃少,吃好
  60. 他辞去海外终身职位 带整建制团队回国攻坚半导体