腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 贝莱德考虑投资SpaceX
  2. 下周重磅日程:英伟达财报、谷歌I/O大会
  3. 月租400,住进豪华空城
  4. 万千惠点名徐梦洁,撕开浪姐遮羞布
  5. 乘客咬伤空乘人员,一航班被迫改道
  6. 夏天快来了,欧洲电网又要供大于求
  7. 正部级高官王晓东被查 曾任湖北省长
  8. 抗衰老最佳睡眠时长出炉
  9. 听到川普这句话,台湾当局该醒了
  10. 多伦多6月新规:公寓室温必须低于26℃
  11. 中日工程机:小松营收遇冷,徐工海外爆单
  12. 中国:最大清洁能源国与最大碳排放国
  13. 当“懂王”更懂台湾,民进党的天塌了
  14. 林心如曝霍建华“一块肥皂洗全身”
  15. 数百外交官被裁,美国务院正被掏空
  16. 打包开源6.4k星:用Claude Code写论文流水线
  17. 我被堵在霍尔木兹海峡的79天:导弹,股票,小青菜
  18. Anthropic CEO最新专访:软件将步入免费时代
  19. 加利巴夫被任命负责中国事务
  20. 广西金旅大厦顶楼遭雷电击中 场面震撼
  21. 人民币升至3年新高 如何影响美中贸易?
  22. 韩总理敦促三星劳资双方周一达成妥协
  23. 光刻机市场收缩,印度成为中国平替?
  24. 中国农业科学院宠物经济科创中心成立
  25. 川普:不希望看到台湾有人闹“独立”
  26. “京东上海总部大楼歪了”上热搜引关注
  27. 美伊互提“5条件”,再次开战不可避免?
  28. 2000万粉丝博主宣布断更
  29. 伯克希尔,最新调仓披露
  30. “川普手机”被爆中国代工
  31. 北京人逛完保定,又去石家庄
  32. 越战老兵回忆1965年的伊阿德朗战役
  33. 从礼物到酒杯都不敢碰?川习“谍对谍”真实上演!
  34. 被50岁舒淇惊艳到:穿飘带衬衫+半身裙
  35. 川普反中变亲中 MAGA内部爆裂 班农公开开火
  36. 美对台政策是否调整,关注对台军售
  37. “不如中国” 高晓松母亲留美23年后决定回北京养老
  38. 川普拿台湾能赌到什么?一句话让华府鹰派紧张
  39. 川普访华车队现“神秘高顶红旗SUV” 美媒怀疑作用是…
  40. 世界杯央视解说阵容亮相
  41. 美国300多城市房价大变天!这些城市却爆火
  42. 为什么西方国家不搞“儿童热烈欢迎”领导人?
  43. 中年女人的难言之隐
  44. 美参院外委会批总统“单打独斗” 令美国陷入被动
  45. "最美脱北者"的传奇人生,从性奴成国际人权斗士
  46. 克鲁格曼:中国买更多美国石油 对美国人并不是好事
  47. 川普访华不用私人手机 离开前美方丢弃所有中方物品
  48. 此次会晤表明,以黄仁勋为代表的AI发展派,赢了?
  49. 重返麻风村:他们被拒绝了几十年,仍能给予别人爱
  50. 三星爆出走潮,董事长三度鞠躬
  51. 大疆、影石的“师父”,撑不下去了
  52. 9旬老妇做笔录身体不适要求送医遭拒
  53. 高校大门开放争议背后:一个人的抗争,一群人的生意
  54. 川习会当天,伊朗扣押中国“海上军火库”
  55. 川普结束访华后,中俄即宣布普京访问中国
  56. AI产业正进入核心博弈阶段
  57. 马斯克不会出售所持SpaceX公司股份
  58. 美军5万兵力待命 纽时:不排除突袭伊朗核设施
  59. 川普2.2亿持仓曝光 狂买这些科技股
  60. 陕西一婚宴遇暴雨变“水上流水席”