腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 大陆结婚登记被爆造假 民政局雇人充场
  2. 民运人士毛庆祥发徐光出狱视频 被公安带走
  3. 北交大校长余祖俊疑出事 官网信息遭删改
  4. 广西四千万建根治欠薪平台 被曝沦为摆设
  5. 马斯克重建xAI组织图曝光
  6. 传美暂缓140亿对台军售 学者:台湾务必加快国防自主
  7. 人类首次获取珠峰峰顶透底冰芯样本
  8. 川普再次表示将与赖清德通话,或激怒中国
  9. UFO降落在后院 3名外星人从中出现
  10. 美财政部重拳制裁9名黎巴嫩真主党高层
  11. 委内瑞拉、伊朗,下一个是古巴?
  12. 纽森签全美首令,防AI夺饭碗
  13. 中国制电视被指监控美国家庭观看纪录引集体诉讼
  14. 中俄联合声明贬损台湾主权 台外交部谴责中共霸凌
  15. 外国人寻求美国绿卡 需返回原籍国申请
  16. 海外订单回流中国?一线调研真实情况
  17. 中共如何靠大规模偷美国技术发展AI
  18. “近期,许多中国企业也向我们表达了访美意愿”
  19. 哈尔滨双层巴士惨遭桥梁“削顶” 乘客身份引关注
  20. 独子接班亏174亿 重庆首富美国疫苗生意崩了
  21. 美国可能逮捕他:古巴局势的3种可能
  22. “股神”川普,一季度买卖股票超3600次
  23. 消失的提现键,与他们被银行“冻结”的这四年
  24. 与菲尔兹对话:数学研究范式将被AI改变
  25. 法英联手取缔非法移民
  26. 川普和他的顾问们显然根本没读过修昔底德
  27. 山东两山姆店开业现混乱 偷食事件引热议
  28. 广东暴雨 深中海底隧道被淹 恩平桥梁被冲塌
  29. 别让3C偷走童年!爸妈这几招 帮孩子走向户外
  30. 香港反恐首案两主脑资产遭充公
  31. 三星工人或将获得280万人民币奖金!堡会将投票
  32. Labubu被曝使用新疆棉 或涉强迫劳动
  33. 国际能源署:油市7月或进入“红色警戒区”
  34. ImageNet之后,李飞飞再出手
  35. 李姸慧出席湾区台商会,肯定台商
  36. 美国被盟友背刺?阿曼被曝接触伊朗讨论海峡收费
  37. 中国政府发文全面取消社保户籍限制 京沪如何落实?
  38. 川普批准英伟达向中国销售芯片,北京为何不愿接受?
  39. 藏镜头监看受害户,南加团伙落网
  40. 做心脏药的公司,把投资者气到心疼
  41. 美海军部长:对台军售暂缓 以保中东所需
  42. 全球粮荒最快6个月后爆发
  43. 香港立法会议员7月到北京考察
  44. 国宴奏《天鹅湖》中共报丧?普京心惊 开启大规模军演
  45. 北京不松绑禁令,马斯克踢铁板了
  46. “天王”郭富城又接获噩耗
  47. 伊朗重启无人机生产,军力重建速度超预期
  48. 一文读懂星舰“十二飞”
  49. 小满湿气重易发胖?多吃这4食物排湿气
  50. 卢比奥把底线交了
  51. 马英九否认失智
  52. 广西一男子当街捅刺交警 民众披露实情
  53. 香港女太空人将奔赴星海
  54. 陈佩斯最骄傲的,是儿子6年生4个孙子
  55. 美联储将推动什么政策和改革?检视他的5句话便知
  56. 吕特出招留住川普 以国防采购换美留在北约
  57. “碳水脸”,谁在靠羞辱普通人闷声发财?
  58. 马克龙提出欧版301条款防御机制
  59. 太子集团陈志幕后大佬 10多年前遭公安部挂牌督办
  60. 美为伊战暂缓对台军售?台方:未获通报