腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 重庆官场持续震荡 陈敏尔前大秘罗蔺落马
  2. 创业板指续刷新高,“易中天”大涨
  3. 15岁黑历史引爆争议 纽约市长之妻“深感羞愧”
  4. 川普骑虎难下,伊朗恐更强硬
  5. 加班9116 最后被优化 中国AI圈真实故事 引发震动
  6. 确认!Comcast/Xfinity开始赔钱了 最高可拿1万…
  7. 委内瑞拉重返国际金融体系 与IMF世银恢复合作
  8. 20学者被拒入境 中国紧急提醒:赴美避开这机场
  9. 第二次“中国冲击”来了?金融时报:这次更危险
  10. 【翻墙必看】大陆20名学者在美国机场被拦截
  11. 一名新疆警察逃亡德国 揭集中营黑幕
  12. 12连涨,AMD正在创出“历史最佳表现”
  13. 旧时东北高端职业,土匪见了都敬根烟
  14. 车企老板亲自登门排队求货!电池巨头闷声发大财
  15. 33年首次高层破冰会晤:黎以和谈的真正障碍何在?
  16. 规模罕见:北约卅国大使团访日
  17. 美扩大西半球签证限制 对26人实施制裁
  18. DeepSeek向算力基建延伸 月薪3万去内蒙“守机房”
  19. 习近平会见越南领导人,中越在安全领域加强合作
  20. 沃尔玛外血腥一幕 女嫌持刀砍童 被美警当场击毙
  21. 高三学生学习困难去医院测出“智障”,当事人回应
  22. 315名被解聘的职工和县城民营医院的困局
  23. 许家印的命能保住吗?恒大的2.4万亿去了哪里?
  24. 美国关键任命,临近摊牌的时刻了
  25. 忧共产主义侵蚀加州 年轻企业家致力逆转潮流
  26. 全球性危机,中国稳住就是赢
  27. 美推“以贸易取代援助” 重塑对外援助角色
  28. 美破获大规模礼品卡诈骗 赃款成中共军费
  29. 美防疫高层换人 川普提名她领导CDC 拥医学与法学背景
  30. “大大的拥抱”和一桩远程渗透美国的奇案
  31. 现在是:伊朗接受现实 以色列找台阶 川普压力大…
  32. 二战以来首次,美国成原油出口国
  33. 纽约州长新提案:禁止地方警察帮助ICE针对移民
  34. 迪士尼新任CEO“头把火”:千人裁员计划
  35. 英法主导40国峰会,美国缺席
  36. “革命小闯将”黄帅——大起大落的人生
  37. 马云背后男人又在豪赌:孙正义借走银行400亿
  38. “人权观察”报告:中共加大压制天主教
  39. 那个被时代抛弃的诺基亚,杀回来了
  40. 杀害罗大美的主犯余金生,被执行死刑
  41. XChat在中国遭封锁 官媒报道被撤 抖音禁搜
  42. 新加坡深埋150米护国油库曝光
  43. 男子因噪音过敏住5年隔音舱
  44. “世界是一场巨大的服从性测试” 为什么没人反抗?
  45. 比特币创始者真实身分曝? 纽时揭“中本聪”就是他
  46. 当世界为石油争斗时,中国找到替代方案
  47. 微信一大波更新,一文吃透
  48. 川普宣布停火!以色列与黎巴嫩达成10天协议
  49. 中共五大医药监管机构被巡视 药监局书记换人
  50. 白宫拟开放Mythos访问权限
  51. 美国一前副州长枪杀妻子后自杀 孩子亲眼目睹报警
  52. 封锁再升级!美军扩大拦截伊船 运油 钢铝都要查
  53. 美防长放狠话:随时重启作战行动
  54. 多伦多全面推行社区信箱
  55. 伊朗在霍尔木兹海峡收费,为何新加坡急了?
  56. 匈牙利新总理人选要求总统下台 放话清洗“奥班体系”
  57. 美英勇校长扑向枪手 中弹仍奋力制伏 挡下校园屠杀
  58. 美防长放狠话:封锁只是“温和手段” 随时重启作战行动
  59. 美公布以色列和黎巴嫩十天停火协议全文
  60. 川普:美伊若在伊斯兰堡签协议 我可能会去