腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 张又侠被抓前 北京卫戍区换主官 专家析内情
  2. 震撼!传25名上将实名联署 呼吁军民起义反习
  3. 惊人:追踪研究哈佛268名帅哥 谁早死?谁幸福?
  4. 两块巨大炽热岩石影响地球磁场
  5. 敏感时刻,李嘉诚罕见露面
  6. 不懂中文,已经混不进硅谷核心圈了?
  7. 上流社会的下流生活
  8. 华男化身暗网“毒品之王” 操控百亿级黑市平台 被判30年
  9. 警官胆识过人 习近平惨遭羞辱“自找苦吃”
  10. 注意:频繁出现这6症状,可能是脑梗早期!
  11. 伊利夏提:中共跨国镇压 美国应强烈反击
  12. 人类不感谢他 被骂了一千年 那个乱世里的“好奸臣”
  13. 军报罕见谈论“心理波动” 蔡奇王小洪悬了
  14. 日美欧发表有关矿物供应链的联合声明
  15. 习近平与川普通话,就台湾问题施压
  16. 哈德逊河隧道停工在即,纽新两州联合提告
  17. 一次旅行能看多少风景?
  18. 日本专家:中国禁赴日真正原因 不是因为高市挺台!
  19. 高市早苗力挺台湾,台积电投桃报李
  20. 传委内瑞拉配合美方执法 逮捕马杜罗亲信
  21. 美隐形舰载机击落伊朗无人机,伊朗军方回应了
  22. 爱泼斯坦的“恶魔女友”,在狱中过上VIP生活
  23. 川普:在移民执法上可以“更温和”
  24. 学霸暗网贩毒洗钱,被判30年
  25. NBC主播母遭绑架,川普发声
  26. 宋小宝自曝:脸上“微调”600多刀
  27. 春运火车票开售“秒没”,12306回应
  28. 分析:南京博物馆盗卖案曝文物监管黑洞
  29. “身体X形”爆火背后,去上性商课的主妇们都是谁?
  30. “同人不同命”?好命人身上有3个特征
  31. 【内幕】北京人亲述经济有多萧条 专家解析
  32. AI教母李飞飞:一个洗衣妹,去年身价涨了300亿
  33. 中共疫苗灾难“死亡潮”正在爆发中?
  34. 人类不敢承认:图灵预言的AGI早已实现
  35. 为法轮功学员辩护遭酷刑 前浙江律师逃美
  36. 恐龙真的灭绝了?卡赛暴龙留下的未解谜团
  37. 南昌市长高世文疑似被查 曾是马兴瑞的秘书
  38. 美国最大的丑闻,把哈佛拉下水
  39. 又一辆小米SU7起火 股价创一年新低
  40. 川普致电NBC女主播 关心她母亲失踪案
  41. 维州终止与ICE合作 移民局:此举降低公共安全
  42. “连和尚都没活路了”传广东一和尚跳江自尽
  43. 美议员:我要求立即传唤比尔·盖茨
  44. 川普:伊朗最高领袖应“非常担心”
  45. 华尔街点评谷歌财报
  46. 五三银行收购联信,客户须知这些变化
  47. 月薪3000的规培医生:学生以上,医生未满
  48. 卢思位住宿深圳酒店 遭警察强行查验身份
  49. 从网文作家到年入10亿:一个“外行”如何用AI翻身?
  50. 中国和世界的人口下降:人越少,问题就越少?
  51. 在意大利失联的中国博士黄鹏,疑被监控拍下画面?
  52. “被精神病”骗保是基本操作?更多乱象谁来管?
  53. 习近平一天内与美俄元首通话
  54. 从免工费到杠杆炒金,杰我睿流量“炼金术”揭秘
  55. 泽伦斯基最新表态:战争1年内结束
  56. 哈佛医学院助理教授马丁 获任纽约市卫生局长
  57. ICE全美拘押逾7万人 逾七成未有刑事定罪
  58. 与圣祖康熙并肩而坐,文殊菩萨的智慧化身
  59. 德国建太空军力应对中俄 专家:三重压力使然
  60. 美国自毁根基的一年