腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 川普警告,盘点斯塔默访华争议
  2. 中国彩电巨头被美企坑36亿,今成代工厂
  3. Meta最牛文科生让3个AI互掐:1人技术部
  4. 爱泼斯坦案情复杂,马斯克女儿出手爆料了!
  5. 女子十年前花10万买了408克金条
  6. 4000家店倒下,“鸭脖大王”亏麻了
  7. 川普:墨西哥将停止向古巴输送石油
  8. 西班牙完成全球首例特殊脸部移植手术
  9. 爱泼斯坦单点名习近平 从“权力掮客”到中南海隐形操盘手
  10. 预言、清洗与接班人暗战:张又侠事件撕裂中共权力核心
  11. 分析:海南封关 数据靓丽不等于真实开放
  12. 金价暴跌13%!这个“血洗”全球的男人,什么来头?
  13. 加州野生海豚“用尾巴走路” 游客看傻眼
  14. 美情报界给习近平起了个新绰号 三个字
  15. 张又侠被抓后 中国出现“七大异常现象”
  16. 金价暴跌 大陆黄金回收商单日亏百万元
  17. ICE突袭家庭旅馆,来不及求助就被抓
  18. 黄金涨到多高才算高?
  19. 以色列:伊朗必须同意三条“红线”
  20. 疑揭露中共官员不良行径 中国知名调查记者刘虎被刑拘
  21. 长岛铁路撞车起火,致3人受伤
  22. 基因对人类寿命的影响或超50%
  23. 看人就看这10个细节 特别灵
  24. 刘云山铁杆旧部连辑落马 曾整肃《炎黄春秋》
  25. 伊朗军舰企图劫持美油轮 遭美驱逐舰驱离
  26. 陕西医院手术直播 突现女患者私处 5万人涌入抢看
  27. 带回家睡!美国大兵"强制性侵"冲绳未成年少女,最终判决出炉
  28. 姐弟打折卖肉,年入百亿,负债率近200%
  29. 曾有病人多次要求出院无果后自杀!记者卧底调查内幕
  30. “废除ICE”!榜莱美颁奖典礼上,多位顶流一起发声!
  31. 为援救母亲和弟妹 澳洲13岁男孩海中游4公里
  32. 意大利天使壁画修复后“撞脸”总理引发舆论风波
  33. 搅乱血糖的四大“元凶”找到了
  34. 女子在梦中看见自己一生的命运
  35. 为了这道光,越来越多人飞去摩尔曼斯克
  36. 精液顺差?男留找外女扬我国威 女留找外男淫乱叛国?
  37. 致命“渐冻症”神奇康复 医学精英重获新生
  38. 震撼!美军“光束融化”实测成功 无限弹药 无人机克星
  39. 爱泼斯坦文件中“吃人”传闻是怎么来的?是真的吗?
  40. 旅德异议人士呼吁中共允许许志永为母亲送葬
  41. 张又侠为何必须出局 习近平的权力布局
  42. 山东济南一公安局长亲自强拆抢地 抓走多名村民
  43. 欧盟宣布对金风科技展开深入调查
  44. 张又侠落马共军全国大调动 军长放狠话:习近平敢来有去无回
  45. 消失的将领:习近平军队高层大清洗
  46. 史上最强编程模型Claude 5泄露,最慌的是黄仁勋?
  47. ICE来了就吹哨子!暴力执法下的明州人民如何对抗?
  48. 克林顿夫妇同意就爱泼斯坦案调查赴美众议院作证
  49. 美众院民主党现分歧 共和党拟单推参院拨款案
  50. 盖茨前妻:唤起27年婚姻“极其痛苦”的回忆
  51. 年售超1亿只 Costco“神鸡”出事了!消费者集体诉讼
  52. 张又侠落马拉开序幕 习近平21大前的权力布局
  53. 初代浪姐已塌房4位?
  54. 为何川普加征关税未导致2025年美国通胀飙升?
  55. 摩尔线程AI Coding Plan上线
  56. iOS26.2突然关闭系统验证通道
  57. 甘肃开两会 访民孙金秀被维稳、跟监
  58. 中共网络新法草案涉跨境镇压 被批反人类恶法
  59. 一位SpaceX投资人谈收购:为xAI输血,一级融资太难
  60. 冠心病死亡率全球最低,日本这5个习惯赢在哪里?