腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 攸关生死 爆张又侠和习近平在争夺一“神秘东西”
  2. 46年来首次!埃及总统将以色列称为“敌人”
  3. 中企在赞比亚因“生态灾难”遭起诉 金额达800亿美元
  4. 微软在华产品又被曝留后门
  5. 二大爷美签或被撤销 王志安或被限制入境
  6. FBI焚烧毒品却不通知,烟雾全被人吸了
  7. 那个睡网吧的躺平小A,怎么就突然消失了?
  8. 大陆一公司集体降薪 最多降50% 引发争议
  9. 今年首次!美联储降息1码 预计年内还降两次
  10. 价值连城 埃及博物馆法老金手镯展出前失踪
  11. 英王举行国宴 大赞川普 强调英美“最密切关係”
  12. 【佳音时刻】非裔男生入住女宿 重庆高校惹议
  13. 中国拟购500架波音飞机 川普访中“最后谈判阶段”
  14. 各地雇员因“庆祝”遭解雇,万斯呼吁举报
  15. 俄罗斯称准备与美国就能源合作展开“更深入的讨论”
  16. 房子何时买卖?专业预测加州2026年房市
  17. 印度毛主义叛乱分子宣布结束武装斗争 当局正在核实
  18. 为什么美国的电价上涨这么快?
  19. AI应用快速渗透 引爆美国电力荒!核能重返C位
  20. 川普政府援乌解方:北约出资,美国出货
  21. 前中共刑警在美国不当言论被举报
  22. 查理·柯克追悼会演讲嘉宾名单曝光
  23. 德国小伙在中国贫困山区支教10年,然后他去哪了
  24. 最阴毒大佬自订潜规则 送正派老婆来睡才办事
  25. 波兰关闭边境 数百中欧班列受阻 王毅游说被拒
  26. 湾湾怎么总出邪门CP?
  27. 中国商界哀歌 马云的归来与企业家集体殒落的时代
  28. 川普终于打通了莫迪的电话
  29. 16岁少年因为“2句话”将母亲送上了断头台
  30. 腾讯全线产品接入大模型
  31. 2025年美国电价创下历史新高
  32. 中国下令停止采购辉达芯片 美众议长批加剧紧张
  33. 美联储降息了,释放何种信号?
  34. 美国仅派出国防武官出席香山论坛
  35. 边境巡逻队抵达芝加哥 启动“大行动”
  36. 满天全是窟窿眼 大灾要来了?
  37. 加州议会通过堕胎药法案 允许医患保持匿名
  38. 美国新版公民考试难度加大 采用口试
  39. 华裔女学生公开挺政治暗杀 美民众:遣返回国
  40. 尚不含在校学生 中国官方数据:青年失业率18.9%
  41. 说柯克“活该” 亚裔医生辞职 举报他的护士被辞后复职
  42. 中国首次跻身“全球创新指数”排名前十
  43. 日本软银已不是第一大股东
  44. 澳洲女子银行取$2万装修被拒
  45. 美国入籍考试变难 题库题量双增 纳入这些新内容
  46. 华盛顿对北京政策大转向
  47. 泰国中部上百只猴子集体“越狱” 四处作乱
  48. 涉毒艺人过得都不好
  49. 德媒:欧美效法中国产业政策 不得要领 学错了重点
  50. 中共放宽外资购房限制 专家:难挽楼市颓势
  51. 今年第9人!伊朗宣布已处决“以色列间谍”
  52. 崇祯一朝灾祸有多严重?让我们看看历史的记载
  53. “俩俩”同时失踪 贵州四川等多地大男孩失联
  54. 华裔女生引毛语录 主张政治暗杀遭肉搜 网:遣返她
  55. 中国138个收缩型城市名单,是如何出炉的?
  56. 天人交战当口ㄧ物空中甩落 奸夫淫妇吓得发抖
  57. 宗馥莉,放弃娃哈哈?
  58. 高人处世 有4个特点
  59. 【重播】川普夫妇前往圣乔治教堂 出席欢迎仪式
  60. 唐元隽承认充当中国政府代理人