腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 河南尉氏县集体自来水中毒 医院爆满市民疯抢桶装水
  2. 困扰人类80年的数学难题,被AI破解了
  3. 川普,“退了一万亿”
  4. 为乌克兰入欧,默茨想了个新办法
  5. 大陆年轻男子猝死街边 消息瞬间冲上微博热搜
  6. 中国籍贩毒嫌疑人在中国被捕,在美国被起诉
  7. 一个电话号码,举报了成都四百家茶楼
  8. 孟加拉水牛“川普” 因长相酷似美国总统而爆红
  9. 汪涵4天才道歉,黑料被扒底朝天
  10. 美方施压下 北京抓捕多名中国毒贩
  11. 苏姿丰“中国行”爆火,她在现场回应了7个关键问题
  12. “被结婚”13年:难以撤销的婚姻登记
  13. 一线城市房价上涨,中国房地产市场有望复苏吗?
  14. 黄仁勋回顾创业史:若重来不会创办英伟达
  15. 文革60周年了 共党遗毒让习近平得以“坐享其成”
  16. 沙特、阿联酋从“兄弟”变“对手”,欧佩克进入衰退期
  17. 中共声称人均GDP超一万美元 评论区炸锅
  18. 每日服用多种维生素有助于延缓衰老
  19. 川普为何再次把台湾搬上台面?
  20. 姥姥亲吻婴儿脚丫,染上脚气
  21. 外储汇率双承压,印泰等国节流维稳
  22. 一封来自性少数研究生的信,收到最高法研究室答复
  23. 中方推迟美副防长访华?
  24. 天津农学院原党委书记王延文病逝
  25. 川普称将与赖清德谈军售 北京施压会否奏效?
  26. 徐元森:两次转变科研方向,只为国家需要
  27. 美国起诉古巴前领导人劳尔?卡斯特罗涉犯谋杀罪
  28. 中国警告美国不要加征新关税,同时确认采购协议
  29. 身份证被冒用登记结婚 河北女子维权半年无果
  30. 马斯克离全球首位万亿美元富翁又近了一步
  31. 阿斯麦CEO:中国会加速自主,这是存亡问题
  32. 美政府力推天然色素 竟可能增加糖尿病、癌症风险
  33. 美伊协议草案据称已达成 黄金急涨 美元油价跳水
  34. 谷爱凌的“休息法”,养出了她的高精力
  35. 普京离京 中俄天然气管道谈判无果
  36. 上海交大樊大小姐:4500元酿成的惨案
  37. 暴雨席卷中国多省 洪灾已致22死20失踪图)
  38. 邓聿文:川普没卖台却更危险 他把不能明说的说出来了
  39. 黄仁勋:受出口管制影响 中国AI市场已让给华为
  40. BBC:普京红毯规格比肩川普 却没带走最想要的东西
  41. Anthropic入局或改写云计算竞争格局
  42. 一线城市,又开始拆迁造富
  43. 记者手记:走进紫禁城
  44. 意大利专家助攻利佛摩打造专属风格
  45. 奥地利前情报官为俄当间谍 获刑4年
  46. 半个俄罗斯政府都来了,普京这次访华只想搞钱
  47. 央企旗下军需巨头造假近百亿 股票被“ST”
  48. 方言电影开始灵了吗?
  49. NBA西冠第2战,雷霆扳平马刺
  50. 套取科研经费1400万 福建一博士后获刑8年
  51. 海图上总是出现 不存在的幽灵之岛
  52. 屋仑市长芭芭拉李争取连任
  53. 课程查询器,家长可掌握子女课堂进度
  54. 川普让步,内塔尼亚胡“怒不可遏”
  55. 卢比欧眨眼、川普破例喝酒!解读川习会漏网镜头
  56. Google进入“动口不动手”时代
  57. 到了北京,就要吃庆丰包子
  58. Token经济时代,AI公司如何“反脆弱”?
  59. 三星罢工才喊卡"股东怒了"!控12%奖金协议违法
  60. 中共宣传被曝渗入AI模型 分析:恐成默认认知