腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 爆料:秦刚已死三渠道确认 同日12人被执行死刑
  2. “4.25”内幕爆料:军人枪弹上膛 欲重演“六四”
  3. 中共黑手伸入非洲 南加侨界:文明秩序不容践踏
  4. 华女盗刷卡被通缉 竟早已在监狱 刑满还将被遣返
  5. 美中AI差距越拉越大?不是竞争 而是碾压…
  6. 中国女大闹飞机自称空姐 帅气空少爆红 南航撇清
  7. 川普政府反恐高官在“糖爹”网站上曝光 传被包养遭停职
  8. 乒乓机器人战胜人类球手
  9. 为什么我们的语文课本里,全是“失败者”?
  10. 孙宇晨指控川普家族旗下加密货币公司涉"勒索"
  11. 自称南航空姐 中国女子飞机上闹事被带走
  12. 他们困在霍尔木兹,有人已精神崩溃
  13. 华人移民案在最高法院引发大法官辩论
  14. 一文看懂伊朗局势发展三种可能
  15. 加大伯克利分校接连两起死亡事件
  16. 以放话“等美国点头就开打” 德黑兰启动防空 油价飙涨
  17. 川普下令:“开火击沉”伊朗布雷船只
  18. 中共官场大清洗 省部级高官被查处人数暴增
  19. 如何看待交易拥挤度对AI板块的影响?
  20. 想仿效伊朗!印尼提议马六甲海峡收费,星马反对
  21. 丈夫出轨、闺蜜背叛,她烧炭自尽
  22. 美军空中垂降登船 扣押往中国伊朗走私船 震撼画面曝
  23. AI烧钱太猛!Meta裁8000人 微软推“买断”方案
  24. 多州接连对他们动手,美民主党疯了
  25. 英国会通过法案:2009年起出生者终身禁买烟
  26. 四川广安千人争35岗位,福州网格员月薪两千元
  27. 伊朗不甘示弱 释出扣船视频 蒙面突击队强登货轮示威
  28. 英国健康敏感数据遭泄 被阿里巴巴挂牌出售
  29. 赖清德访非受阻 美国务院、AIT、欧盟批中共施压
  30. 以防长:重启对伊战争 只等美国开“绿灯”
  31. 把握机会实现财务飞跃 台美老移民理财经验谈
  32. 妹子连睡64天 吃饭如厕全靠梦游 俩月毫无记忆!
  33. 川普称伊朗“严重分裂” CNN:恰恰相反 是“越打越抱团”
  34. 台商走了 厦门惨状惊人!500万人哪去了?
  35. 陕西4月罕见鹅毛大雪 果农跪地求天留“活路”
  36. 美国务院:悬赏400万美元缉捕达伦·李
  37. 中国公民入境巴拿马遭扣留 中使馆提醒公民
  38. 库克真心话!iPhone这功能“犯大错”
  39. 加州超2万人失业登顶
  40. 马斯克斥资30亿建晶圆厂 将用英特尔14A制程
  41. 中际旭创市值一年内涨超10倍
  42. 《按需杀戮》作者:了解活摘真相的时候已到
  43. 川习会前白宫发备忘录:中国以工业规模窃取AI技术
  44. 前CIA官员:中共用全球最大情报系统打压美企
  45. 加州$5.2亿直接发放 账单集体减免 无需申请自动到账
  46. 清除霍尔木兹潜藏威胁!英国海军准备执行扫雷任务
  47. 忧川普不作为 美国会推动严控AI芯片出口中国
  48. 分享验证码,5.5万加元没了
  49. 川普政府锁定384人 欲撤销其公民身份
  50. 稀土公司副总当内鬼 泄漏7项国家机密遭国安揪出
  51. 早已写下的预言?表面强大却内部崩坏的世界
  52. 从现在开始,任何截图都不要相信
  53. 华谊兄弟被申请破产案获法院受理 7年亏82亿
  54. 欣旺达Q1营收同增31%
  55. 中国美国商会:中国供应链相关新规令美国企业担忧
  56. 传反恐高官被包养遭停职
  57. 细思极恐!中共社媒分析系统曝光 精准还原现实身份
  58. 4.25上访 军队镇压未遂(2)暗设陷阱
  59. 哪吒汽车破产 多地国资投入超80亿元
  60. 案件聚焦:关于一条征婚广告的尸解报告