腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 消失多年!“军中妖姬”汤灿50岁复出 坐网约车录春晚?
  2. 年关近跳桥自杀的人增多 传四川宜宾大桥设保安值守
  3. 让中共军队有来无回 台海“无人地狱”很快成真
  4. 一定出大事了 习近平握手时 警卫攥紧了拳头
  5. 美国召集非洲西撒哈拉问题会议
  6. 佛州实行:不会英文不能考驾照
  7. 川普大骂美国冬奥运动员,谷爱凌发声
  8. 黎智英遭重判20年 微笑面对“变相死刑” 国际痛批香港法治
  9. 古巴机场燃油耗尽:石油储备撑不到10天
  10. 美国潮流:从尸体提炼脂肪当隆乳提臀 医曝供不应求
  11. 法拉盛两名亚裔男涉诈骗红蓝卡与白卡1.2亿美元
  12. 听不懂时很嗨 听懂后全网炸锅 超级碗中场秀引爆争议
  13. 高市早苗大胜 中共官媒:中国不乐见但必须正视
  14. 山西订婚强奸案关键视频曝光 男方罪成囚3年
  15. 开年40天25官员落马 李强爆张又侠核心案情?
  16. 李南央评张又侠事件 蔡霞:习近平与中共必有一斗
  17. 浙江前省委书记易炼红落马 因拉帮结派?
  18. 多伦多房价趋于亲民,回归疫情前水平
  19. 张升民不肯与老干部握手 最高领导层军权基础不稳
  20. 韦驮神通广大 运大米给涌泉寺
  21. 凌晨断网 门廊血迹:一场精准策划的“名人绑架案”?
  22. 石泰峰等四名副国级高官缺席政协高层会议
  23. 乘轮渡去曼利海滩
  24. 天塌了!法院判决:被逮捕的非法移民无权保释
  25. 美国花滑队或创奥运历史性战绩 一文看懂
  26. 性都不是义务了,婚姻还剩什么?
  27. 北京神助攻 高市获“超级授权” 剑指军工解禁与情报局
  28. 中国军网点名 宝可梦 名侦探柯南都是“军国主义”
  29. 马斯克与领英霍夫曼“隔空驳火” 互揭与爱泼斯坦往来
  30. 村民在山洞办酒席
  31. 军报藉张国焘影射张又侠?知情人揭军队真实战力
  32. 字节又一新模型:Seedream 5.0上线
  33. 日本自民党历史性大胜,为什么?意味着什么?
  34. 研究人员发现超不寻常天文事件
  35. 王友群:中央军委副主席张升民前程凶险?
  36. Seedance2.0对AI应用意味着什么?
  37. 大湖北战斗民族欢乐多
  38. SpaceX将重心转为先建造月球城市
  39. 5岁男孩惨遭10男轮奸
  40. 边境深夜拦车 华人藏偷渡车 被列"特别关注外国人"
  41. 川普再出手 14亿美元助台湾防卫 “地图条款”挑战一中原则
  42. 凯文?沃什接手美联储 能否扭转数十年错误?
  43. 组图:情人节将至 哥伦比亚花卉农场榜外忙
  44. 干预美国选举 中共代理人孙耀宁获刑4年
  45. AI冲击 美年轻世代改走“非传统大学”升学路径
  46. 川普怒批超级碗中场秀:简直就是打美国的脸
  47. 马斯克:拟10年内在月球建“可自我生长城市”
  48. 爱泼斯坦案文件震荡英国政坛
  49. 芯片税开征前,美国或为科技公司提供豁免
  50. 要想富,让一部分人先“疯”起来
  51. 全新本田Vezel谍照曝光
  52. A股震荡走高,科网股全线反弹
  53. 某公安民警偷了嫌疑人2000多万的U去炒币
  54. 爱泼斯坦文件指向暗黑美国的入口
  55. 什么人有8大贵相?什么人有8大衰相?
  56. 国际选举 习近平为何总是反谁谁赢?
  57. 英国宣布:扩大港人BNO移民签证
  58. 11岁女孩斑马线遭校车撞亡 司机逃离现场引发众怒
  59. 中国软实力正改变西方的对华政策
  60. 阿里达摩院开源具身大脑基模RynnBrain