腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 革命卫队:对通过霍尔木兹海峡军舰将“严厉”处置
  2. 川普:中共若向伊朗运送武器 将有大麻烦
  3. 红帽研发撤离中国,一个时代的落幕
  4. 35岁之后,我拖家带口来新加坡AI创业
  5. 珠峰南坡发生超一亿骗保大案
  6. 面对失落的10年,博励治的药方
  7. 美国航母保持高度战备状态
  8. 苏州黄金回收店检测999足金 总店验出含金70%
  9. 万锦华裔杀母案:最后一名案犯获终身监禁
  10. 西藏高官丁业现被查 曾任区政府常务副主席
  11. 增收不增利 长安汽车2025年净利下滑44%
  12. 谈判无果而终,留下两大疑问
  13. AI救活了一家马桶公司,也点燃了存储芯片超级周期
  14. 教皇和美国总统面临最尖锐分歧
  15. 70岁张丰毅像小伙,不输52岁段奕宏
  16. 伊朗战争导致中国塑胶重镇樟木头恐慌性购买
  17. 美"3强硬要求"谈判破局,亲伊人士:根本不是来谈的
  18. 多数欧洲人认为美国比中国构成更大威胁
  19. 租客囤数百公斤这东西,房东被臭疯
  20. 房客第二次提出要买我家出租房
  21. 美国向伊朗提出最终方案
  22. 美伊谈判翻车!川普转发"海上封锁"文章,威胁下一步
  23. 谈判陷入僵局,伊朗消息人士:我们不着急
  24. 美伊会谈细节曝:持续15小时 万斯和伊朗议长握手
  25. 仓库纵火案同一地,购物中心又被点火
  26. 游客点一块7500日元的寿司,网友羡慕惨了
  27. 再提打击“村霸”,有何深意?
  28. 加州时薪20元,产业负面效应显现
  29. 伊朗:抓捕50人
  30. 中国突然“断供”硫酸 全球铜矿与粮食链同时告急
  31. 心梗病人吃花生,或有4变化
  32. “停战”对内塔尼亚胡意味着“重启审判”?
  33. 中山美穗去世后,儿子竟选择放弃遗产
  34. PG&E高管去年薪酬普遍变高
  35. 61亿连拿两地,5500亿张一鸣开启"花花花"模式
  36. 郑丽文访陆尾声,中共台办公布两岸交流"十项措施"
  37. 长岛铁路工会拟5月16日罢工
  38. 含芝麻未标示,食检局发布健康警示
  39. 沈舟:屡经实战验证的美军空中优势
  40. 当市场聚焦美伊谈判,石油争夺战正上演
  41. 上市十年首次 陆企坚朗五金净利下滑211%
  42. 川普:若抓到中共给伊朗武器 将加50%关税
  43. 21小时马拉松谈判,美伊谁“赢了”?
  44. 逃离中东战火,海湾富豪涌入瑞士小镇
  45. 章子怡获汪峰前任夸赞
  46. 机器人开始进工厂:为什么难成优秀员工
  47. 国会提案,强化直升机安全
  48. 农夫山泉接班路径渐明:钟墅子任钟睒睒助理
  49. “海外产子”真相大白,她现状曝光
  50. 伊朗:预计日出后续谈
  51. 美伊刚停火,内塔尼亚胡腐败案将恢复审判
  52. 大学生不谈恋爱,“上岸”才是必修
  53. 雅典卫城遗址、博物馆
  54. 香港反送中7千人未起诉 带去中国参观“认识国家”
  55. 谈判无果,伊朗局势发展有几种可能.....
  56. 俄乌停火引发“罗生门”,双方互相指责
  57. 杭州楼市“小阳春”成色不足 房价续跌
  58. 副部级丁业现被查
  59. 王石回应被抓传闻:造谣者交给法律
  60. 对内塔尼亚胡腐败案审理定于12日恢复