腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 大陆结婚登记被爆造假 民政局雇人充场
  2. 美国乡村3人疑吸毒过量死亡 多名急救人员被隔离
  3. 习近平“两套外交剧本” 川普享帝王礼遇 普京拿大单
  4. 民运人士毛庆祥发徐光出狱视频 被公安带走
  5. 美伊协议草案据称已达成 黄金急涨 美元油价跳水
  6. 广西四千万建根治欠薪平台 被曝沦为摆设
  7. 美政府力推天然色素 竟可能增加糖尿病、癌症风险
  8. 工人坠亡,美新版“星舰”首飞推迟
  9. BBC:普京红毯规格比肩川普 却没带走最想要的东西
  10. 邓聿文:川普没卖台却更危险 他把不能明说的说出来了
  11. 记者手记:走进紫禁城
  12. 黄仁勋:受出口管制影响 中国AI市场已让给华为
  13. 到了北京,就要吃庆丰包子
  14. 莫迪和梅洛尼为这谐音梗哈哈大笑 印度网民不乐意
  15. UFO降落在后院 3名外星人从中出现
  16. 央企旗下军需巨头造假近百亿 股票被“ST”
  17. 卢比欧眨眼、川普破例喝酒!解读川习会漏网镜头
  18. 川普坦言出席长子婚礼“时机不佳”
  19. 爱吃牛排汉堡的川普 为何大买日本寿司店股票?
  20. 中国足坛再爆65人涉“假赌黑” 17人终身禁足
  21. 川普再次表示将与赖清德通话,或激怒中国
  22. 极端暴雨频发,山区县城为何越来越脆弱?
  23. 川普让步,内塔尼亚胡“怒不可遏”
  24. 中共水利部人事调整 一个半月逾十水利官员落马
  25. “史诗之怒”将拍电影 重现美军生死营救
  26. 央视血旗惊现“倒立播报” 莫非是“变天信号”
  27. 暴雨致湖南6人死亡10人失联,记者实地探访惨状
  28. 日本惊爆“撞脸代考” 中国籍枪手与考生本人正面撞上
  29. 卢比欧将访印度 聚焦美国能源输出与安全议题
  30. 摩根大通和美国银行为与中国军方有关联的中企募集资金
  31. 川普放狠话:一定拿到高浓缩铀 不许收海峡过路费!
  32. 传美暂缓140亿对台军售 学者:台湾务必加快国防自主
  33. 迷奸“失忆者”的罪恶产业链:危险的“三件套”
  34. 绿卡“大审查”来了,哪些最危险?
  35. 川普:不支持海峡过路费
  36. 川普前儿媳确诊乳腺癌 曾是模特 现与老虎伍兹恋爱
  37. 中国的大学景区化:凭啥进中国高校游览那么难?
  38. 伴侣算账争议,你月入5万,我月入5千,你让我AA?
  39. 小米YU7 GT上市,雷军:要再次挑战Model Y
  40. 巴拉卡核电站,被炸起火:背后的国际政治角力
  41. 菜场里的作家:她并不浪漫,也不幻想
  42. 关于位樊姓女同学:上海交大还需回应这个细节
  43. 《监狱来的妈妈》事件:该关注正在倒退的大众智商
  44. 全球首创,即将“出国”
  45. 佛州深陷“火海模式”
  46. 古巴外长:鲁比奥正挑起军事侵略
  47. 美国可能逮捕他:古巴局势的3种可能
  48. 五粮液股价跌去四分之三 欲100亿回购股票
  49. “蟑螂人民党”横空出世爆红!切中牛马社畜们的要害?
  50. 吸毒纵火烧死人!美死囚临终微笑:我要回家了
  51. “股神”川普,一季度买卖股票超3600次
  52. 让“贫血”的影院有了温热,《给阿嬷的情书》做对了什么?
  53. 芬兰防空洞吸引全球目光 乌克兰波兰争相取经
  54. 叶珂咋又变样了?
  55. 川普宣布向波兰额外部署5000名士兵
  56. 连环杀手杀3名女性,被判30年至终身监禁
  57. 中俄“无上限友谊”,有上限
  58. 抛弃两个儿子,母亲被抓
  59. 纽森签全美首令,防AI夺饭碗
  60. 海南一儿童零食掉地上 蚂蚁吃完集体暴毙