腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 就业难 中国地摊设备销售暴涨600%
  2. 全网最热门AI写高考作文,出人意料
  3. 建厂谈判正式告吹,印度为什么留不住特斯拉
  4. 在家养老,4科技可助达成目标
  5. 佳木斯黑熊出没 追逐垂钓民众和车辆
  6. 【百年真相】现场排长揭密:你不知道的邱少云
  7. 中共高层当中 是谁最怕“六四翻案”?
  8. 伊战百天,油价会不会飞天?
  9. 狂言出圈后,俞浩被反噬
  10. 乌克兰140架无人机狂轰“普京家乡”圣彼得堡!
  11. 指控川普商场试衣间性侵,女作家“摊上事了”
  12. 欧洲市场正被中国商品吞噬 何以至此
  13. 普外科专家寿楠海辞世
  14. 70岁也能出国留学,老年留学热来袭
  15. 外企纷纷出走古巴 共产政权再遭重击
  16. 网购的烦恼
  17. 高考前,偷偷吃避孕药的女孩们
  18. 黄仁勋40年初恋故事被挖
  19. 中国惊现“巨型老鼠”比兔子还大
  20. 46岁汤唯去香港待产二胎
  21. 十年前的研判——大型书城改造升级潮背后的隐忧
  22. 发小曝光金泽最后的朋友圈
  23. 又一位!杰出天体物理学者放弃美国教职海归中国
  24. 在讲座中辱骂学生:这个时代特有的精神疾病
  25. 75岁刘晓庆跪谢成都观众
  26. 黄仁勋韩国台湾热舞,舞姿松弛自然超吸睛
  27. 高盛:逢低买进正其时,两大潜在风险
  28. 黄仁勋坐过的炸鸡店椅子火了
  29. 流量恐怖主义:清华天才“崩老头”
  30. “其实喷我的人并不多,反而很多人对我感兴趣”
  31. 尼克队险胜马刺队,万人狂欢失控
  32. 4人蒙面抢劫,竟遇上海军陆战队老兵
  33. 蛋价淡季罕见暴涨近八成 背后是产能断层危机
  34. 7款Costco食品劣评如潮
  35. 俞大?谈美台外交关系 比喻中共为“博格人”
  36. “升糖大户”被揪出,不是米饭
  37. 苹果在中国越卖越好,原因不是品牌
  38. OpenAI芯片核心叛逃Anthropic
  39. 中共打完了稀土牌 还剩什么呢?
  40. 中国高考登场,考生1290万
  41. 这款取暖器,Costco紧急召回
  42. 美军击落伊朗2无人机,出动战机荷莫兹上空巡逻
  43. 中共打手在济州岛施暴 专家:侵犯韩主权
  44. 中国海底数据中心干翻传统算力
  45. 耿同学已被宣告“社会性濒死”
  46. 中国经济下行“中产破产七件套”成网络热词
  47. 豪华邮轮员工揭惊人黑幕
  48. 岳武穆祠的岳飞显灵事件
  49. 最伤眼睛的行为,不是玩手机
  50. 美社区急发警告:自来水须煮沸后饮用
  51. 加拿大雄心遇冷:68%居民反对
  52. 越南精英意识到,中美留给他们的路越来越窄了
  53. 上海80岁拆迁户告官100多次 不服法院裁定
  54. 分析:中共将经济手段武器化 美需采取行动
  55. 中国房地产巨头退潮途中,国资如何对待"包税人"
  56. 600多所高校抢占AI,“新天坑”专业出现了
  57. 中国悄然发射长征十二号乙火箭 被指违反国际安全
  58. 河北开发商夫妻闹离婚 牵出国有资产疑案
  59. 伴君如伴虎,蔡奇的权力已大到危险的地步?
  60. 纽约周末遭极端天气“连环暴击”