腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 川习会场边蔡奇疑训斥王毅 中共权力格局惹议
  2. 全球通胀加剧债市风暴,动摇AI牛市
  3. 野村警告:这次“日债风暴”不一样
  4. 大陆女子求职被告知:拒潜规则就不录用
  5. 美国防长为何突然随行访华?
  6. 波音回应:已获200架中国意向订单初步承诺
  7. 年薪132万美元,黄仁勋儿女管的却不是芯片
  8. 枪挑“虎头师”
  9. 川普松口:可接受伊朗暂停核计划20年
  10. 美股就像“冲向沙滩的孩子”一样无视危险
  11. 时隔10年,李冰冰重回戛纳红毯
  12. 超级厄尔尼诺今夏见,冲击市场暴应
  13. 马斯克开源X最新推荐算法
  14. 特滴酒不沾的朗普在中国破例抿了一口?白宫回应
  15. 继川普之后 普京访华讨论俄中领土条约续约
  16. 川普公布“美国英雄国家花园”选址
  17. 川普:这是完美的表态,我可以再说一遍
  18. 川普对台湾明确表态:我不希望有人宣布独立
  19. 郭富城娇妻拒住大通铺引热议
  20. 川普返回白宫,再谈中国之行
  21. 参议院枪声背后:菲律宾内斗升级
  22. 王爱琳案发 民运人士:中共代理人仍大有人在
  23. 珠海前市长何宁卡落马 系李源潮同窗室友
  24. 漳州杨梅收购点滥用添加剂 工人称自己不吃
  25. 离谱双标引热议!张雪叫板雷军退款底气十足
  26. 习在川习会上提修昔底德陷阱 被指严重误判
  27. Waymo又要大扩张
  28. 川普访中:没更糟,但也没更好
  29. 消息人士:美以或最早于下周恢复对伊朗军事行动
  30. 奥运冠军杨威发视频 一家六口挤香港40多平出租屋
  31. 高传染病毒B19蔓延加州 危害儿童孕妇
  32. 加密行业等了十年的那部法案,离签字只差一步
  33. 美联储任命鲍威尔担任临时主席 直至沃什宣誓就任
  34. FBI悬赏20万通缉前女特工:前入境伊朗后叛国
  35. 泰国曼谷货运列车与巴士相撞 至少8死15伤
  36. 莲花“出淤泥而不染” 究竟藏着多少天机
  37. 李连杰首谈甲亢令面容巨变
  38. 从“达纳萨尔案”看国家利益豁免的新设标准
  39. 川普扬言再炸伊
  40. 史上最大IPO来了!SpaceX确定上市日期:6月12日
  41. 免疫力崩盘的前兆!出现这5个讯号就要立刻警觉
  42. 美国130多座城市被限制加房产税
  43. 现实世界的特异功能侦探
  44. 洛警方突袭仓库 缴价值近千万假奢侈品 抓两亚裔
  45. 日本版“星链”已经启用
  46. SpaceX加快IPO进程:最快6月定价
  47. 川普访华结束,中美胜负已分
  48. 国际足联秘书长:相信中国很快进世界杯
  49. 翁帆近况曝光:带妈妈和昆曲老师聚会
  50. 有关AI的违法违规事件未来可能蔓延到全国
  51. 四川现“论文黑产业链” 受害者遍布全国
  52. 他们偷拍时咋没想到爸妈年纪大了?
  53. 川普在中国破例喝酒了?白宫回应
  54. 中国文革发动60周年祭 墙内悄无声息 墙外讨论分析
  55. 官媒:美国随访记者吐槽在北京被罚款 结果翻车了
  56. 随笔:“小姐”一词的沉沦史
  57. 卢比奥曝北京对台最大企图 袁红冰解读
  58. 复旦学者:国宴上这首乐曲响起 美方表情瞬间亮了
  59. NBA比赛现场播放他的少林寺片段 赞其表现靠修炼
  60. 未来十年的“宏观图景”