腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 湖北省自然科学基金拟立项项目公示
  2. 两任中共军事法院院长接连遭免职 引揣测
  3. 牌空调巨头倒在春节前
  4. 平顶山打人夫妻被逮捕,老家村干部发声
  5. 美国与台湾的“谷爱凌们”
  6. 辉达财报优于预期 营收681亿美元再创新高
  7. 金正恩对美递橄榄枝:不打压就能好
  8. 新一代太阳能电池效率突破15%
  9. 中共发布纪律“十严禁” 知情人揭内情
  10. 从20万跌到2万,AI下的小程序开发者
  11. 卢比欧:美中关系已达“战略稳定”
  12. 【中国观察】退伍军人的怨怒
  13. 古巴:美快艇“持有武器”企图渗透,闯水域交火4死6伤
  14. 美股收盘:“七巨头”走强 三大指数两日齐涨
  15. 高德曼恭贺华人新春 宣布提案SNAP升级晶片卡
  16. 美前F-35战斗机教官涉为中共培训飞行员被捕
  17. 李桥铭等九将领被罢免人大代表资格 会议没提张又侠
  18. 东京银座“头牌”,靠一支笔“杀”入日政坛
  19. 李嘉诚又卖了!长和系三公司公告出售英国电网业务
  20. 60年一见火马年,生肖占星合壁
  21. 俄驻联合国大使:我是乌克兰人
  22. 软件股暴跌背后的大逻辑
  23. 中国公民在日遭袭,500万被劫
  24. 华人老夫妇豪捐$3000万!从不会英语到冠名大学…
  25. 9名将领被罢免人大代表职务 不含张又侠刘振立
  26. 最著名的预知梦 预见了坠机事件
  27. 有多少滞留三亚的中产,被自己“穷笑了”
  28. 女子嘴角长水泡,不幸脑死亡
  29. 白宫再现麦当劳盛宴!川普宴请奥运冠军引炸锅
  30. 医保或迎巨变!川普政府拟调整奥巴马健保 自付最高…
  31. 张又侠旧部安兆庆上将异常缺席人大常委会
  32. 网友太有才 “邓小平怒怼习近平”视频疯传
  33. 台行政院长下令 各部会禁提供李贞秀任何资料
  34. 睡觉时有4种异常 可能是血脂高了
  35. FBI解雇多名参与川普机密文件案调查特工 引爆争议
  36. 取消中国最惠国待遇前兆?美正式启动调查
  37. 多个中国手机品牌将涨价 预计最大涨幅25%
  38. 川普访华聚焦三大问题 知情人揭中共政治盘算
  39. 英伟达日赚22亿,全年净利已超4个腾讯
  40. 不羡慕有房有车,零负债成年轻人的人生顶配
  41. 放弃2亿天价offer,他提桶投奔OpenAI
  42. Meta“2亿美元”AI大将被挖走
  43. 魅族手机或将成为历史:业务实质性停摆
  44. 古巴海岸致命枪案牵扯美国快艇 卢比奥回应
  45. 涉培训中共飞行员 前美空军少校被起诉
  46. 英伟达财报超预期股价却重挫5.6%
  47. 美国土安全部官员否认ICE将在投票站执法
  48. 人大常委会二十一次会议缺席13人 两上将不见踪影
  49. 胶带的“嚎叫”
  50. 川普政府暂停明州医疗补助 以调查欺诈问题
  51. 涉为中共培训飞行员 前美F35战机教官被捕
  52. 纽约州长介入 长岛爷爷得以保留“搞笑车牌”
  53. 福特推动尼亚加拉12市镇合并
  54. 协和发布仑卡奈单抗研究
  55. 首个儿童小阴茎专用药获批
  56. 美超级富豪逃命!“重金聘佣兵”乘船搭机撤出墨西哥
  57. 肠道菌群:人体内“古老的新器官”
  58. 为保“两会蓝”大陆华北钢厂被迫减产
  59. 一个不被看见的儿子,和一场“违规”的走红
  60. 到达北京以后,德国总理默茨用中文发帖