腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 川普签署反恐新战略 重点应对西半球威胁
  2. 中共两任防长李尚福、魏凤和双双被判死缓
  3. 是谁组织中国小学生参加海参崴“胜利曾孙”庆典?
  4. 李承鹏最新:致我们未来的生活—新世界多美丽
  5. 承诺不卖的“鑫多多”悄悄卖了
  6. 尘埃落定 两任国防部长魏凤和、李尚福被判死缓
  7. 胜利日当天莫斯科将断网 民众被建议下载离线地图
  8. 20多万一针?百万元一针的“抗癌神药”将迎来大降价?
  9. 中国的势力范围,在这张图上小得可怜!
  10. 重庆公安局长张安疆突死亡 传言四起
  11. 两个首富,一起迎来“至暗时刻”
  12. 大陆男发视频“箭射龙袍猪头玩偶”遭封号
  13. 合肥市委书记费高云落马 疑似与李强、吴政隆交好
  14. CIA前高官:普京政权恐崩溃
  15. 报价高达21亿元!FIFA回应中国区天价世界杯版权
  16. 美日菲军演 日本向南海首射88式反舰导弹
  17. 美国是原油出口国 为何油价仍飙升
  18. 吃海鲜肾衰竭,5大重金属高风险食物
  19. 1650亿美元还不够?台积电不排除扩大对美投资
  20. 川普:美伊签和平协议,为时过早
  21. 全球债务规模逼近353万亿美元 美中占比最高
  22. 三星家电全面退出中国:一场迟到的告别
  23. “没绑紧”不是遇难女孩说的
  24. OnlyFans大军涌入美国,干这行太有钱了
  25. G7部长商讨强化矿产供应链 降低对华依赖
  26. 廉价中国化学品横扫欧企 欧盟反倾销案创新高
  27. 媒体沦中共传声筒 中天主播林宸佑涉共谍遭求刑12年
  28. 川普:即便油价涨到200美元,打这场仗也值得
  29. 明慧网4月份获知:46名法轮功学员遭冤判
  30. “猪头皇帝”被斩首视频疯传
  31. 大陆高校扩大收集私隐 留学生成重点监控对象
  32. 普京最危险时刻,爱国派都要“革命”了
  33. 获川普强力背书!24亿身家印裔大亨赢俄州长初选
  34. 川普突然叫停“自由计划”内幕:一个关键盟友反水
  35. 留学生赴墨西哥旅游,入境被关小黑屋后驱逐出境
  36. ICE拘留中心黑幕曝光 移民讨水喝竟遭“化学弹”镇压
  37. 迪士尼邮轮变执法现场 多名船员当众被ICE带走 游客看傻!
  38. ICE拘留中心黑幕曝光
  39. 纽约时报:川普将访问早已不再仰视美国的中国
  40. 办理谋杀案滥用AI,一检察官被禁出庭
  41. 拜仁欧冠输球太冤了
  42. 四川少女玩“悬崖秋千”坠亡 16秒现场视频疯传
  43. 中国“五一”民航客流下滑 节后机票大幅降价
  44. 搜黎元洪给出谐星范伟 陆AI“豆包”出错惹议
  45. 不确定的中国梦:青年失业与"躺平"折射的社会现实
  46. 哈塞特:受投资激励 美经济增长料将达4%
  47. 川普多次失言后,卢比奥与教皇会面缓和紧张关系
  48. 56岁汪峰又换新欢,森林北划清界限
  49. 机器人互相厮杀?乌俄战场预告令人不安的未来战争
  50. 专家分析蔡奇谜局与习近平三重危机
  51. 与盟友合作 台湾力拼无人机“民主供应链亚太中心”
  52. 刘晓庆再爆大瓜:和助理同居6年
  53. 徐帆回应离婚传闻后,冯小罢行为惹议
  54. 28岁女混入高中就读两周 假身份遭校方拆穿
  55. 美国特勤局车辆现身北京街头:配备装甲 夜视 催泪气…
  56. 当年没收我们手机的爸妈,正被“网瘾”偷走幸福
  57. 俄罗斯“超级武器”细节曝光
  58. 美从德国撤军超5千人 波兰总统:我们可以全接收
  59. 川普警告:若拒协议将大规模轰炸
  60. 伊朗“尚未回应美方案”,美宣布新制裁