腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 大学生办转账提额,招行要求卡里得有20万
  2. 传北京官场私下流行嘲弄中共党魁
  3. 俄罗斯:川普同意释放所扣油轮上的俄国人
  4. 习近平夫妇咋了 一个戴素花 一个坐立不安
  5. 【军事情报局】伊朗抗议蔓延 军警撤退民众控城
  6. 有人天生免疫力好 6个特征 快看看你是吗?
  7. 事关中国,美商务部撤销计划
  8. “兔子警官”李语蔚当选2025最美浙警
  9. 川普霸气揭秘 “俄舰像老鼠一样逃窜!”
  10. 河南“梦幻雪乡”用棉花当白雪 游客负评灌爆平台
  11. F3+1再唱《流星雨》,周渝民回应无法站立
  12. 川普重申格陵兰主权诉求 美方传研议每人最高10万美元现金方案
  13. 高市早苗考虑提前大选
  14. 分析:委内瑞拉变天或引骨牌效应 中共心惊
  15. 看完CES,我的十点感受
  16. “小鹿大战犀牛”影片,百万人看呆
  17. 一场跨国追捕,揭开最赤裸的中美博弈序幕
  18. 委内瑞拉辟谣
  19. 美FCC批准SpaceX再部署7500颗星链卫星
  20. 我亲历的故事(一):1945苏联红军的阴谋和暴行
  21. 中国生产指数续降 通胀微升 分析:通缩未解
  22. 海军中将王征去世仅64岁 多名老上级此前出事
  23. 伊朗大规模抗议进入第13天 川普政权或濒临崩溃
  24. 清华教授的脑机接口,让瘫痪的人动起来了
  25. 伊朗动荡严重加剧,流亡的“前王储”试图复辟
  26. “歼10CE首获实战战果”入选柄防科技工业十大新闻
  27. 北京涎摊内瑞拉“恶债”恐惧 数百亿美元化乌有?
  28. 北京最怕委国援引“恶债”原则?数百亿美元恐化乌有
  29. 加州被指存在巨额医疗欺诈 规模比明州大
  30. 惊天爆料 美军已掌握“一小时全球抓人”黑科技 活捉马杜罗只是小试牛刀
  31. 从唐飞机坠机到C919 专家析中国航空安全
  32. 川普:中国在台湾问题上的行动“取决于”习近平
  33. 传世生存清单 20种“永生食物” 第一名惊掉下巴
  34. 美国12月非农就业报告“提前泄露” 市场降息预期骤变
  35. 美国ICE特工射杀女子细节曝光 她曾对执法人员说....
  36. “中国刻蚀机之父”放弃美国籍 为办税务拟套现近1亿
  37. 日本知名巨头退出中国内地市场,平价品牌狂奔
  38. 家里网速不对劲,可能是这些原因造成的
  39. MIT研究,穷人福音:不用堆显卡,抄顶级模型
  40. 越来越多华人选择回国养老,真相令人深思
  41. 石油、政变与绑架:马杜罗的“权力游戏”终局
  42. 一场惊天动地的斩首行动,是如何组织起来的?
  43. 马斯克旗下AI陷性暴露内容风波
  44. 1989年,美国出兵强抓巴拿马领导人
  45. 2025年个人income统计图
  46. 质疑奖金分配不公 大陆一期货公司员工遭停职
  47. 耳鸣消失了? 4个脖颈小动作之后大变样
  48. AI照片骗过5位评委,获摄影比赛第一名?
  49. 囤积商品的时代来临了
  50. 巴黎启动极寒预案:街头露宿仍难解决
  51. 吴恩达:图灵测试不行,我来设计一个
  52. “领导30万员工1万”,员工称直播谈话时被总经理袭击
  53. 台湾新党干部闹场骂日议员 被指破坏民主规则
  54. NASA宇航员突发疾病撤离
  55. 故宫养心殿对观众重新开放 内部照片上新啦!
  56. 《我不是药神》原型陆勇重返印度,计划停药
  57. 川普:需要拥有格陵兰岛,以防与中俄做邻居
  58. 格陵兰岛各政党领导人发表声明:不想成美国人
  59. 北约担忧川普将以“艰难”方式得到格陵兰岛
  60. 伊朗示威升温,巴勒维之子吁占领城市中心