腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 早上起床后有这5表现,血脂可能高了
  2. 海湾盟国游说川普彻底击败伊朗政权
  3. 万科多名高管被带走 分析:打击民企信心
  4. BBC:美军会怎样尝试攻占伊朗石油枢纽哈尔克岛?
  5. 美驻加大使:禁止中国电动车经加拿大入美
  6. 科学家让冷冻复苏后的大脑重新“放电”
  7. 武汉男子街头持刀随机伤人 致4人受伤
  8. 百年争议有望终结!“赴美生子”或将彻底终结
  9. 皇后区26学区决议,延后资优班测评
  10. 严查入籍绿卡!移民局启动“高风险国家”系统性审查
  11. 全红婵哽咽落泪:体重减不下来 大家不要再骂我了
  12. 美国男子买20张同号彩券中奖 奖金变20倍
  13. 从禁飞到禁售 北京市无人机管控全面升级
  14. 官媒批“粉底液将军” 港媒曝习意志:整治“娘炮”
  15. 清明节前 访民去北京公墓祭拜杨佳 遭拘留
  16. 多地养老保险断缴率上升,部分城市超过五成
  17. 他们来过却从未存在 所有人都说没这个人?
  18. 【中国观察】中共军工帮的集体陷落
  19. 被“弃选”的历史课,和离开讲台的老师
  20. 挺台被中共制裁 日议员古屋圭司:数十年未访中不受影响
  21. 河北秦皇岛海岸惊现海市蜃楼 目击者:有房有船
  22. 解密文件曝 朝鲜曾经扬言要与台湾建交报复北京
  23. Sintra一日自由行
  24. 密大华人博士后疑遭美方约谈后自杀 中领馆促彻查
  25. 鲍威尔一席话 加速市场利率预期180度逆转
  26. 共和党研究压缩医疗补贴支出 救命钱省下打伊朗?
  27. 北京能源禁令曝中共本质 一带一路承诺破灭
  28. 中共强推教育禁令 分析:校园沦为洗脑场所
  29. 伊朗革命卫队:再有领袖遇刺 将攻击这些美企
  30. 最高法院将审议川普出生公民权禁令 一文看懂
  31. 针对巴勒斯坦人死刑法案通过 以高官开香槟庆祝
  32. 登月后再登火星?NASA 任务为何至关重要?
  33. 70年代石油危机是什么样?我们会否面临更糟局面?
  34. 伊朗总统:有结束战争的意愿 但要得到一个“保证”
  35. 三艘中国货轮通过霍尔木兹 北京向各方表示“感谢”
  36. 日本首在两处基地部署远程导弹,威慑中国与朝鲜
  37. 老铺黄金门店里,黄牛比黄金还多
  38. 华盛顿要重新评估北约
  39. 伊朗决策大乱!斑层吓到不敢开会“怕被炸死”
  40. 张雪机车夺冠,东鹏特饮赢麻了
  41. 好家伙,投资版龙虾也来了
  42. 一名医学研究生的“最后一个夜班”
  43. 深度旅游当道 台湾成美国游客热门目的地
  44. 伊朗战争:昔日川普给今日川普的两个教训
  45. 美国一颗“星链”卫星失联
  46. AI数据中心制造“热岛”,周边升温高达9℃
  47. “中国未必能成为伊朗战争的经济赢家”
  48. 精致利己主义!中国学生热议“撕Offer” 美国大学动真格了
  49. 严控信息 伊朗当局逮捕数十出售星链设备者
  50. 梅根81岁父亲截肢后恋上小35岁护士:很幸福
  51. 富镍岩石揭示古火星化学组成
  52. 战争部长经纪人被指在中东冲突前,欲投资国防基金
  53. 21岁大学生龚永成遭四川嘉州监狱严管迫害
  54. “超级厄尔尼诺”言之尚早
  55. 第一家靠AI写稿的美国大公司黄了
  56. 福建网友买助眠药,竟收到交警短信
  57. 一名美国女记者在伊拉克遭绑架
  58. 央企华侨城2025年亏损145亿 净利润下降67%
  59. 报告:全球十大学术期刊撤稿中 中共论文过半
  60. 老板迷信AI之后,打工人的命更苦了