腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 分析:古巴向美国低头求生 中共再失共产盟友
  2. 罗帅宇坠亡后 湘雅医院女研究生坠江死亡
  3. 当病毒变脸太快 CDC:本季流感疫苗基本无效!
  4. 一觉醒来专业没了!南加大华人留学生梦断洛杉矶
  5. 苹果蝉联第一,华为杀回榜首
  6. 雁过拔毛 经手三分肥被苦整 下级贪了照样惨死
  7. 伊朗外长回应川普:从未请求停火
  8. 多次被外星人绑架与消失的记忆
  9. 一名德国游客起诉纽约餐厅莎莎酱过辣
  10. 江西发生户外岩降事故 致3人死亡
  11. 油价飙升,为何中国受到的冲击相对较小?
  12. 《道德经》最顶级3种智慧,学会一个就厉害
  13. 纽约华人团体集会 吁参院通过制止中共活摘法案
  14. 反对富人税,推3项“搅局提案”
  15. 雷霆擒灰狼夺8连胜
  16. 二十一大政治局委员名单预测 王小洪政治命运引关注
  17. 人形机器人走进美国小镇工厂,替代人工搬运工作
  18. 中共推老区振兴措施 被批财政输血政治工程
  19. 油价续攀升逾百美元
  20. 分析:习若突然倒下 中南海恐无人能撑场
  21. 日本财长:如有必要,将采取大胆行动
  22. 中共防空系统形同虚设 张国清处境或危险!习怒了?
  23. 中国女跑趴成裸尸 最后影像曝 被中国男拖上宝马
  24. 习近平可能真的考虑“最高权位世袭制”
  25. 群星闪耀:奥斯卡2026赢家一次看
  26. 李成钢:中美进行了坦诚、建设性的磋商
  27. 杀鸡焉用牛刀!乌克兰低成本拦截无人机爆红 多国关注
  28. 未来一周美股六大变数
  29. 美恐袭嫌犯身世曝 哥哥是真主党指挥官 死于以空袭
  30. 日本跨党议员发声明 促高市与川普联手施压释放黎智英
  31. 中共明抢不成开始报复?“胖东来”分配40亿资产后出事了
  32. 中国2月失业率升至5.3% 分析:实际或更高
  33. 伊朗超级女内鬼 比当年川岛芳子还狠 睡遍120高官
  34. 光与铜博弈加剧,预期差在哪?
  35. A股刮起HALO风
  36. 以军宣布成功摧毁"哈米尼专机"!连夜狂炸德黑兰机场
  37. 阳光保险2025年报,寿险新业务价值增48%
  38. 传伊朗新最高领袖重伤赴俄动手术 据报留莫斯科休养
  39. “大崩溃即将来临”微信热文疯传
  40. 6种干果已被列入致癌名单
  41. 财富正悄悄换手:中国或迎来史上第一次“继承时代”
  42. 伊朗“泥石导弹”开轰 射程2000公里 涵盖以色列全境
  43. 全球首富马斯克“极简住宅”曝光 母转发客厅照片
  44. 川普施压没用?分析:北京不派军舰护航油轮
  45. 中美代表巴黎新一轮经贸会谈
  46. 川普:伊朗靠AI造假战果 发动信息战
  47. 彼得·蒂尔今日举办绝密集会:反AI监管
  48. 川普孙女携特工逛超市遭猛批
  49. 中国文坛大地震 贾平凹蒋方舟等知名作家陷丑闻
  50. 界立建:法轮功保护法的推出具有重大意义
  51. 伊朗最高领袖深夜发文重申:索赔
  52. 川普称中国如不参与护航霍尔木兹海峡,或推迟川习会
  53. 美持续调度亚洲军备 中国周边国家紧张
  54. 美国能源部长:伊朗战争可能在数周内结束
  55. 贝森特:若川习会改期,与霍尔木兹无关
  56. 川普暗示:北京若不做一件事或推迟川习会
  57. “大寨红旗”接班人郭凤莲批习近平农民政策 官媒还报道
  58. 两度说中 曾预言美伊开战 "华裔神鬼先知"断言结局
  59. 《一战再战》横扫奥斯卡
  60. 眼下断定“超强厄尔尼诺将致最热年”为时过早