腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 习近平被斥厚颜无耻 视察雄安新区称决策完全正确
  2. 中共推VPN识别技术 监控侵入个人电脑?
  3. 四川公交标语引爆争议:贞洁是最高贵嫁妆 堕胎.....
  4. 张雪峰官方发布讣告证实其去世 因心源性猝死离世
  5. 张雪峰离世:留给11岁女儿上亿遗产 妻子父母泪别
  6. 中共国外卖员最后一次悲惨“配送” 器官给了九个人
  7. 习再发狠 王岐山四大秘出事 金监总局副局长周亮被查
  8. 习近平率常委两年后再访雄安,强调"决策完全正确"
  9. 卖家比买家多46% 美国房地产进入"买方时代"
  10. 30分,詹金斯轰生涯新高
  11. AI引爆电力需求 中国变压器海外订单爆增60%
  12. 日本自卫官闯中国大使馆被捕 供称欲见大使后自尽
  13. 中国知名网红张雪峰心源性猝死 年仅41岁
  14. 紐約“吹哨人”與“季超群案”揭開中共情報網冰山一角
  15. 前美驻华大使警告:中国专家凋零,国安危矣
  16. 伊朗消息人士:美国已进行接触 德黑兰“愿意倾听”
  17. 一语成谶 41岁中国知名网红张雪峰心源性猝死
  18. 习近平禁酒令 拖垮全球产业链 葡萄酒业成“受害者”
  19. 伊朗最高领袖点头!同意与美谈判
  20. 郎朗巴黎车站和外国博主斗琴 还腾出1只手玩魔方…
  21. 川普:伊朗给美国送一份大礼 今天到了
  22. 爆马兴瑞妻被公司大佬供出 或染指军工系统习挠头?
  23. 【翻墙必看】为何平庸的靳磊执掌深圳
  24. 大陆一家4口感染HIV母子俩去世 引发热议
  25. 路透:中国正绘制海床地图 为与美潜艇战做准备
  26. SK海力士拟购80亿美元ASML先进光刻机 创纪录
  27. 美移民法重要条款:谁要为新移民的生活负责?
  28. 独家:两大重量级秘密 中共竟然干这个
  29. 有些实话不说死都合不上眼 40年风水师吐真言
  30. 大陆网红张雪峰猝死 生前言论引发争议
  31. 美国机场安检陷入拥堵 排队最长约4.5小时
  32. 中共金管总局副局长周亮被查 曾任王岐山秘书
  33. 伊朗局势反转再反转,投资者都懵了
  34. 突延5天 川普为何又TACO?美媒:4国秘密外交介入
  35. 前CIA局长:川普现在正手忙脚乱 试图摆脱烂摊子
  36. 李贞秀骂钟小平是“狗”后 再曝“高虹安拿柯文哲700万”
  37. 事出反常必有妖 “中国诺查丹玛斯”爆红美国背后
  38. AI热潮带火电工培训
  39. 连李克强都向往台湾民主 亲笔信还写了什么?
  40. 跑步预防心梗,还是引发心梗?
  41. 川普:政府里只有两个人对可能停火感到失望
  42. “Token”发工资,有人慌了
  43. 成都推“四等级监控” 重点关注对象插翅难逃
  44. 王友群:习考察雄安新区透露三大信息
  45. 张雪峰突然离世:心源性猝死背后的9个残酷真相
  46. 他获参院任命部长 盼国土安全部“不要每天上头条”
  47. 美媒爆猛料:沙特王储敦促川普继续对伊朗战争
  48. Token=词元 Prompt=文令…这些AI术语的中文名定了
  49. 伊朗选强硬派人物接替拉里贾尼 担任国安主管
  50. 摩萨德忍无可忍 对中共发出严重警告
  51. 任教于UCLA的清华人
  52. 俄向乌克兰发射400架无人机 北约战机急升空
  53. 伊朗轰美国油轮 革命卫队扬长而去欢呼身影曝光
  54. Terafab项目——马斯克的雄心壮志
  55. NDP党魁竞选人:大赦移民扩招留学生
  56. “梅姨”细节披露越多,越觉得可怕!
  57. 阿房宫真被烧了?根本是座“烂尾楼” 只是文学想象?
  58. 李丰玲性侵案:如何找到回归正轨的那条通道?
  59. 心源性猝死信号,一定警惕
  60. 张雪峰离世,一个时代最复杂的教育符号