腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 韩国爆5.6万信徒集体入党
  2. 香港猎人书店被查封、两人被捕 多个人权组织谴责
  3. 中国芯片出口额暴增110%,是意味西方"封锁失败"?
  4. 北加州5.6级地震,百万人手机狂响
  5. 小米门店收到“一路走好”花圈 店员与对方大打出手
  6. 冰雹暴雨夜袭河北 街道变冰河 水深及膝 淹没车身
  7. 小米“流量造车”害死人 雷军复制“吃面”复制不了安全
  8. 活在恐惧里 广西一村地陷持续11年村民绑安全绳睡觉
  9. 百年幽灵招牌重见天日
  10. 美国极限施压下,古巴仓促宣布全面经济改革
  11. 寥寥几句诗 孤篇传千年
  12. 四国共同发声,“软性围攻”中国?
  13. 无人机轰变电站酿大停电!乌军放话:克里米亚成孤岛
  14. 一刀接一刀,日本收割外国游客
  15. 7参议员见韩国瑜后发声明 台湾应立即行动投资“防卫生产”
  16. 西雅图机场挤瘫了,神秘土特产爆火
  17. 日本四大光刻胶巨头亮剑 中共“战狼现世报”
  18. 美国建国250周年专访:超人演员迪恩·凯恩分享美国精神
  19. 纸尿裤含毒“无标准就没责任”:大错特错
  20. 霍尔木兹海峡重开,川普表态"不接受任何航运费用"
  21. 张钧甯隐藏“本名”现身 网友因“这件事”崩溃
  22. 哥伦比亚左翼总统候选人承认落败
  23. 男子为和情人复合,推妻坠楼掐颈杀害
  24. 250周年大庆,川普喊话“美国回来了”
  25. 华女机上大闹,航班紧急备降
  26. 美国游轮爆发大规模斗殴 16人禁搭旗下游轮
  27. 日本网友炮轰女监狱太爽“像住酒店”
  28. 滴露中国广告因拿贞操说事道歉 观察人士评:一塌糊涂
  29. 中国超算时隔9年登顶全球榜首 纯CPU突破美国制裁
  30. 华尔街密集上调美光目标价
  31. 击退朴永哲,孟昭文庆功
  32. 溪口图书馆枪击案,枪手父亲发声
  33. 一场靶冒配7种药,吉林女孩死亡
  34. “香港名媛碎尸案”被害人母亲卷走海南老板2千多万?
  35. 委内瑞拉强震,川普发声愿援助
  36. 黄仁勋:Prompt已死,loop当立
  37. 拜耳暴涨18%创23年最大
  38. 半年没回家 他惊见屋内堆满蛇蛋!画面疯传
  39. 美国5月PCE物价指数同比上升4.1%
  40. 辞职上武当山当道士 发现山上也是职场 下山回炉高考…
  41. 白宫给已经美联储新任主席沃什开升息绿灯了吗?
  42. 万物腾贵!美国通胀增温 写2023年4月来最大升幅
  43. 逗趣滑稽 梁楷笔下的〈泼墨仙人〉人见人爱
  44. 网红穿运动装搭机被拒 空服员:你看起来像裸体
  45. 水田插秧之后 马云低调现身麻省理工和哈佛大学
  46. FBI突袭纽约警界高层住所 涉警队腐败调查
  47. 65岁后不一定一路衰老!耶鲁研究揭“优雅老去秘诀”
  48. 川普想追加867亿预算,参院拟封杀
  49. 胡锡进:看到舆论大骂冯小罢和韩红 我挺不是滋味
  50. 空战能力最强的“侧卫”
  51. 电力基础设施才是AI真正的决胜战场
  52. 花旗上调新易盛目标价
  53. 华女机上大闹 中英文夹杂爆粗 飞加州航班紧急备降
  54. 女网红“健身装”被禁登机
  55. 如何预判AI拐点?
  56. 脱欧十年,对英国经济的影响愈发清晰
  57. 存储成本压力山大,苹果罕见全球提价
  58. 石泰峰隐身一周火速露面 魏小东落马半月被撤委员资格
  59. 绿色幻象之下:谁在为万亿AI芯片繁荣买单?
  60. 男子吼出“最大嗓门”世界纪录