腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 习证实张又侠造反?恐惧至极!军方代表遭严密安检
  2. 中共政协委员称坐习对面有“眩晕感” 引讥讽
  3. 中国盗版漫画网被日商联合检举 经营者被查
  4. 中共《劳动法》形同虚设 工人讨薪上黑名单永不录用
  5. 哈梅内伊之子掌权意味着什么?
  6. 全面效忠新领袖!伊朗革命卫队:与美以斗争到底
  7. 网络疯传双重国籍必须登记?律师专业解读来了…
  8. 纽约时报:究竟哪国导弹击中了伊朗小学?
  9. 伊朗伊斯兰革命卫队:支持穆杰塔巴
  10. 习近平又遭“践踏” 黑猪头图片引网民联想
  11. 伊朗的“石油生命线”,要被盯上了?
  12. 中共高层对美国人的评价为何如此轻蔑?
  13. FT:在川普的世界里,混乱不是问题而是工具
  14. 美军迎最强盟友:英法为何强硬介入?
  15. 打坐中灵魂离体的神奇经历
  16. 首个龙虾大模型排行榜:两国产AI杀进前三
  17. 洗衣机洗不干净?你少做了这一步!
  18. 宏福苑大火百日祭:灾难之后香港在发生什么
  19. 美国被曝对以军行动感到不满
  20. 日本失去以往谴责以色列的勇气
  21. 伊朗新任最高领袖神隐,官媒:遭敌人击伤
  22. G7财长会议,考虑动用战略石油储备
  23. 日本加速部署升级版导弹 防范中共威胁
  24. 中东战火经济苦果“欧亚超越美国”,5国最受冲击
  25. 中国是世界上“最安全国家”?事实狠狠打脸中共
  26. 分析:美打击伊朗 瓦解中共全球战略支点
  27. 医生不会主动告诉你的养生秘诀
  28. 川普把波斯湾石油危机带到了全世界面前
  29. 【翻墙必看】央企房产神话破灭 只剩吹牛
  30. 伊朗反对派:新领袖是镇压元凶 继位非法
  31. 伊朗新任最高领袖是什么人?
  32. 解放军机连续9天不出海,意欲何为?
  33. 美军打击伊朗,川普或另有所图?
  34. 油价创新高,七国集团考虑动用储备油
  35. 美国已损失9架"死神"无人机,防长预测美军人员伤亡也将扩大
  36. 韩对美投资法案文本通过 周四全体表决
  37. 英国格拉斯哥中央车站附近起火 车站暂关闭
  38. 流行天后蕾哈娜豪宅遭闯入枪击
  39. 周六市长官邸外爆冲突 一方投掷爆炸装置
  40. 深圳补贴机器人产业 运动式经济酿新泡沫?
  41. 油库烧整晚!德黑兰成末日炼狱"有毒浓烟笼罩",宛如灾难片
  42. 宇明:川普入主白宫一年 快速改变世界
  43. 缺维D加重呼吸道感染
  44. 日本远程导弹发射装置运抵熊本
  45. 海南公开向中央求援 分析:自贸港财困浮现
  46. “川习会”预期不断缩水,美媒揭残酷真相
  47. 美稳坐武器供应龙头 欧洲进口量5年翻3倍
  48. 巴黎与多子女大家庭:一段不可能的爱情?
  49. 穆杰塔巴?哈梅内伊:伊朗新任最高领袖是谁?
  50. A股市场整体走弱 沪深两市逾3900只个股下跌
  51. 王毅否认“G2共治” 专家析中共窘境
  52. 腾讯一天甩出三只虾:这个大招有点狠
  53. 不用烤箱!在家做出外卖级别的脆皮鸡
  54. 51岁残疾妇女牛晓娜遭冤判15年
  55. 伊朗战争给习近平的教训:硬实力为王
  56. 路透:中方不满川普访中安排仓促 川习会恐难有突破
  57. 习近平吓坏不敢攻台湾?伊朗战争突出中共隐忧
  58. 20000月薪养得起“龙虾”吗?
  59. 油价冲击或诱发“70年代式滞胀”
  60. 木村拓哉香港新作出演遭中止 疑日中关系紧张?