腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 路面坑洞催生换胎生意 修车工一晚进账2200元
  2. 伊朗战事引通胀忧虑 多国央行政策趋强硬
  3. 美高官因反对伊朗战争辞职,万斯表态耐人寻味
  4. 北京老人在银行忽悠下买200万元基金 亏85万
  5. 川普盟友警告:美国经济扛不住$100油价
  6. 美国情报首长:伊朗政权"仍然存在"但“已大幅削弱”
  7. 战争很可能发生 卢秀燕强调美国是维护台海和平重要战略伙伴
  8. 川普开战遭质疑,情报首长不愿“背书”
  9. 广东爆发大规模抗议 当局急调上千警力维稳
  10. 消息:伊朗新领袖穆杰塔巴并未真正掌权
  11. 遭两车意外夹击,路人踩出司机的生机
  12. 约旦河西岸暴行:巴勒斯坦男子遭定居者殴打,羞辱与性侵
  13. 叙利亚启动国际计划 销毁阿萨德遗留化武
  14. 海格塞斯:伊朗水面舰队不再构成威胁
  15. “统一后”台湾人沦少数民族、台语被禁 国民党第一个被收拾
  16. 赫力昂加速拓展中国口腔护理市场
  17. 多地宣布:生物地理不再计入中考总分
  18. 传江苏张家港巡视组女官员和丈夫遭灭门
  19. 美国务卿和防长住地上空发现不明无人机 或换住所
  20. 湖北开展涉芬太尼前体等化学品违法犯罪专项治理
  21. 伊朗议会提案:对穿越霍尔木兹海峡船只征税
  22. 【重播】卡达尔首相与土耳其外长就伊朗问题开记者会
  23. 高市早苗抵达美国 战战兢兢 就怕川普“不按牌理出牌”
  24. 张家港巡察组女官与丈夫被杀 消息遭封锁
  25. 新型出轨,正在悄悄毁掉婚姻
  26. 上任才2个月 美国47岁市长演说中倒地救不回
  27. 大强子对撞机发现新粒子
  28. 玩极权:习近平像毛泽东还是更像他??
  29. 美日领袖会晤 川普当面要日本帮忙 高市早苗谴责伊朗
  30. 美能源部副部长:中国“显然”在进行爆炸性核试验
  31. 男二以下演员不用真人?AI正悄悄重塑影视行业
  32. 湖北两地抓翻墙网民 十余警察入户搜查引民愤
  33. WSJ:一个美国公民掌控了墨西哥最强大贩毒集团
  34. 拉里贾尼被“斩首”,细节披露
  35. 西藏春耕仪式穿白衣挂习肖像 官媒视频急下架
  36. “富人税”影响初现 加州亿万富翁们怎么说
  37. 2026年H-1B申请变革 专家解析中签策略
  38. 东北房价回暖,可能不只是房地产的故事
  39. 中国首例:AI演员宣布出道
  40. 法拉盛4死火灾楼 邻居:这栋楼臭名昭著
  41. OpenAI新模型Day0就被嫌弃
  42. 求生真的很难 林彪早写好了密信致毛泽东
  43. 中国中产默默囤钱,或令全球经济失速
  44. 雷军官宣“神秘模型”
  45. 七个美国盟友发表联合声明 支持霍尔木兹海峡通航计划
  46. 中外记者会一去不复返 说真话的总理也不在了
  47. 雷军官宣代言人:跟SU7同音
  48. 耿爽任新职后首露面 习转变战狼外交 罢免四驻外大使
  49. 美议员提案:禁止ICE出现在世界杯周边1英里
  50. 中国“名媛”落魄!男性集体清醒!
  51. 加拿大CBSA严查驱逐:35人已被遣返
  52. 韩国矮化称“中国台湾”台湾这招反制全网赞爆
  53. 重庆市长胡衡华缺席会议 爆涉湖南窝案 牵闭环案中案
  54. 伊州副州长史特拉顿胜出
  55. 分析:中国电动汽车固态电池技术困难重重
  56. 中国女子入境日本,搜出4公斤毒品
  57. 高市访美谈日中关系:一贯愿意与中方对话
  58. 中国最大边境城市,要火了?
  59. 日本首部署长程导弹 可覆盖上海 为何选择设在这?
  60. 从对抗到合作:亲子工作坊解析6步沟通法