腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 为张又侠抱不平!中共央视节目惊人
  2. 失去张又侠中国很危险?全网一边倒挺张批习
  3. 【独家】张又侠落马后 军令无人执行
  4. 金山交通堵塞重现,全美第3
  5. 奥特曼最新面试题曝光:1人要干1个团队的活
  6. 张又侠反习为何没成功 体制内高官的“致命死穴”在哪
  7. 全面崩溃倒计时已经开始
  8. 撼动全球金价?日本研发"海水炼金术"要捞海底50亿吨黄金
  9. 张又侠倒台后的异常现象:党媒哑口 军报独鸣 归于沉寂
  10. 分析:张又侠被抓或引发中共政局失控危机
  11. 张又侠是否下台都没差?美军前舰长揭共军无法登台
  12. 传中国暂停购买委内瑞拉原油
  13. 粤水贝黄金交易平台爆雷 受害者维权难
  14. 习近平为何对解放军“二把手”张又侠下手?
  15. 我被重庆“民警”跨省电话传唤
  16. 传青岛惊现不明病毒 很多老人去世消息被封
  17. 张又侠落马冲击中共 专家热议政局走向
  18. 张又侠等落马后 中共国防部长董军露面
  19. Costco八款速食 几分钟上桌 外卖钱省了!
  20. 川普怒调韩国关税,不满“投资没到位”狂施压
  21. 大陆经济下行 高学历者纷纷投身短剧行业
  22. 中国外交部发言人再批高市早苗对"中国发出武力威胁"
  23. 金主倒台!川普公开点名:古巴很快就会衰亡
  24. 网友向总台喊话:别用董卿“试探”了
  25. 情报传来德军开战 斯大林粗口批注后精神崩溃
  26. 中国批准进口首批辉达H200晶片,优先供货3大网络巨头
  27. 谁能挑战习近平?张又侠传言破灭背后的制度真相
  28. 呻吟声传遍办公室!CEO大战网红女下属
  29. 极机密 毛泽东关杀潘汉年另有隐情 李先念全知道
  30. 张又侠落马牵动台海?前美军舰长揭共军无法登台
  31. 沙特土豪挥舞钞票,强挖新科金球得主
  32. 2026年Costco启动4大制度变革
  33. 分析:习张斗 源自武统台湾的野心
  34. 马云露面:不要再犹豫用不用AI
  35. 北大AI研究颠覆认知:我们看到的不是真实
  36. 马云最新发声:孩子不应和AI比拼
  37. 习污名化张又侠 传各地部队集结靠拢北京 内战一触即发?
  38. 川普:想要缓和明尼苏达州的局势
  39. 2032年是关键转折点?她揭示地球正被推向黄金未来
  40. 张又侠被抓军报造反?民间炸锅
  41. 血色下的塔尔寺——藏传佛教浩劫的起点
  42. 张又侠落马 专家:军队陷混乱和领导层真空
  43. 张又侠落马 军报“批张”缺乏后劲 引嘲讽
  44. 世卫组织:疫情期间台湾并未示警
  45. 克宫积极评价俄美乌三方会谈
  46. 中国指挥与控制学会青年人才托举工程遴选结果
  47. 快摸一下救全家!冬季家庭“2大灾难预兆”
  48. 共和党提案:拟切断“非公民”联邦福利
  49. 习近平最大危机!军二代副主席落马
  50. 马云最新发声:孩子不应和AI比拼计算和记忆,好奇心是算力源泉
  51. 冠军接连死亡,健身为何夺命
  52. 美国男子冰湖钓鱼坠入冰窟 众邻居用桨板救起
  53. 移民人数骤减,美国人口增长急剧放缓
  54. 张又侠被捕 外国专家猜疑中共高层发生政变
  55. 回到县城相亲,高学历和年龄成了我的枷锁
  56. 郁亮疑似失联半月 1月初刚从万科退休
  57. 杨幂年轻回30岁,周杰伦如年轻小伙
  58. AI换脸冒充华航高层
  59. 川普:美国另一支无敌舰队正开往伊朗
  60. 冬季暴风雪席卷美国,已致14州至少38人死亡