腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 重庆“山姆打包哥”虐狗引发抗议 多人被抓
  2. 川普对华政策转向:视中国为平等的超级大国
  3. “习近平下台 胡春华接班” 中国高考题目造反?
  4. Anthropic深夜发布Claude Fable 5 屠榜所有测试
  5. 中国经济萧条!全民活成乞丐!很多人揭不开锅!
  6. “川普来了也得拍”,重庆落地签一夜爆火
  7. 华尔街集体看多铜:预测17636美元
  8. 大陆“西舍咖啡”被申请破产 门店关闭逾百家
  9. 更懂你的ChatGPT来了
  10. 江浙工厂大量使用机器人 底层工人饭碗被抢
  11. 如果霍尔木兹海峡“回不到过去”,国际油价会如何?
  12. 大陆娱乐圈崩盘!明星没戏可拍 沦落送外卖 摆地摊!
  13. 抖音下架1500则跨境炒股教学视频
  14. 防弹包厢看NBA,川普遭粉丝嘘爆
  15. 美国通胀升至三年最高
  16. 上海70后副市长陈宇剑被查 或与联璧金融有关
  17. 川普孙女遭抓包偷换音效!陪爷看NBA"嘘声变欢呼"
  18. 美国众议院通过关键矿产法案
  19. 大陆多款驱蚊液被曝有毒 暴利高达300倍
  20. 欧洲热浪提前来袭
  21. 德国迷奸案主犯因名字公开请求轻判:以后声誉不好
  22. 华运会排球赛激战Campbell 年轻球员活力满场
  23. 分析:对外军售 北京始终都不是超级大户
  24. 特斯拉Model 3在日本到手仅13万
  25. QQQ单日下跌4.8%,说明什么?
  26. 习近平访朝不利 金正恩四次公开羞辱 接待规格暗降
  27. 美参议院多数党领袖:未安排见郑丽文 挺台防卫抗中共
  28. “每逢拆迁必烧” 福州民房陷入火海场面骇人
  29. 青少年e-bike快速普及,警方加强执法
  30. 香港开户行不通,又转向新加坡美国?实情调查
  31. 罕见!美国队世界杯首战门票滞销,川普都嫌贵
  32. “认知低下”不是罪:“山姆托举”网暴里的阶层轻蔑
  33. 空袭报复伊朗,美中央司令部公布细节
  34. “妻贤夫病少”的下一句更实在 如养生秘笈却被忽略
  35. 一代国民神车走下神坛
  36. 日本公布新版国防白皮书概要 披露哪些信息
  37. 新研究揭示红茶缓解胃黏膜损伤的作用机制
  38. 国际刑事法院首席检察官被停职
  39. CoreWeave三位联创套现逾23亿美元
  40. 台湾举行反入侵演习,进行实弹射击
  41. 超快激光:封装材料革命的“手术刀”
  42. 罗永浩谈苹果iOS 27“挤牙膏”
  43. 分析:中朝不谈无核化另有隐情 或震醒韩国
  44. 刘小东把人画“丑”了?
  45. 传说中的“亚洲蹲”,竟对我们的健康至关重要?
  46. 高考首日 深圳4考生被困电梯近1小时
  47. 风向变了,理财机构减持黄金ETF
  48. IPO前夜,马斯克把自己的太空算力蓝图公开了
  49. OpenAI称已向美证交会保密提交首次IPO申请
  50. 菲外长:须继续与日本进行谈判
  51. 为何中国年轻人蜂拥到日本“寿司郎”用餐
  52. 战争纪念馆活动海报提“抗美援朝” 韩防长下令彻查
  53. 连印度也生不动了 生育率出人意料骤降警示世界
  54. SpaceX IPO或诞生4000名百万富翁
  55. 5月出口创新高的秘密
  56. 无人机卡驾驶舱 川普:阿帕奇直升机创奇迹
  57. 川普:伊朗拖得太久,必须付出代价
  58. 中国常驻联合国副代表:对投票结果表示失望
  59. 消费不足 中国5月CPI同比低于预期
  60. 福建台江大片民房起火 目击者:听到爆炸声