腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 小飞机撞中国尊疑点引关注 翌日北京敏感地突发大火
  2. 女子被骗507万,丈夫知后自杀身亡
  3. “中国尊”撞机事件三大疑点:禁区、动机、飞行员
  4. 中国爆大规模抗争!民众集结抗议 官员“罕见认输”
  5. 中国全国人大终止15人代表资格 军政高官在列
  6. 泳池'肉体激战'恐怖画面曝!比基尼妹遭恶霸痛殴暴血
  7. 骗走女子507万用于打赏主播,女子丈夫知后自杀身亡!
  8. 一文读懂世界杯32强
  9. 好心办坏事,中国游客遭围剿
  10. 唐柏桥:中国电影向何处去?
  11. 中国房地产危机:海花岛梦破
  12. 英王查尔斯报税表上的三处“与众不同”
  13. 拜登重返反川第一线 罕见公开露面 批川普倒影池
  14. 央视曝手机测评作弊乱象:博主“特供”
  15. 佛得角队长涉强奸丑闻 世界杯晋级蒙阴影
  16. 俄飞弹猛轰!乌克兰警报响,基辅爆炸巨响频传
  17. 520万豪宅,一根排污管憋屈五年
  18. DeepSeek上新,推理提速85%
  19. 美银Hartnett:若Mag7再跌,市场或转入防御模式
  20. 飞机撞击北京“中国尊” 飞航轨迹曝光了
  21. SpaceX建太空资料中心?7大瓶颈卡关 火箭根本不够
  22. 热浪下的欧洲,中国空调“一机难求”
  23. 安卡拉峰会,'北约3.0'以及跨大西洋伙伴关系
  24. 威善高参加跨性别游行,遭包围辱骂
  25. 韩国队出局
  26. 度假天堂变毒窟!意大利小岛洞藏40kg大麻,逾1590万
  27. 从圣歌到百老汇 知音合唱团唱响跨世纪经典
  28. 户外吃烧烤,如何避免静电?
  29. 算力告急:谷歌悄然对Meta实施Gemini使用上限
  30. 过度依赖AI,限制创新
  31. 14人被罢免人大代表 皆为习家军 分析:军权在谁手
  32. 洛城裸体单车骑行,2人遭BB枪射伤
  33. “Pride+世界杯”引爆金山双重观光潮
  34. 美情报机构:习近平海外资产逾$10亿 年底公开报告
  35. 一夜间 苹果蒸发2633亿 美光暴涨15% 美光复仇成功?
  36. 致莫言先生的公开信,文学家身份与无法逃离的责任
  37. 爆中国尊顶三层遭国安接管 分析北京空域失守三漏洞
  38. 纽约校园“AI指引”急煞车
  39. “娶妻不娶仰头女 嫁汉不嫁低头汉”什么意思?
  40. 韩银行金库少7千万,塞满"企鹅申师任堂"玩具钞
  41. 巨型生物堡垒 身披1800块骨甲的史前巨兽
  42. 上海球迷穿日本队服狂欢被抓拍
  43. 盘点2026年上半年落马的中共正部级以上官员覆盖党政军(上)
  44. 密西沙加与宾顿超2100辆汽车被盗
  45. 市府新平台宣传免费青少年活动
  46. 出生人口腰斩:中国正面对比房价下跌更大的危机
  47. 习后谁接班?吴国光揭政权变化铁律:3因素恐打破
  48. 大厦撞机后又起大火 北京CBD两天两起事故引猜测
  49. 割草女孩成北大招生代表,回母校招生
  50. AI最先消灭的,不是程序员,而是程序员新人
  51. 伊朗队队长怒斥:这届世界杯是场灾难
  52. 习死后3-7天 全国进入紧急状态
  53. 中国科研领导全球vs西方主宰大学排行
  54. 马克龙将与阿曼苏丹会面
  55. 兰大一教师论文图表被指有AI水印
  56. 蔡英文赴义出席女性峰会 分享台湾民主经验
  57. 中国"高德地图"跨境定位风险:每3秒回传位置信息
  58. 出现这20种行为 极可能是“高智商”孩子!
  59. 北京“轻型机撞楼”事件 扯下绝对安全的神话
  60. 2026,如何驐脱一个特务