腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 贵金属集体重挫,白银跌超5%
  2. 最高35% 墨西哥将对中国等国商品加征关税
  3. 运-20B开启下饺子模式
  4. 富国银行:要买就快买 这些商品2026年会涨价
  5. 从Costco到麦当劳 美商家新年开关门一览
  6. 北京七环隧道大爆炸有内幕?传习“替身”被炸死
  7. 美跨党派议员接连发声挺台:别误判美国决心
  8. 越来越多人失眠 疲惫 焦躁 真的只是压力太大吗
  9. 美前商务部长认“打压无效”:中国跑得比想像快
  10. 不破哲三去世,中国表示哀悼
  11. 铠侠涨幅达540%,领跑全球AI股
  12. 玉米是尿酸“利器”?
  13. 美军最担心的事,正在北极发生
  14. 川泽会又无果而终:川普是“不确定”还是“不认真”?
  15. 巴基斯坦最新涉华表态
  16. 美联储内部出现严重分歧
  17. DHS新规:禁止为对美构成安全威胁者提供庇护
  18. 软银卖光英伟达持股 含泪完成对OpenAI注资承诺
  19. 上海7旬老人每月退休金仅120元 3点起来打零工
  20. 软银投资OpenAI:400亿美元
  21. 美国为以色列承认索马利兰辩护
  22. 牌坊被强拆 北京愤怒抗议 巴拿马总统下令重建
  23. 蔡磊病情接近终末期,“五体瘫软,无法言语”
  24. 亚马逊Bustbuy新规:不能随便退货了
  25. 佩洛西:民主党将重夺众院 他将接任众议长
  26. 李承鹏:论爱国及《南京博物院之官人我要》
  27. 阿根廷 洪都拉斯 委内瑞拉…川普要让世界“MAGA”化
  28. 中共围岛军演 军事专家:与实战是两回事
  29. 美国冬季风暴 迅速升级为“炸弹气旋”
  30. 外媒狠曝中国芯片真相:砸钱大卡关还爆出僵尸工厂
  31. 跨年夜大比拚:世界10大最炫烟火秀
  32. 这些外国人申请庇护一律被拒
  33. 追踪南博文物流失《亚洲周刊》被禁言 舆论哗然
  34. 金银大反攻:中美两大动作点燃“金属战争”
  35. 美国政府1月或再次关门
  36. “失踪在井喷”福建泉州大批家属举牌寻亲
  37. 71岁副部级女高官张世平被查 今年第65虎
  38. Easy Mode——来分享一个斩杀线的白男
  39. 比动荡年代丢失文物更悲哀的 是和平年代丢失文物
  40. 追踪南博文物流失 亚洲周刊被禁言引热议
  41. 难忘的2025圣诞假期
  42. 老中医5个护肾秘诀 把肾气全都补回来
  43. 美记者:无人机斩首行动可在北京重演
  44. 诅咒?肯尼迪家族第3代成员病逝 从确诊到离世仅6周
  45. 中方:深切哀悼
  46. 怕啥?篡政后捂盖子 隐满南京大屠杀逾30年
  47. 中共军蜒酞何越来越像在“演给自己看”
  48. 2025年我国重大科技成果盘点
  49. 消息:对委内瑞拉码头设施的袭击由CIA执行
  50. 正人君子最难被取悦 却值得女子讬付一生
  51. 一群人坐“电动轮椅”上下班 交警看懵
  52. 分析:中共进入“晚共”时期 2026或流年不利
  53. 欧洲又现离奇劫案:窃贼打洞进入银行金库
  54. 多地出手整治体制内“近亲繁殖”?现阶段无解
  55. 死者兜里装9张证件,警方一张没看到
  56. 史诗级暴跌
  57. 美记者:斩首政治局常委是美军台战选项之一
  58. 加盅梯主与巨熊“同居”1个月 将起诉政府玩忽职守
  59. 习近平突现狰狞面容 连说四个“难”字
  60. 伊朗货币“废纸化”引爆全民革命 中共丧钟正在敲响