腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 中共收紧出境政策 退休官员出国难
  2. 中共统战片《澎湖海战》撤档 引发猜想
  3. 刘美贤成冬奥花滑焦点 曾是中共间谍目标
  4. 男子建行储蓄卡未离身,却遭盗刷
  5. 自媒体爆中共公安部企业欠薪2年 遭删文
  6. 浮香动处,梅花谢后百花开
  7. 实锤 军队真和习近平干起来了
  8. 温家宝亲笔书写马年新春贺卡 网络热传
  9. 排队10小时也要吃 年轻人的年夜饭被寿司郎们承包
  10. 华人男子在美密谋病毒战
  11. 金与正“高度评价”韩方表态
  12. 大陆消费者取消酒店预订 凌晨收到恐吓短讯
  13. 与公民结婚,跟与绿卡人士结婚有何不同?
  14. 川普政府重磅发言人将离职,下一个是诺姆?
  15. 敏感时刻,美国防长在“悠闲度假”
  16. WTT新加坡大满贯:中国超豪华阵容出战
  17. 温家宝选这天“露面” 党媒释信号:“春华向上”
  18. “跳船”成风 传北京将反腐扩大至“半裸官”
  19. 郑丽文撞钟红绳“狂抖”吓到花容失色 网友:佛祖认证的坏人
  20. 汤唯回娘家探亲,女儿女神范十足
  21. 传刘源掌控82集团军 红二代联手干掉习近平?
  22. 爱泼斯坦风暴扩大 权贵下场如何?美民调近7成认为...
  23. 十亿年的提前到来 宇宙星系团的成长谜题
  24. 跟随傅作义起义的四军长,结局如何?
  25. 法国1万人村庄连续10年自费过春节,当地华人揭秘
  26. 压垮习近平的最后一根稻草 彭丽媛走上权力顶峰?
  27. 民主党人对翻转德州的狂热梦想 这次或许会成真
  28. 美国要对欧洲“外宣” 拟建绕过内容禁令门户网站
  29. 大陆青年明真相觉醒 退出中共组织
  30. 为什么我不快乐?
  31. 为何一到过年,很多家庭就吵架?
  32. 以缩写XJP称呼朋友 大陆网友除夕夜差点入狱
  33. 苹果与纳指相关性创20年新低
  34. 4.1重新定义“谁是美国人” 最高院出生公民权案 引全美关注
  35. 冒充权威机构诈骗案频发 南加州警方吁警惕
  36. 来看看真正的神仙是怎么收徒的?
  37. “全美最佳餐厅”强制20%小费,被一星差评淹没
  38. 川普政府重磅发言人将离职
  39. 爱泼斯坦案,权贵们鲜少面临法律追究
  40. 爱泼斯坦风暴扩大,权贵下场如何?
  41. 一个在迪拜的乌克兰美女讲述中国生活
  42. “有钱没钱都不消费” 大陆过年市场明显冷清
  43. 尹锡悦一审被判无期徒刑
  44. 民主党重大胜利!政府解冻纽约隧道资金 下周复工
  45. 冬奥越野滑雪惊现“黑骑士”和选手冲刺对决
  46. 2026移民政策3大走向 ICE执法扩张 大规模驱逐进高潮
  47. 加官方公布华人人口深度报告:171万规模创新高
  48. 第一批回家的“不孝女”,出去住酒店了
  49. 尹锡悦被判无期,会被赦免吗?
  50. “年入224万,利润0” 四川外卖店老板白忙一整年
  51. 俄罗斯警告美国:后果严重
  52. 加州太浩湖雪崩悲剧升级:8人确认遇难 第9人仍失踪
  53. 白藤江陷阱:古代中国海军的地缘斩杀线
  54. 王菲的春晚造型史:一部中国时尚先锋录
  55. 白宫帐号晒出“Taiwan+国旗“!与中国并列22大贸易伙伴
  56. 微软和谷歌在新德里全球人工智能峰会宣布新投资计划
  57. 白宫美食学 从牛排一窥美国9位总统“个性与灵魂”
  58. 伊朗:已进入全面战备状态
  59. 2026斯隆研究奖,最新名单出炉
  60. 细数在温哥华开车遇到的坑爹RCMP警察