腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 中美元首会晤,三个特殊时间点
  2. 华男中餐馆羞辱女店员“你是贱命 穷一辈子”起因是…
  3. 传川普访华改住酒店 分析称其出于安全考量
  4. 上海高校实验室疑溴化氰泄漏 内部对话曝光
  5. 六四后 一封告密信 断送了一个政治局委员
  6. 美国汽车行业:不可对中国车敞开大门
  7. 川普访中马斯克,库克随行!黄仁勋"没受邀"原因曝
  8. 汉坦病毒疫情管理进入新阶段
  9. 今晚,美国CPI恐“热辣滚烫”
  10. 纽时:中国视美国为衰落大国 北京故意显得不温不火
  11. 富爸爸作者警告:全球经济将在2026年崩溃
  12. 三次心脏停止 死前的走马灯是真的
  13. 中共警察倒卖个人信息敛财 反诈平台成提款机
  14. 名将李靖让唐太宗叹服:这样的人实在太少了
  15. 2028危机倒数 帕克预言中国将巨变
  16. 中国4月销量最高车型出炉
  17. 全球“抢金潮”持续扩散
  18. 震惊世界的科拉超深钻孔诡异事件
  19. 汶川大地震遇难学童家长 坚持维权18年遭中共迫害
  20. 纽约时报:从"美国斩杀线"看中国人危险的自大情绪
  21. 34万岗位被砍,AI重创美国IT业
  22. 莫迪呼吁民众不买黄金后,印度政府要出手了
  23. 章家敦:中国电动车经加国入美恐成间谍机器
  24. 法轮功学员旧金山庆大法日 民众全程参与游行
  25. 京沪高铁涨价两成 分析:中国能源危机蔓延
  26. 他信假释出狱:与前总理女儿搭车牌“4444”的车离开
  27. 我在美国大学教中国历史:算法时代与“川普冲击”
  28. 川普明天要来了,历任美国总统访华最爱去哪里?
  29. 社区食堂不是餐饮:一场正在失控的制度实验
  30. 北京美中峰会将聚焦这些领域
  31. ICE遣返366名中国籍人员 全在这地区 有无犯罪都抓
  32. 被控充当中国政府代理人,美国华裔市长认罪辞职
  33. 世界银行前行长表示:中国应停止囤积粮食、化肥
  34. 传重庆厂房起火60死 现场火光冲天有人喊救命
  35. “专坑中国”,世界杯这回撞墙了?
  36. 96岁罗妈妈 数十年如一日服务老人
  37. 山西一住户三年用水超千吨 牵出诈骗逃犯
  38. 武汉大学,请把你们的学生当成年人来尊重
  39. 【翻墙必看】高铁撞上失控无人机 被逼停
  40. 中国地方债一年缩减3.8万亿元
  41. 中国第一支可乐是如何消失的?
  42. 泽伦斯基“无人机外交”大获成功!近20国谈合作
  43. 一群中国高材生合伙在欧美连环迷奸同胞,庭审披露细节
  44. 中共公安如何利用卢建旺:检方呈堂细节
  45. 川普访华行程表曝光:14日上午见习 15日饮早茶…
  46. 测性格 你太太属相是什么?看过都说“太准了”
  47. 腾讯微信小店的激励加码了
  48. 南京一研究生被曝偷拍裙底 其已被拟录用公务员
  49. 加拿大家庭破产人数创新高
  50. 习近平差点判魏李极刑 竟是这个原因
  51. 汽车里面意外的便利功能 你知道几个?
  52. 亚太裔传统节NewPark Mall登场 多元文化汇聚三城
  53. 飙升的韩股吓懵了,这是AI时代的预演吗?
  54. 五角大楼:美伊冲突成本已接近290亿
  55. 父母一方有加国籍, 就可以申办加拿大护照
  56. 和平共存与美中股市
  57. 8年贸易战后川普再访华 美国最担心的事发生了
  58. 美军或准备重启对伊战争 新行动代号“铁锤”曝光
  59. 从8600万到1200万 郭文贵“皇宫”终于卖了 曾在此直播炫富
  60. 京哈高速杨树飞絮如暴雪 能见度很低