腾讯押注非Transformer

2025-03-22 03:25:38 · chineseheadlinenews.com · 来源: 量子位

首个基于混合Mamba架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线。

对标o1、DeepSeek R1之外,值得关注的是,混元T1正式版采用的是Hybrid-Mamba-Transformer融合模式——

这是工业界首次将混合Mamba架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元T1正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元T1-preview相比,综合效果明显提升。

在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元T1均有比肩DeepSeek R1和OpenAI o1的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元T1正式版的基础模型Turbo S已经跻身全球TOP 15。这意味着在其基础上的推理版本T1正式版理论上会有更强大的表现。

首个基于混合Mamba架构的超大型推理模型

具体来说,混元T1正式版沿用了混元Turbo S的模型架构,采用的是Hybrid-Mamba-Transformer融合模式。

混元Turbo S是腾讯自研的快思考模型——区别于DeepSeek R1等慢思考模型,Turbo S更强调“秒回”,即吐字速度更快,首字时延更低。

非传统Transformer架构的好处在于,能有效降低Transformer架构的计算复杂度,减少KV-Cache缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了Mamba高效处理长序列的能力,另一方面保留了Transformer擅长捕捉复杂上下文的优势,突破的传统Transformer架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考Mamba-2论文做一个简单的理解:

在Mamba-2中,研究团队发现,Transformer中的注意力机制与SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2的作者提出了SSD(结构化状态空间二元性)理论,把Transformer和Mamba给打通了:

SSD可以将Transformer架构多年积累起来的优化方法引入SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元T1正式版测评结果

目前,混元T1正式版已面向API用户,在腾讯云上线。

定价方面,输入价格为1元/百万tokens,输出价格为4元/百万tokens。

相较之下,DeepSeek R1在标准时段(北京时间8:30-00:30)的定价为4元/百万tokens输入,16元/百万tokens输出。

文心大模型X1的定价则是2元/百万tokens输入,8元/百万tokens输出。

也就是说,混元T1的价格仅为DeepSeek R1的四分之一,是文心大模型X1的一半。

体验入口也已释出:https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型T1 Preview和快思考模型Turbo S,都很快在腾讯自家C端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ浏览器等等。

那么T1正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。


    24小时新闻排行榜更多>>
  1. 白宫“重大宣布”终于曝光:川普政策“务实”一面
  2. 鼠肚鸡肠的江泽民成总书记后 邓小平后悔了
  3. 川普“50天最后通牒”内幕揭密:巧抓俄军攻势尾声 谈判窗口将开?
  4. 彭丽媛神隐背后 与习近平已协议离婚
  5. 美国稀土定价系统或将挑战中共主导地位
  6. 歼-35上舰,海军硬实力投送迎战略转变
  7. 美推动本土制造 松下第二家电池厂堪州开业
  8. 解放军进化:士兵带机器狼,无人机下放到班排
  9. 进了阴曹地府又死而复活的奇事
  10. 餐饮倒闭潮席卷香港 老字号扎堆停业
  11. 中国三大航司持续亏损 预计上半年累计亏损40亿
  12. 川普警告征收30%关税 但愿意和欧盟谈判
  13. 反铁磁材料电信号实现可读可控
  14. 迄今最热卖十款豪华车榜单出炉
  15. 杭州一小学多名学生流鼻血 轮胎厂是祸首?
  16. 万科上半年最高亏损逾百亿 多家国营房企预亏
  17. 窦靖童首次主演剧集 与母亲王菲合唱主题曲
  18. 金正恩乐开花 亲自督建“乐园渔村” 让渔民们能“拎包入住”
  19. 反击美国关税,欧洲想要跟加拿大和日本联手
  20. 709十周年 王宇之子述遭中共株连式迫害经历
  21. 纽约时报:“中国冲击2.0”比上一次严重得多
  22. 总价1.3亿欧!中国老板卖了欧洲球队
  23. 加速AI与能源布局!川普将宣布$700亿AI和能源投资
  24. 2025年全美最佳航空公司揭晓 第一名您未必听说
  25. 川普不计前嫌?马斯克xAI公司获得国防部巨额合同
  26. 病历爆光 习病入膏肓时日无多! 传彭丽媛回山东 习彭分居
  27. 抵制“网证网号”制度 青岛出现反对传单
  28. 以旧换新补贴推动消费回暖,中国刺激政策能走多远?
  29. 智库:中共在芯片光刻技术上面临巨大障碍
  30. 她与梁朝伟同居6年分手,独自抚养儿子
  31. 全新奔驰CLA猎装版官图发布
  32. 美国房市大幅降温 近三分之一大城市房价转跌
  33. 川普承诺驱逐“最坏中的最坏”?数据揭“71%无罪”
  34. 录音:国航客机与顺丰货机在俄险些正面相撞
  35. 北京回应川普威胁对俄盟友征关税
  36. 中共公安部公布民企反腐案例 知情人揭内幕
  37. 天生怪才金圣叹的离奇宿命
  38. 美关税战为啥没压垮中国外贸?
  39. 美国对墨西哥新鲜西红柿征17%关税
  40. 比起三个美国籍孩子,宗家100多亿境外资产更值得关注
  41. 异常气候席卷美欧中 全球陷“水深火热”
  42. 一本书让邓小平震怒?他斗胆触碰中共死亡红线
  43. 一个中年货车司机,最后的微信账单
  44. 贵州公职人员夜宵时殴打孕妇等人 多人受伤住院
  45. 耗资1亿 3天预售仅百万 陈佩斯《戏台》改档
  46. 放开那个偷情的女人
  47. 阿根廷正副总统“公开决裂”阿国川普执政动摇了吗?
  48. 德州暴洪"神秘营"27女童遭冲走亡!恐怖事发全程曝光
  49. 台湾城镇韧性演习登场 台揆:警报响就近避难
  50. 胡塞武装搅动红海,为何越打越有底气?
  51. 她住瑞典到旧金山上班 每月通勤5200英里喊“值得”
  52. 强制剥夺国籍 还要交“分手费”?美政府这波操作太狠了
  53. 廉价救命药的代价:美国仿制药的前世今生
  54. 退将批评汉光是“演戏” 军中人士:领退休俸可耻
  55. 党媒呼吁:别再搞“假正能量” 污染网络 透支情感…
  56. 英伟达推出中国市场专属计算卡B30 市场需求旺盛
  57. 中国3000辆新车海上起火!运输船烧光沉没!中国电动车成炸弹!
  58. 川普向普京发出最后通牒,为什么?
  59. 美国科学家的宠物猫再协助发现新病毒
  60. 从爆款到仆街 成龙电影都经历了什么?