真正的AI竞争力，藏在“后训练”这一步-墙外头条

当全球的目光还在聚焦基座模型的参数竞赛时，一场包为深刻的变革正在悄然发生——后训练（Post-Training）。

产业早已达成的共识是：大模型后训练不再是简单的模型优化，而是AI落地产业的必经之路。这意味着，企业需要将通用的基座模型，训练成深度理解自身业务、具备领域知识、并能执行复杂策略的“专属智能引擎”。

而后训练技术本身也正在经历着日新月异的技术变迁。

Pokee.ai创始人、Meta前应用强化学习部门负责人朱哲清在2025云栖大会《大模型后训练：打造企业专属智能引擎》论坛上清晰地勾勒了这条演进路径——最初，行业普遍采用SFT（Supervised Fine-Tuning，监督微调）的方式，让模型学习特定领域的知识和对话风格。

然而，简单的监督学习却无法教会模型进行复杂的价值判断和策略选择——这恰恰是企业真实业务场景中的核心需求。

于是，技术的焦点从“模仿”转向“对齐”，从监督微调（SFT）进化至以目标为导向的强化学习（RL）范式。

而在强化学习的实践路径上，产业界又经历了一场从“依赖人力”到“追求自动化”的深刻迭代：从早期的RLHF(基于人类反馈的强化学习)，到突破性的RLVR(基于可验证反馈的强化学习)，再到前沿的“自然语言奖励”。

从后训练技术演进路径中，我们也能清晰看到企业“之所以要做后训练”的答案：通过对模型的特定能力增强，解决商业世界的复杂任务，构建通用模型无法达到的竞争壁垒。

△图：Pokee.ai创始人、Meta前应用强化学习部门负责人朱哲清分享后训练技术。

企业大模型后训练的四步落地路径

在企业实际应用中，后训练之路往往伴随着数据质量差、标注成本高、奖励信号与评估体系难定义等一系列挑战。

如何高效、成本可控地为后训练准备高质量数据？如何将模糊的商业目标转化为模型训练信号？如何让模型做出符合业务逻辑的判断？又该如何量化后训练技术带来的实际业务回报？

云栖大会《大模型后训练：打造企业专属智能引擎》论坛上，来自网易、汽车之家、微博、夸克、知乎、盈米基金、百融云创等企业的多位实践者，已率先跑通了从技术实践到商业价值的闭环：

知乎用“大模型预打标+主动学习”提升数据质量；汽车之家利用结构化私域数据做增量预训练，并结合KAG（基于领域知识图谱的内容生成）抑制幻觉，确保回答精准；百融云创构建工业化数据生产线，提纯话术并优化训练数据，使回答质量提升10%，违规率从1%降至千分之三；微博与网易伏羲通过模型蒸馏，在降低成本的同时实现高效内容理解；盈米基金设计融合专家逻辑的奖励函数，其4B模型准确性指标甚至超过通用32B模型，实现高商业回报；夸克则通过后训练复刻专家思维，2025年为高考志愿填报场景生成超1200万份报告，服务4000万用户，实现专家级服务的规模化普惠。

这些优秀实践背后，浮现出一条企业应用大模型后训练从技术实践到商业价值的完整链路：一是准备高质量的数据（Data），二是选择合适的基座模型（Model）降低工程门槛，三是设计有效的奖励机制（Reward），四是构建可量化的模型评测（Evaluation），挂钩业务指标。

第一步：准备高质量数据，奠定后训练基石

企业落地大模型后训练的第一步，就是为模型注入领域知识。

“数据是后训练的基石，数据质量决定了后训练效果的上限。企业做大模型后训练，超过一半甚至60%-70%的时间都花费在数据准备上。”知乎AI团队负责人王界武在云栖大会《大模型后训练：打造企业专属智能引擎》论坛上的观点引发了全场辈鸣。

数据准备的核心挑战在于，原始数据质量参差不齐，包含大量噪声、冗余和低价值信息，企业的自有数据专业且垂直，直接用于训练会导致模型“学坏”或效果不佳。

根据王界武介绍，知乎的后训练大模型已深入应用于AI搜索、内容安全、内容理解等多个核心场景。知乎社区本身积累的优质语料成为最宝贵的数据资产，此外知乎还整合了开源数据。

“数据阶段最大的挑战在于高质量数据。现在很多场景必须要采用人工标注，但成本非常高；偏主观的场景下，人工标注的结果一致性也没那么好”，王界武介绍道，知乎走出的一条行之有效的方法是：通过大模型进行预打标，采用主动学习（Active Learning）聚焦困难样本，提升数据效率，持续构建多源、高质量的训练数据集，支撑不同业务场景下的后训练需求。

“实践证明，花精力生成100条高质量的数据，可能比多调一次模型带来的效果提升更大。”王界武说。

数据难题同样摆在汽车之家面前。对于消费者而言，买车是典型的重决策场景，因为用户需要绝对精准的参数、价格、政策信息。通用大模型一旦出现幻觉，给错了配置或价格，对用户和平台来说都可能是致命的。

汽车之家仓颉大模型团队负责人马宝昌介绍道，汽车之家利用其20年来积累的结构化私域数据（车型、参数、评测等），对通义千问基座模型进行增量预训练（CPT），相当于让模型先“通读”一遍汽车领域的专业书籍，在进入更精细的SFT和RL训练之前，就打下坚实的知识基础。

汽车之家还利用阿里云Data-Juicer框架构建数据处理pipeline，混合通用数据和汽车领域数据，确保模型在提升领域效果的同时保持通用能力，为后续的精准问答和推理奠定基础。

针对企业数据工程化处理的痛点，阿里云智能集团计算平台事业部解决方案负责人魏博文介绍，阿里云升级了大数据引擎，并联合通义团队开源了Data-Juicer库，将复杂的数据预处理流程封装为易用的算子和Pipeline，大大降低了企业数据准备的门槛。

△图：汽车之家仓颉大模型团队负责人马宝昌分享汽车之家后训练实践

百融云创是一家To B的人工智能技术服务公司，百融云创大模型首席算法科学家苏海波介绍，“在金融营销、催收等场景下，我们希望通过后训练炼出一位能主动挽留、主动谈判的金牌销售专家。而后训练所需的人工销售的原始通话数据包含大量口语词、叠字、错别字，且人工回答水平不一。”

百融云创建立了一条工业化的数据生产线：首先通过模型自动过滤掉不合规、回答错误的数据，然后利用大模型自动校正文本中的错别字、重复和口语化表达，大幅减轻对高成本的人工校对的需求；再对人工话术进行润色和优化，提升话术质量；最后，通过数据合成的方式，扩充高质量的种子数据。这一系列流程，将原始数据变成了模型可以理解的高质量数据。

第二步：选择合适的基座模型，匹配业务需求

有数据，要有好模型。选对基座模型是后训练成功的一半。网易、汽车之家、微博、夸克、知乎、盈米基金、百融云创等企业都不约而同地选择了通义千问系列模型。

汽车之家仓颉大模型团队负责人马宝昌解释道：“首先，通义千问的模型效果非常领先；其次，其尺寸覆盖广泛，从几亿参数的小模型到千亿级的大模型一应俱全，能满足不同场景对性能和成本的平衡需求；最后，其架构设计和开源生态对后训练深度支持。如Data-Juicer等数据处理框架和高效的训练框架，让企业在后训练时没有后顾之忧。”

阿里云是国内最早开源自研大模型的“大厂”，也是全球唯一一家积极研发先进AI模型并且全方位开源的云计算厂商，业界率先实现“全尺寸、全模态”的全面开源。从2023年至今，阿里通义团队已开源300多款模型，包含大语言模型通义千问及视觉生成模型通义万相等两大基模系列，开源囊括文本生成模型、视觉理解/生成模型、语音理解/生成模型、文生图及视频模型等全模态。

目前，通义千问衍生模型数量已突破17万，超越美国Llama模型，通义成为全球第一AI开源模型。通义千问在全球下载量超过6亿，在HuggingFace社区2024年全球模型下载量中千问占比超30%，稳居第一。

更难能可贵的是，通义千问在开源的同时，开放了训练策略和配套方案。

根据通义实验室算法科学家郁博文介绍，通义千问3在发布时即配套提供量化、蒸馏或推理加速方案，在开源的同时能获得VLLM、SGLang等开源社区项目的Day 0适配支持，并提供FP8、AWQ和GGUF等各种格式的量化模型供社区使用，间接提升了后训练成果的可用性。

企业进行后训练的另一大挑战在于工程化落地。阿里云智能集团计算平台事业部解决方案负责人魏博文介绍，阿里云人工智能平台PAI打造了一套全栈解决方案，帮助企业的大模型后训练应对算力、工程化和部署三大障碍。

针对主流的MoE架构强大的算力与训练框架，阿里云人工智能平台PAI通过自适应通信计算掩盖、负载均衡等技术，实测可将通义千问3的训练端到端提效3倍；阿里云人工智能平台PAI提供了针对MoE模型的高性能推理框架，可将推理吞吐提升70%以上。更重要的是，所有复杂技术都被封装进了低代码环境中，用户通过点选即可一键式完成从模型选择、后训练、测评到部署的全流程。

企业选定基模后，需通过技术手段让模型与业务目标对齐，不仅要注入知识，更要使其具备专家级的决策能力，并兼顾效果、成本与响应速度，许多企业因此选择了模型蒸馏方案。

微博内容理解技术总监贾遂宾介绍，面对每天数千万条内容，直接部署百亿甚至千亿参数的大模型成本过高。

微博的做法是，先用海量高质量数据对通义千问多模态大模型进行预训练，使其具备强大的内容理解能力，然后将这个强大的多模态模型的能力，“蒸馏”到一个更轻量的7B（70亿参数）模型上。

这样既获得了接近大模型的效果，又能以更低的成本，对微博海量内容应用内容甄别、标签识别等任务。实现了效果与效率的更好平衡。

经过后训练，微博的内容理解中台对一条看似日常的明星演唱会视频，能生成“娱乐明星、内地明星、华语音乐、明星饭拍路透、音乐演出”等极为精细且准确的多层级标签，这一效果是通用大模型难以企及的。

△图：微博内容理解技术总监贾遂宾介绍微博的多模态垂直大模型后训练

网易伏羲在游戏智能NPC场景中，同样面临实时互动的低时延要求和大规模部署的成本压力。

据网易伏羲语言智能组负责人张荣升介绍，网易伏羲采用大模型蒸馏+轻量化部署技术方案，确保高质量的AI交互体验能以可接受的成本，覆盖上千万玩家。

△图：网易伏羲语言智能组负责人张荣升在云栖大会《大模型后训练：打造企业专属智能引擎》论坛分享。

第三步：设计奖励机制，教会模型何为“好”与“坏”

在大模型后训练中，奖励机制（Reward Mechanism）的核心任务是将复杂的商业目标和人类偏好，转化为模型在训练过程中能够学习和优化的数值信号。它不是简单地判断对错，而是为模型提供一个“导航”，告诉它在无数可能的输出中，哪些行为更接近“好”的标准。

Pokee.ai创始人、Meta前应用强化学习部门负责人朱哲清介绍，强化学习的初级形态RLHF(基于人类反馈的强化学习)，依赖人类标注员对模型输出进行打分，以此作为奖励信号。这种方式虽能对齐主观偏好，但受限于高昂的成本与数据标注质量，泛化能力存在瓶颈。

真正的突破来自于RLVR(基于可验证反馈的强化学习)。它在代码、数学等拥有客观评判标准的领域，通过构建自动化验证系统作为奖励模型，实现了“规则即奖励”的闭环，从而摆脱了对人力标注的依赖。

然而，现实世界的商业逻辑远比代码和数学要复杂，许多标准无法用简单的规则来定义。

朱哲清指出，“业界的前沿趋势是利用大模型本身作为评判者，即‘自然语言奖励’（Natural Language Reward）”——通过将复杂的文本序列输入一个强大的判别模型，直接通过自然语言指令询问“这个证明是对是错，错在哪里？”，由模型来判断，其表述能力和覆盖范围远超僵化的规则系统。

盈米基金的智能投顾场景正在探索奖励机制。

盈米基金CTO刘永介绍道，“资产配置投资顾问可以说是信任和专业度要求最高的领域之一，对精准性要求高、对幻觉容忍度极低。智能投顾把钱放进去只是个开始，之后怎么办？什么叫投资好、体验好？什么叫不好？这是核心难题。”

对此，盈米基金选择的解法便是与阿里云合作，核心目标是将人类投顾专家的解题框架和风控逻辑内置到模型中，探索可行的、可落地的奖励函数设计。双方基于事实规则和长期客户的真实反馈数据，来探索和定义适用于基金投顾场景的奖励函数。

汽车之家仓颉大模型团队负责人马宝昌分享道，他们对模型的要求极为严格，对“幻觉”容忍度极低；性能方面，推理延迟要足够低，满足实时交互需求。在模型上线后，会通过A/B测试等方式，关注用户的最终转化率，如是否留资、是否购车等，来衡量其对核心业务的贡献。同时结合准确率达到99.5%以上的KAG（基于领域知识图谱的内容生成），让模型回答真实可信。

第四步：构建评估体系，确保投入回报

模型评估是衡量后训练成效的最终标尺，其核心在于用客观、可量化的结果证明技术投入的商业价值。

盈米基金与阿里云合作，从150多万个真实用户问题中，筛选并构建了覆盖600个典型场景的基金投顾领域评测基准（Benchmark）。这个可复现、可执行的Benchmark，为后续的模型迭代提供了统一的度量衡。

盈米基金与阿里云点金团队共同进行了评测集的设计。2025云栖大会发布的Qwen-Dianjin-TIR模型就是一个面向基金投顾领域的垂直领域模型，它证明了，通过精心设计的奖励机制，已经实现了4B参数量的垂直模型在多轮工具调用，准确性指标甚至超过了通用32B参数量模型的效果，基金投顾领域智能体应用测试集也即将发布。

百融云创则选择了通义千问系列大模型作为基础模型，结合SFT与DPO（直接偏好优化）等后训练方法，使大模型能像金牌销售一样主动挽留客户、贷后催收，成功让模型的回答质量分提升了10%，更将业务违规率从1%降至千分之三。

△图：由阿里云高级解决方案架构师张慧涛主持的《大模型后训练：打造企业专属智能引擎》论坛圆桌对话，企业探讨后训练应用实践

而对于夸克这一AI助手而言，后训练技术在规模化复制专家思维上，实现了巨大的业务价值。

阿里集团智能信息事业群资深算法专家姜晓希分享道，夸克需要同时应对AI搜索、专业写作、高考志愿填报等多个差异巨大且专业性极强的复杂场景。夸克基于通义千问大模型，通过“持续预训练+领域后训练”的模式，衍生出教育、健康、高考等一系列领域专家大模型。在技术方案上，夸克借助RLHF、RLVR等手段，结合优化偏好，进一步提升真实场景应用的能力，让夸克得以具备“策略生成”的复杂能力。

在高考志愿填报这种“一考定半生”的场景中，挑战极大；各省政策不同、竞争激烈、考生需求极其个性化。夸克借助后训练，将顶尖志愿规划师的思维模式复刻给了大模型。2025年，夸克高考志愿大模型累计提供了超过1200万份志愿报告，服务了4000万用户，让曾经稀缺的专家咨询服务变得普惠。

△图：阿里集团智能信息事业群资深算法专家姜晓希分享夸克的后训练实践

在游戏智能NPC领域，大模型后训练正让NPC从“提线木偶”，变成游戏世界里有灵魂的居民。比如在《新倩女幽魂》端游的家臣系统中，玩家可招募家园NPC作为家臣，NPC会基于多维度决策模型，综合参考自身基准薪资、与玩家的关系亲疏及自身出身背景等信息，最终判断是否接受玩家报价。招募完成后，NPC也并非 “有求必应”，其回应会根据玩家态度、双方实时关系等游戏状态动态调整。这种“讨价还价”背后，正是针对游戏场景的后训练精准调控。

正如阿里云高级解决方案架构师张慧涛在圆桌对话中所言，”在过去的几年里，后训练得到了越来越多的青睐和关注，后训练的方法也在越来越多的企业被验证、被采纳、被大规模地使用。”

通过这条四步路径，后训练所创造的商业价值，也正在金融、内容社区、汽车、AI搜索等领域集中爆发，成为企业真正的护城河。

当基础大模型的能力日趋相近，真正的AI竞争力，正来自于企业如何利用自身独有的场景、数据和业务理解，通过后训练对模型进行深度改造，构建无法被复制的专属智能引擎。这，才是决胜未来的关键一步。