调整训练数据出场顺序

2025-09-06 18:25:10 · chineseheadlinenews.com · 来源: 量子位

模型训练重点在于数据的数量与质量?其实还有一个关键因素——

数据的出场顺序。

对此,微软亚洲研究院提出了一种全新的文本数据组织范式DELT(Data Efficacy in LM Training),通过引入数据排序策略,充分挖掘训练数据潜力,在不同模型尺寸与规模下都达到了良好性能。

△数据效率与效能提升

该方法用优化训练数据的组织方式来让语言模型学得更好,还不用增加数据量或扩大模型规模。

来看看是怎么做到的。

训练样本的组织顺序很关键

首先,我们先来理清几个概念。

在语言模型训练中,数据使用效率至关重要。现有研究多关注于数据效率(Data Efficiency),即如何通过数据选择提升模型训练效率并保持优异性能。

然而,数据效能(Data Efficacy),即如何通过数据组织增强模型训练表现,却常常被忽视。

以烹饪为例,数据效率就像在市场挑选新鲜、合适的食材,而数据效能则像名厨把握投放调料的时机与分寸,让菜品发挥出最佳风味。

数据组织的重要性

为了避免过拟合,当前的大语言模型往往在海量数据上进行训练,并且训练的次数非常有限,甚至仅进行一次完整的训练周期(epoch=1),这与早期模型依赖多次迭代训练(epoch>>1)截然不同。

这些变化让数据呈现的先后顺序对结果影响巨大。

早期的AI模型类似于让学生多次反复翻阅同一本书,在多轮学习中慢慢补齐细节;而现在更像只给一遍通读,不再反复回看。

这就对阅读顺序提出了极高要求,必须精心规划学习材料出现的先后和结构。因此,训练样本的组织顺序显得尤为关键。然而,关于这一点的研究却很少。

基于此观察,微软亚洲研究院最新提出的文本数据组织范式DELT,通过引入数据排序策略,充分挖掘训练数据潜力,实现了数据的高效利用与效能提升。

DELT范式不但通过数据选择提升效率,选取斑质量数据,加快训练速度;

而且通过数据排序提升效能,在预训练和后训练阶段都显著提升了模型性能,且适用于通用、数学和代码等多领域任务。

给模型按部就班安排训练课程

数据训练效能定义

研究首先定义了数据训练效能(Data Efficacy),是指通过优化训练数据的组织方式来最大化语言模型的性能表现,而无需改变数据内容或模型架构。

与以往关注的“数据训练效率” (Data Efficiency) 侧重数据筛选的研究目的不同,数据效能强调对训练数据的评分和排序,以充分挖掘数据的潜在价值。

数据顺序在语言模型训练中的潜力尚未被充分挖掘, 数据效能旨在通过合理的数据组织方式,使模型在有限的训练数据和资源下实现更高的性能和泛化能力,成为提升语言模型性能的一种新兴方法。

数据组织范式DELT介绍

△DELT范式架构

DELT(Data Efficacy in LM Training)是一种创新的文本数据组织范式。

它集成了数据评分(Data Scoring)、数据选择(Data Selection) 和数据排序(Data Ordering) 三大核心组件。

数据评分根据特定的属性为每个样本赋予分数,如:难度、质量、多样性等。

数据选择通过评分筛选出最优子集(如:top-k、按阈值筛选等),然后数据排序根据评分重新组织所选择数据的呈现顺序(如:基于课程学习的分数从低到高排列)。 为了兼顾数据处理效率,DELT范式的数据选择和数据排序共用数据评分的结果。

因此,数据评分的规则设置非常重要。于是,研究还提出了Learning-Quality Score(LQS)方法。

△LQS打分方式

该数据评分方式结合了质量和可学习性两个关键指标,不但可以筛选出低质量数据,而且也能捕捉数据在不同阶段的训练价值,进一步提供了可靠的数据排列顺序。

为了进一步提升数据效能,团队还提出了一种全新的折叠排序方法Folding Ordering(FO)。

基于课程学习的排序(即,按分数升序排序)可能导致模型遗忘和数据内部分布偏差。

折叠排序策略通过多层“折叠”,将数据按分数分层并多次采样,无重复且均衡分布。

△Folding排序方式

相比随机打乱或单一排序,它既保留难度排序优势,又避免模型过度遗忘或依赖特定数据,提升了鲁棒性和泛化能力。

与传统随机排序方法相比,DELT范式不仅通过减小数据规模提升了训练效率;而且在不同模型尺寸和数据规模下,在各种评测集上都显著提升了模型性能。

△不同数据规模和模型尺寸下的结果

DELT给Data-centric AI领域带来了全新思路。

看来,类比于人类教学实践,讲究个性化与按部就班地安排学习内容,AI训练也需要类似的学习方法。


    24小时新闻排行榜更多>>
  1. 李在明:全力应对韩公民在美被捕事件
  2. 【百年真相】周永康密谋刺温 未遂政变内幕
  3. 阅兵式上两条大黑鱼是干什么的?
  4. 易会满落网背后 传四十多名亲友下属被抓
  5. 斯洛伐克拒绝向乌克兰派兵
  6. 我的律师路啊,怎么就走到了尽头?
  7. 全球寄美包裹骤减八成
  8. 美国记者问“一件事” 前中共总理朱镕基瞬间变脸
  9. 数千民众抗议国民兵进驻华府
  10. 王友群:从历史大视角揭中共抗日大谎言
  11. 今年41中管干部被查 专家析习“反腐”新标准
  12. 美国记者问“右派”经历 朱镕基表瞬间变脸说“一句话”
  13. 中国上千台打印机失控 狂印骂人字句
  14. 分析:美国开始打击中美洲的中共代理人
  15. 山东一高校爆血案 19岁男生遭室友捅死
  16. 空军为什么需要歼-35A?
  17. 枪口对内?川普惊曝"战争部"头号目标,锁定芝加哥
  18. 喝这3种饮品,是在给血管“找堵塞”
  19. 王储妃长子,涉嫌性侵多名女性
  20. 前证监会主席易会满落马 传四十多人被抓
  21. 张兰被下“全网禁言令”
  22. 中年女人穿裙子,记住“4不要”
  23. 皮肤的6种特殊变化,或是“癌症”信号
  24. 中国7成年轻人受失眠困扰 助眠产业兴起
  25. 【快讯】日本首相石破茂宣布辞职
  26. 美日关税协议:日投5500亿美占九成利
  27. 余茂春:川普能打破习普的虚假友谊
  28. 石破茂辞职后,日本如何选出新首相?
  29. 入籍试拟提高难度,或增作文要求
  30. 易会满落马 儿子被曝仍在香港中金正常上班
  31. 后半生最要紧的6件事 最后1件很多人错过了
  32. 中医奇术令“鬼魅”也畏惧三分
  33. 以色列拉蒙机场遭袭
  34. 人能活多久,看头发就知道?
  35. 泰王御准 华裔富豪阿努廷出任泰国总理
  36. 川普将国防部更名为战争部,"70多万处标识要换"
  37. 英大使:美英必须联手 遏止中共科技霸权
  38. 澳EA-18G“咆哮者”电子战机飞行表演
  39. 要捐款打台湾的张雪峰,能不能先把该退的款退了?
  40. 《清城风云》获多伦多诺莱坞电影节八项提名
  41. 川普威胁要对欧盟启动301调查
  42. 新泽西拟强制家庭教育教授DEI课程 引发反弹
  43. 南京幼儿误食纽扣电池造成终身残疾
  44. 美逮300韩公民 韩国火速完成谈判 将派包机接人
  45. 從9.3閱兵 看天滅中共
  46. 中国多省迟迟未公布社保缴费基数
  47. 高盛9月报:AI狂热对决增长焦虑
  48. 【神州大地系列】中国山水诗的发祥地:温州
  49. 广西人工智能学院获批组建成立
  50. 男子55万买到“凶宅”,两年后起诉退款
  51. 灵气护罩?无人机拍到仙山“显灵”
  52. 川普扬言对芝加哥动用战争部
  53. 金正恩难活过50岁?带“世上最危险12岁女孩”现身阅兵
  54. 93阅兵,第二辆车可以布置得更好
  55. “事出反常必有妖” 国内出现这6大反常现象
  56. 古人的智慧之谈:穷不做三事 富不惹四人
  57. 调整训练数据出场顺序
  58. 前中国证监会主席易会满去年出事 再爆涉贪遭调查
  59. 是习近平起头!外媒曝他先说“现在70岁还是孩子”
  60. 波兰呼吁公民尽快离开白俄罗斯