Hacker News 中文摘要

文章摘要

谷歌研究团队开发了一种新的可扩展的主动学习流程，能够大幅减少大语言模型微调所需的训练数据量，同时显著提高模型与人类专家的一致性。该流程适用于包含数百亿样本的数据集，通过迭代识别关键样本，有效应对复杂任务如识别违规广告内容，并降低因政策变化或新类型违规内容出现而导致的模型重新训练成本。

文章总结

标题：通过高保真标签实现10,000倍训练数据缩减

主要内容：

在广告内容安全分类领域，利用大型语言模型（LLMs）解决复杂问题具有显著优势，尤其是在需要深度上下文和文化理解的场景中。然而，为LLMs进行微调需要高质量的训练数据，这些数据的获取既困难又昂贵。传统的数据密集型训练方法成本高昂，尤其是在处理概念漂移（如安全政策变化或新型不安全广告内容出现）时，模型可能需要重新训练。因此，减少训练数据量至关重要。

本文介绍了一种新的、可扩展的主动学习数据筛选流程，能够大幅减少LLMs微调所需的训练数据量，同时显著提高模型与人类专家的对齐度。该流程可应用于包含数百亿样本的数据集，通过迭代识别最有价值的样本进行标注，并利用专家提供的标签进行微调。

在实验中，我们成功将训练数据量从100,000个样本减少到不足500个，同时将模型与人类专家的对齐度提高了65%。在生产系统中，使用更大模型的系统甚至实现了更大的数据缩减，数据量减少了四个数量级，同时保持或提高了模型质量。

筛选流程：

初始模型生成标签：使用零样本或少样本的初始模型（LLM-0）对广告内容进行初步标注，生成一个大型标签数据集。由于生产环境中真正违规的广告比例极低（<1%），初始数据集通常高度不平衡，且模型的真正阳性率较低。
聚类分析：将标注为违规和正常的样本分别进行聚类，识别出重叠的聚类区域，这些区域表明模型在区分违规和正常内容时存在混淆。
专家标注：从每个重叠聚类对中，选择标签不同且距离最近的样本对，交由人类专家进行标注。为了控制标注成本，优先选择覆盖更大搜索空间的样本对。
模型评估与微调：将专家提供的标签随机分为两部分，一部分用于模型评估，另一部分用于模型微调。评估基于两个关键对齐指标：专家间的一致性和模型与人类专家的对齐度。微调后的模型进入下一轮迭代，直到模型与人类专家的对齐度达到专家间一致性或无法进一步提升。

评估指标：

由于广告安全领域的许多分类问题（如内容审核或欺诈检测）具有固有的模糊性，我们无法依赖传统的精确率和召回率等指标。取而代之的是使用Cohen’s Kappa，衡量两个独立标注者之间的一致性程度。Kappa值越接近1，表示一致性越高；0表示一致性仅与随机一致相当；负值则表示系统性分歧。通常，Kappa值高于0.8被认为非常优秀，高于0.4则为可接受。

实验结果：

我们对比了在不同任务和模型上使用众包标签和筛选流程的效果。实验表明，经过筛选流程训练的3.25B参数模型在低复杂度任务中的Kappa值从0.36提升至0.56，在高复杂度任务中从0.23提升至0.38，对齐度提高了55-65%，而数据量减少了三个数量级（250至450个样本，相比基线条件的100,000个样本）。

结论：

通过精心筛选LLM数据集，专注于更少但更具信息量的样本，可以在使用更少数据的情况下获得更好或相当的分类性能。在我们的实验中，数据量减少了三个数量级，而在生产系统中，数据量甚至减少了四个数量级。然而，这些成果不仅依赖于良好的筛选流程，还需要非常高质量的标签。我们观察到，标签质量需达到0.8以上的Cohen’s Kappa值，才能可靠地超越众包数据的效果。

致谢：

本文的工作离不开优秀的工程师和产品经理团队。特别感谢Steve Walker和Kelsie McElroy的贡献，以及广告隐私与安全领导团队的支持。

评论总结

关于广告点击率的争议
- ericyd 声称在生产流量中，只有极少数（<1%）的广告是点击诱饵，但这一说法与另一位用户的个人经验不符。
- 引用：
  - "in production traffic only very few (<1%) ads are actually clickbait"
  - "That's a fascinating claim, and it does not align with my anecdotal experience using the web for many years."
数据驱动的AI竞赛案例
- trhway 提到2001年Andrew Ng的数据驱动AI竞赛中，一位获胜者通过分析嵌入分离来选择训练数据，并提供了相关链接。
- 引用：
  - "Reminds how one of the winners of the 2001 Andrew Ng’s Data-Centric AI competition analyzed embeddings separation to choose training data"
  - 链接：https://rensdimmendaal.com/posts/data-centric-ai
主动学习的复杂性
- abhgh 指出主动学习是一个复杂的领域，尤其是在文本分类中，其效果并不稳定。通过一项实证研究，他发现随机选择实例进行标注的效果更好。
- 引用：
  - "Active Learning is a very tricky area to get right ... over the years I have had mixed luck with text classification"
  - "We observed that post normalization, randomly picking instances to label is better!"
  - 研究链接：https://aclanthology.org/2024.emnlp-main.1240/

实现高保真标签下训练数据万倍缩减 -- Achieving 10,000x training data reduction with high-fidelity labels

文章摘要

文章总结

评论总结