AIR: A Systematic Analysis of Annotations, Instructions, and Response Pairs in Preference Dataset

基本信息

  • 标题: AIR: A Systematic Analysis of Annotations, Instructions, and Response Pairs in Preference Dataset
  • 作者:
    • Bingxiang He*, Wenbin Zhang*, Jiaxi Song, Cheng Qian
    • Zixuan Fu, Bowen Sun, Ning Ding, Haiwen Hong
    • Longtao Huang, Hui Xue, Ganqu Cui†, Wanxiang Che†
    • Zhiyuan Liu, Maosong Sun
    • (*共同第一作者,†通讯作者)
  • 机构:
    • 清华大学
    • 哈尔滨工业大学
    • 上海人工智能实验室
    • 伊利诺伊大学厄巴纳-香槟分校
    • 阿里巴巴集团
  • 状态: Preprint, Under review

研究背景和动机

  • 关键问题:偏好学习对于使大语言模型与人类价值观保持一致至关重要,但其成功依赖于高质量的数据集
  • 现有挑战
    • 当前数据集包含三个核心组件:偏好标注、指令和响应对
    • 现有方法将这些组件混合在一起,导致:
      1. 模糊了各个组件的独立影响
      2. 阻碍了系统性优化
    • 缺乏对数据集设计原则的系统性理解

主要贡献点

  1. 提出AIR框架

    • 首次提出系统性分析偏好数据集构建的框架
    • 能够独立分析和优化每个组件
    • 评估组件间的协同效应
  2. 发现关键原则

    • 注释简单性:采用基于点的生成评分
    • 指令推理稳定性:基于LLMs间方差的过滤
    • 响应对质量:适度的差距+高绝对分数
  3. 实验验证

    • 仅使用14k高质量数据对
    • 相比基线方法平均提升5.3分
    • 提供了从临时扩展到基于组件优化的蓝图

研究方法 (AIR框架)

1. 注释组件 (Annotations)

  • 如何对(x,y)对进行评分
  • 分析:
    • 注释器模型类型
    • 注释策略设计
    • 评分方法

2. 指令组件 (Instructions)

  • 如何选择高质量指令
  • 研究:
    • 分数方差
    • 上下文轮次数量
    • 与现有LLM方法比较

3. 响应对组件 (Response Pairs)

  • 如何构建(yw,yl)对
  • 关注:
    • 相对分数差距
    • 绝对分数阈值
    • 在线/离线策略混合

实验结果和结论

主要发现

  1. 注释优化:

    • 采用生成式评分模型
    • 使用点式评分而非配对比较
    • 简化评分指南
  2. 指令选择:

    • 优先选择跨LLM评分方差低的指令
    • 表明更清晰的偏好区分
  3. 响应对优化:

    • 适度分数差距(△=2或3)
    • 高绝对分数(≥8)
    • 混合使用在线和离线响应

整体效果

  • 逐步整合三个组件的优化原则后:
    1. 生成式简化注释 (+1.78)
    2. 基于方差的指令选择 (+1.07)
    3. 优化的响应对 (+2.46)
  • 最终累积提升:+5.31 (所有基准测试平均值)

研究意义

  1. 提供了系统性分析偏好数据集的新框架
  2. 揭示了可操作的数据集设计原则
  3. 为高效、可复现的AI对齐提供了新思路

关键方法

1. 注释简化(Generative Scoring)

  • 替代复杂协议:用点式生成式奖励模型(Llama-3.1-70B-Instruct)直接评估单条响应质量,优于分类器模型和多样本聚合方法。
  • 性能优势:生成式模型在 RewardBench 评分低于分类器模型(84.0 vs 94.3),但实际对齐效果更高(+1.4 平均提升)。

2. 低方差指令选择(Variance-Based Filtering)

  • 核心思想:筛选跨 LLM 响应评分方差小的指令(vi ≤ 1.5),这类指令能暴露细微偏好差异。
  • 实验验证:低方差指令在 AlpacaEval 2 (+3.7) 和 ArenaHard (+4.6) 上显著优于高方差指令。

3. 响应对优化(Balanced Contrastive Learning)

  • 三要素平衡
    • 中等评分差距(Δ=2/3):避免过简或过拟合(对比高/低差距性能差 5.42/-1.29)。
    • 高绝对评分(≥8):确保响应质量(对比低分对性能降 9.35)。
    • 混合策略(On/Off-Policy):1:1 混合基线模型和外部模型响应,避免分布偏移。