AIR: A Systematic Analysis of Annotations, Instructions, and Response Pairs in Preference Dataset

Author: Lil b Date: May 6, 2025 3:18:30 Category: 磨刀

AIR: A Systematic Analysis of Annotations, Instructions, and Response Pairs in Preference Dataset

基本信息

标题: AIR: A Systematic Analysis of Annotations, Instructions, and Response Pairs in Preference Dataset
作者:
- Bingxiang He*, Wenbin Zhang*, Jiaxi Song, Cheng Qian
- Zixuan Fu, Bowen Sun, Ning Ding, Haiwen Hong
- Longtao Huang, Hui Xue, Ganqu Cui†, Wanxiang Che†
- Zhiyuan Liu, Maosong Sun
- (*共同第一作者，†通讯作者)
机构:
- 清华大学
- 哈尔滨工业大学
- 上海人工智能实验室
- 伊利诺伊大学厄巴纳-香槟分校
- 阿里巴巴集团
状态: Preprint, Under review

研究背景和动机

关键问题：偏好学习对于使大语言模型与人类价值观保持一致至关重要，但其成功依赖于高质量的数据集
现有挑战：
- 当前数据集包含三个核心组件：偏好标注、指令和响应对
- 现有方法将这些组件混合在一起，导致：
  1. 模糊了各个组件的独立影响
  2. 阻碍了系统性优化
- 缺乏对数据集设计原则的系统性理解

主要贡献点

提出AIR框架：
- 首次提出系统性分析偏好数据集构建的框架
- 能够独立分析和优化每个组件
- 评估组件间的协同效应
发现关键原则：
- 注释简单性：采用基于点的生成评分
- 指令推理稳定性：基于LLMs间方差的过滤
- 响应对质量：适度的差距+高绝对分数
实验验证：
- 仅使用14k高质量数据对
- 相比基线方法平均提升5.3分
- 提供了从临时扩展到基于组件优化的蓝图

研究方法 (AIR框架)

1. 注释组件 (Annotations)

如何对(x,y)对进行评分
分析：
- 注释器模型类型
- 注释策略设计
- 评分方法

2. 指令组件 (Instructions)

如何选择高质量指令
研究：
- 分数方差
- 上下文轮次数量
- 与现有LLM方法比较

3. 响应对组件 (Response Pairs)

如何构建(yw,yl)对
关注：
- 相对分数差距
- 绝对分数阈值
- 在线/离线策略混合

实验结果和结论

主要发现

注释优化:
- 采用生成式评分模型
- 使用点式评分而非配对比较
- 简化评分指南
指令选择:
- 优先选择跨LLM评分方差低的指令
- 表明更清晰的偏好区分
响应对优化:
- 适度分数差距(△=2或3)
- 高绝对分数(≥8)
- 混合使用在线和离线响应

整体效果

逐步整合三个组件的优化原则后：
1. 生成式简化注释 (+1.78)
2. 基于方差的指令选择 (+1.07)
3. 优化的响应对 (+2.46)
最终累积提升：+5.31 (所有基准测试平均值)

研究意义

提供了系统性分析偏好数据集的新框架
揭示了可操作的数据集设计原则
为高效、可复现的AI对齐提供了新思路

关键方法

1. 注释简化（Generative Scoring）

替代复杂协议：用点式生成式奖励模型（Llama-3.1-70B-Instruct）直接评估单条响应质量，优于分类器模型和多样本聚合方法。
性能优势：生成式模型在 RewardBench 评分低于分类器模型（84.0 vs 94.3），但实际对齐效果更高（+1.4 平均提升）。

2. 低方差指令选择（Variance-Based Filtering）

核心思想：筛选跨 LLM 响应评分方差小的指令（vi ≤ 1.5），这类指令能暴露细微偏好差异。
实验验证：低方差指令在 AlpacaEval 2 (+3.7) 和 ArenaHard (+4.6) 上显著优于高方差指令。

3. 响应对优化（Balanced Contrastive Learning）

三要素平衡：
- 中等评分差距（Δ=2/3）：避免过简或过拟合（对比高/低差距性能差 5.42/-1.29）。
- 高绝对评分（≥8）：确保响应质量（对比低分对性能降 9.35）。
- 混合策略（On/Off-Policy）：1:1 混合基线模型和外部模型响应，避免分布偏移。

Author: Lil b

Permalink: https://cmgzn.github.io/2025/05/06/pool/2025-05-06-AIR%20A%20Systematic%20Analysis%20of%20Annotations,%20Instructions,%20and%20Response%20Pairs%20in%20Preference%20Dataset/

License: Copyright (c) 2019 CC-BY-NC-4.0 LICENSE

Slogan: Do you believe in STEAK?

Tag(s): # 论文

back · home