AIR: A Systematic Analysis of Annotations, Instructions, and Response Pairs in Preference Dataset
基本信息
- 标题: AIR: A Systematic Analysis of Annotations, Instructions, and Response Pairs in Preference Dataset
- 作者:
- Bingxiang He*, Wenbin Zhang*, Jiaxi Song, Cheng Qian
- Zixuan Fu, Bowen Sun, Ning Ding, Haiwen Hong
- Longtao Huang, Hui Xue, Ganqu Cui†, Wanxiang Che†
- Zhiyuan Liu, Maosong Sun
- (*共同第一作者,†通讯作者)
- 机构:
- 清华大学
- 哈尔滨工业大学
- 上海人工智能实验室
- 伊利诺伊大学厄巴纳-香槟分校
- 阿里巴巴集团
- 状态: Preprint, Under review
研究背景和动机
- 关键问题:偏好学习对于使大语言模型与人类价值观保持一致至关重要,但其成功依赖于高质量的数据集
- 现有挑战:
- 当前数据集包含三个核心组件:偏好标注、指令和响应对
- 现有方法将这些组件混合在一起,导致:
- 模糊了各个组件的独立影响
- 阻碍了系统性优化
- 缺乏对数据集设计原则的系统性理解
主要贡献点
提出AIR框架:
- 首次提出系统性分析偏好数据集构建的框架
- 能够独立分析和优化每个组件
- 评估组件间的协同效应
发现关键原则:
- 注释简单性:采用基于点的生成评分
- 指令推理稳定性:基于LLMs间方差的过滤
- 响应对质量:适度的差距+高绝对分数
实验验证:
- 仅使用14k高质量数据对
- 相比基线方法平均提升5.3分
- 提供了从临时扩展到基于组件优化的蓝图
研究方法 (AIR框架)
1. 注释组件 (Annotations)
- 如何对(x,y)对进行评分
- 分析:
- 注释器模型类型
- 注释策略设计
- 评分方法
2. 指令组件 (Instructions)
- 如何选择高质量指令
- 研究:
- 分数方差
- 上下文轮次数量
- 与现有LLM方法比较
3. 响应对组件 (Response Pairs)
- 如何构建(yw,yl)对
- 关注:
- 相对分数差距
- 绝对分数阈值
- 在线/离线策略混合
实验结果和结论
主要发现
注释优化:
- 采用生成式评分模型
- 使用点式评分而非配对比较
- 简化评分指南
指令选择:
- 优先选择跨LLM评分方差低的指令
- 表明更清晰的偏好区分
响应对优化:
- 适度分数差距(△=2或3)
- 高绝对分数(≥8)
- 混合使用在线和离线响应
整体效果
- 逐步整合三个组件的优化原则后:
- 生成式简化注释 (+1.78)
- 基于方差的指令选择 (+1.07)
- 优化的响应对 (+2.46)
- 最终累积提升:+5.31 (所有基准测试平均值)
研究意义
- 提供了系统性分析偏好数据集的新框架
- 揭示了可操作的数据集设计原则
- 为高效、可复现的AI对齐提供了新思路
关键方法
1. 注释简化(Generative Scoring)
- 替代复杂协议:用点式生成式奖励模型(Llama-3.1-70B-Instruct)直接评估单条响应质量,优于分类器模型和多样本聚合方法。
- 性能优势:生成式模型在 RewardBench 评分低于分类器模型(84.0 vs 94.3),但实际对齐效果更高(+1.4 平均提升)。
2. 低方差指令选择(Variance-Based Filtering)
- 核心思想:筛选跨 LLM 响应评分方差小的指令(vi ≤ 1.5),这类指令能暴露细微偏好差异。
- 实验验证:低方差指令在 AlpacaEval 2 (+3.7) 和 ArenaHard (+4.6) 上显著优于高方差指令。
3. 响应对优化(Balanced Contrastive Learning)
- 三要素平衡:
- 中等评分差距(Δ=2/3):避免过简或过拟合(对比高/低差距性能差 5.42/-1.29)。
- 高绝对评分(≥8):确保响应质量(对比低分对性能降 9.35)。
- 混合策略(On/Off-Policy):1:1 混合基线模型和外部模型响应,避免分布偏移。