XYZ
XYZ

chatglm-PPO训练路径探索

背景 已有基于求解器的评测系统,等于在数学建模大模型这一品类下,不存在人类专家奖励分数难以获取的情况,可以直接获取标准化的评测分数。因此,初步调研认为,使用PPO无疑是方便且能够最大程度发挥数学建模大模型特色的。 RLHF调研 参考资料 ChatGPT 背后的“功臣”——RLHF 技术详解 (huggingface.co) 步骤1:收集数据与有监督训练策略 从数据集中采样的pro...

Python获取类的属性

Python 获取类的属性 在本文中,我们将介绍如何获取 Python 中类的属性。 介绍属性 在 Python 中,类是通过属性和方法来定义的。属性是类的特征,方法是类的行为。了解如何获取类的属性是非常重要的,因为它允许我们在运行时动态地访问和操作类的特征。 使用 dir() 函数获取属性 Python 内置的dir()函数可以获取一个对象的所有属性和方法。当我们调用dir()函...