github.com

新手上路 2026-4-13 19:22

主楼

[资源名称]

RLFromScratch

[资源来源]

github.com

[资源介绍]

RLFromScratch 一款帮助AI开发工程师学习偏好学习算法的开源项目，用纯PyTorch从零实现GRPO和DPO算法。展示完整训练细节，提供可复现的实验结果，支持多GPU分布式及单GPU训练，包含Llama-3.2-1B训练案例和数据集。

[资源合集]

回复点赞举报