新手上路 3小时前
主楼
[资源名称]
RLFromScratch
[资源来源]
github.com
[资源介绍]
RLFromScratch 一款帮助AI开发工程师学习偏好学习算法的开源项目,用纯PyTorch从零实现GRPO和DPO算法。展示完整训练细节,提供可复现的实验结果,支持多GPU分布式及单GPU训练,包含Llama-3.2-1B训练案例和数据集。
[资源合集]
😀 😊 😵‍💫 😡 🤝 🙏 👍 👎 ❤️