小不点搜索

通过 SFT, LoRA, DPO和GRPO等方法对大型语言模型进行微调和强化学习

请输入举报反馈原因

免责声明,搜索引擎只收录网站文字链接,供学习使用
免费公益,任何违规请及时反馈邮箱 www@xiaobd.com

X