小不点搜索
登录
通过 SFT, LoRA, DPO和GRPO等方法对大型语言模型进行微调和强化学习
请输入举报反馈原因
验证提交
X