小不点搜索

在模型微调中设计GRPO的奖励函数实现Deepseek-R1的推理输出

[图]

www.bilibili.com

5天前 10:06

[内容类型] 在线视频

[视频名字] 在模型微调中设计GRPO的奖励函数实现Deepseek-R1的推理输出

[视频站点] www.bilibili.com

回复编辑 ⇧顶 ⇩沉

影音视频访问链接

以下链接为影音视频“在模型微调中设计GRPO的奖励函数实现Deepseek-R1的推理输出”在线访问地址，点击链接就可以访问查看啦

[图]

www.bilibili.com***200842

www.bilibili.com

说两句