小不点搜索
登录
使用 GRPO 对大型语言模型进行强化微调Reinforcement Fine-Tuning LLMs with GRPO
收藏
举报
吴恩达《
使
用
GRPO
对
大
型
语
言
模
型
进
行
强
化
微
调
Reinforcement
Fine
-
Tuning
LLM
s with
GRPO
》
影音视频
www.bilibili.com 昨天 10:00
GRPO
算法
影音视频
haokan.baidu.com 4-1 14:42
大
模
型
项目选择RAG还是
微
调
:八个判断依据
影音视频
www.bilibili.com 1-18 14:16
【
微
软宣布支持普通话 】6月21日消息,
微
软宣布桌面端
用
户现在可以
使
用
语
音输入的方式
进
行
影音视频
haokan.baidu.com 2023-12-14 10:32
大
模
型
优
化
的三种方式:RAG、提示词、
微
调
哪个会让
大
模
型
表现更好?
影音视频
www.bilibili.com 1-18 14:16
【2025版】这可能是B站唯一将LLaMAFactory
大
模
型
微
调
从入门到精通讲明白的教程,存下吧,比啃书好太多了!拿走不谢,允许白嫖!
影音视频
www.bilibili.com 昨天 10:06
代码实现
大
模
型
强
化
学习(PPO),看这个视频就够了。
影音视频
www.bilibili.com 昨天 10:06
基于LlamaFactory和EasyR1的高效
大
模
型
微
调
和
GRPO
训练实践
-
郑耀威
影音视频
www.bilibili.com 昨天 10:06
【吴恩达
大
模
型
• 中英】
使
用
GRPO
对
大
模
型
进
行
强
化
微
调
丨
Reinforcement
Fine
-
Tuning
LLM
s with
GRPO
影音视频
www.bilibili.com 昨天 10:06
【
大
白话04】一文理清
强
化
学习PPO和
GRPO
算法流程 | 原理图解
影音视频
www.bilibili.com 4-1 14:42
GPT
大
语
言
模
型
-
RAG增
强
检索和自训练
微
调
影音视频
www.ixigua.com 2024-4-24 19:31
面试官:
大
模
型
微
调
流程是怎样的??被问懵了。。AI
大
模
型
面试必看!
影音视频
www.bilibili.com 昨天 10:06
20分钟搞定
大
模
型
应
用
项目中RAG和
微
调
该如何选择,干货满满!
影音视频
www.bilibili.com 昨天 10:06
OpenAI最新
强
化
微
调
技术解读
影音视频
www.bilibili.com 昨天 10:06
通过 SFT, LoRA, DPO和
GRPO
等方法
对
大
型
语
言
模
型
进
行
微
调
和
强
化
学习
影音视频
www.bilibili.com 昨天 10:06
从零到一
微
调
大
语
言
模
型
ChatGLM,LLaMA
影音视频
www.bilibili.com 2023-11-14 20:44
提示词、RAG、
微
调
哪个会让
大
模
型
表现更好?1、实践中如何选择
微
调
、rag、提示词工程 2、提示词工程
使
用
方式 3、RAG VS
微
调
4、rag评估框架
影音视频
www.bilibili.com 2024-1-7 14:56
大
模
型
应
用
项目中RAG和
微
调
该如何选择,如何判断
用
RAG还是
微
调
,这节课让你搞清楚!
影音视频
www.bilibili.com 2024-9-9 11:33
在
模
型
微
调
中设计
GRPO
的奖励函数实现Deepseek
-
R1的推理输出
影音视频
www.bilibili.com 昨天 10:06
【B站最新】吴恩达详细讲解
GRPO
对
大
模
型
进
行
强
化
微
调
,小白教程,全程干货无尿点,学完你就是AGI的
大
佬!(附代码)
LLM
|AI
大
模
型
影音视频
www.bilibili.com 昨天 10:06
图解deepseek的
grpo
原理、以debug形式阅读
grpo
的源码
影音视频
www.bilibili.com 3-30 1:08
【AI
大
模
型
】
大
模
型
项目中到底
使
用
RAG还是
微
调
?这就告诉你,看完直接头脑清晰!
影音视频
www.bilibili.com 昨天 10:06
微
调
LLM
中的魔鬼细节|
大
型
语
言
模
型
lora
调
教指南
影音视频
www.bilibili.com 2023-7-16 14:59
【AI】
用
unsloth
对
模
型
进
行
微
调
Fine
-
tuning
并本地应
用
影音视频
www.bilibili.com 昨天 10:06
VeRL 灵活高效的
大
型
语
言
模
型
强
化
学习框架——FORCE
大
会直播回放
影音视频
www.bilibili.com 昨天 10:06
【
微
调
教程】DeepSeek R1
模
型
Lora
微
调
训练,打造私有专属
行
业
大
模
型
,全程干货输出,草履虫轻松上手!
大
模
型
|
LLM
影音视频
www.bilibili.com 3-13 21:59
PyTorch10天入门
-
09
-
模
型
微
调
影音视频
www.bilibili.com 2023-5-14 1:13
练习两天半,完全从零开始实现PPO算法(基于Qwen2
.
5
-
0
.
5B),不依赖第三方
强
化
学习框架,从原理讲解到代码实现,你不可能学不会的超详细教程
影音视频
www.bilibili.com 4-4 7:01
Unsloth+Ollama3
微
调
与部署
大
语
言
模
型
!精
调
Ollama+
调
用
训练后的
模
型
!
影音视频
www.bilibili.com 昨天 10:06
【精度降低=性能暴跌?】1小时搞懂AI
大
模
型
数值精度那些事!混合训练如何平衡性能与成本!
大
模
型
微
调
llm
大
模
型
入门 人工智能期末速成
影音视频
www.bilibili.com 昨天 10:06
AI
模
型
微
调
对
比RAG
模
式
调
用
的好处
影音视频
www.bilibili.com 7-7 10:04
3
.
qwen2
.
5vl 实现
GRPO
训练
影音视频
www.bilibili.com 昨天 10:06
首发!2025更新B站最实
用
的HuggingFace,手把手带练
微
调
运
用
到RAG、langchain
大
语
言
模
型
实战中&二十
大
项目!草覆虫都能完全学明白!
影音视频
www.bilibili.com 昨天 10:06
【昊昊】
大
语
言
模
型
微
调
发子刊发一区,分享一个做4sci的例子,下个视频讲如何在自己的服务器上
微
调
影音视频
www.bilibili.com 昨天 10:06
面试官:PPO与DPO的区别??被问懵了。。AI
大
模
型
面试必看!
影音视频
www.bilibili.com 昨天 10:06
【精华半小时】从理论到实战全面解析
微
调
DeepSeek
-
R1
模
型
,实现为特定
行
业打造专家
模
型
!全程干货输出!适合借鉴学习!
大
模
型
|
LLM
影音视频
www.bilibili.com 昨天 10:06
【喂饭教程】无需代码,
使
用
LLaMA
-
Factory
微
调
大
语
言
模
型
QWen2
.
5 !
影音视频
www.bilibili.com 昨天 10:06
PPO 到底怎么 work?优点和坑都讲清楚
影音视频
www.bilibili.com 昨天 10:06
快被
强
化
学习劝退了
影音视频
www.bilibili.com 2024-7-12 16:14
【
大
模
型
实战】Transformers
微
调
保姆级教程!从原理到代码手把手教学,看完就能跑自己的AI
模
型
!
影音视频
www.bilibili.com 昨天 10:06
【保姆级】17种RAG方案一次喂饱!AI小白避坑指南,学不会算我输 全网首发!
大
模
型
RAG的17种解法,程序员看完直拍
大
腿:早出少熬3年夜!
影音视频
www.bilibili.com 昨天 10:06
【LLaMA
-
Factory】30分钟实现Llama3中文增
强
模
型
微
调
+法律
大
模
型
微
调
,全程干货,草覆虫也能学会~
大
模
型
/
LLM
影音视频
www.bilibili.com 昨天 10:06
【原理】如何构造
微
调
数据集?
对
话数据、指令数据、Function call数据、思考链数据构造方法详解
影音视频
www.bilibili.com 5-12 3:46
【喂饭教程】30分钟学会Qwen2
.
5
-
7B
微
调
行
业
大
模
型
,环境配置+
模
型
微
调
+
模
型
部署+效果展示详细教程!草履虫都能学会~~~
影音视频
www.bilibili.com 3-20 12:23
X