小不点搜索

使用 GRPO 对大型语言模型进行强化微调Reinforcement Fine-Tuning LLMs with GRPO

[图]

吴恩达《使用 GRPO 对大型语言模型进行强化微调Reinforcement Fine-Tuning LLMs with GRPO》

影音视频 www.bilibili.com 昨天 10:00

[图]

影音视频 haokan.baidu.com 4-1 14:42

[图]

大模型项目选择RAG还是微调：八个判断依据

影音视频 www.bilibili.com 1-18 14:16

[图]

【微软宣布支持普通话】6月21日消息,微软宣布桌面端用户现在可以使用语音输入的方式进行

影音视频 haokan.baidu.com 2023-12-14 10:32

[图]

大模型优化的三种方式：RAG、提示词、微调哪个会让大模型表现更好？

影音视频 www.bilibili.com 1-18 14:16

[图]

【2025版】这可能是B站唯一将LLaMAFactory大模型微调从入门到精通讲明白的教程，存下吧，比啃书好太多了！拿走不谢，允许白嫖！

影音视频 www.bilibili.com 昨天 10:06

[图]

代码实现大模型强化学习(PPO)，看这个视频就够了。

影音视频 www.bilibili.com 昨天 10:06

[图]

基于LlamaFactory和EasyR1的高效大模型微调和GRPO训练实践-郑耀威

影音视频 www.bilibili.com 昨天 10:06

[图]

【吴恩达大模型 • 中英】使用 GRPO 对大模型进行强化微调丨Reinforcement Fine-Tuning LLMs with GRPO

影音视频 www.bilibili.com 昨天 10:06

[图]

【大白话04】一文理清强化学习PPO和GRPO算法流程 | 原理图解

影音视频 www.bilibili.com 4-1 14:42

[图]

GPT大语言模型-RAG增强检索和自训练微调

影音视频 www.ixigua.com 2024-4-24 19:31

[图]

面试官：大模型微调流程是怎样的？？被问懵了。。AI大模型面试必看！

影音视频 www.bilibili.com 昨天 10:06

[图]

20分钟搞定大模型应用项目中RAG和微调该如何选择，干货满满！

影音视频 www.bilibili.com 昨天 10:06

[图]

OpenAI最新强化微调技术解读

影音视频 www.bilibili.com 昨天 10:06

[图]

通过 SFT, LoRA, DPO和GRPO等方法对大型语言模型进行微调和强化学习

影音视频 www.bilibili.com 昨天 10:06

[图]

从零到一微调大语言模型ChatGLM,LLaMA

影音视频 www.bilibili.com 2023-11-14 20:44

[图]

提示词、RAG、微调哪个会让大模型表现更好？1、实践中如何选择微调、rag、提示词工程 2、提示词工程使用方式 3、RAG VS 微调 4、rag评估框架

影音视频 www.bilibili.com 2024-1-7 14:56

[图]

大模型应用项目中RAG和微调该如何选择，如何判断用RAG还是微调，这节课让你搞清楚！

影音视频 www.bilibili.com 2024-9-9 11:33

[图]

在模型微调中设计GRPO的奖励函数实现Deepseek-R1的推理输出

影音视频 www.bilibili.com 昨天 10:06

[图]

【B站最新】吴恩达详细讲解GRPO 对大模型进行强化微调，小白教程，全程干货无尿点，学完你就是AGI的大佬！（附代码）LLM|AI大模型

影音视频 www.bilibili.com 昨天 10:06

[图]

图解deepseek的grpo原理、以debug形式阅读grpo的源码

影音视频 www.bilibili.com 3-30 1:08

[图]

【AI大模型】大模型项目中到底使用RAG还是微调？这就告诉你，看完直接头脑清晰！

影音视频 www.bilibili.com 昨天 10:06

[图]

微调LLM中的魔鬼细节｜大型语言模型lora调教指南

影音视频 www.bilibili.com 2023-7-16 14:59

[图]

【AI】用unsloth对模型进行微调Fine-tuning并本地应用

影音视频 www.bilibili.com 昨天 10:06

[图]

VeRL 灵活高效的大型语言模型强化学习框架——FORCE大会直播回放

影音视频 www.bilibili.com 昨天 10:06

[图]

【微调教程】DeepSeek R1模型Lora微调训练，打造私有专属行业大模型，全程干货输出，草履虫轻松上手！大模型|LLM

影音视频 www.bilibili.com 3-13 21:59

[图]

PyTorch10天入门-09-模型微调

影音视频 www.bilibili.com 2023-5-14 1:13

[图]

练习两天半，完全从零开始实现PPO算法（基于Qwen2.5-0.5B），不依赖第三方强化学习框架，从原理讲解到代码实现，你不可能学不会的超详细教程

影音视频 www.bilibili.com 4-4 7:01

[图]

Unsloth+Ollama3微调与部署大语言模型！精调Ollama+调用训练后的模型！

影音视频 www.bilibili.com 昨天 10:06

[图]

【精度降低=性能暴跌？】1小时搞懂AI大模型数值精度那些事！混合训练如何平衡性能与成本！大模型微调 llm大模型入门人工智能期末速成

影音视频 www.bilibili.com 昨天 10:06

[图]

AI模型微调对比RAG模式调用的好处

影音视频 www.bilibili.com 7-7 10:04

[图]

3. qwen2.5vl 实现GRPO训练

影音视频 www.bilibili.com 昨天 10:06

[图]

首发！2025更新B站最实用的HuggingFace，手把手带练微调运用到RAG、langchain大语言模型实战中&二十大项目！草覆虫都能完全学明白！

影音视频 www.bilibili.com 昨天 10:06

[图]

【昊昊】大语言模型微调发子刊发一区，分享一个做4sci的例子，下个视频讲如何在自己的服务器上微调

影音视频 www.bilibili.com 昨天 10:06

[图]

面试官：PPO与DPO的区别？？被问懵了。。AI大模型面试必看！

影音视频 www.bilibili.com 昨天 10:06

[图]

【精华半小时】从理论到实战全面解析微调DeepSeek-R1模型，实现为特定行业打造专家模型！全程干货输出！适合借鉴学习！大模型|LLM

影音视频 www.bilibili.com 昨天 10:06

[图]

【喂饭教程】无需代码，使用LLaMA-Factory微调大语言模型QWen2.5 ！

影音视频 www.bilibili.com 昨天 10:06

[图]

PPO 到底怎么 work？优点和坑都讲清楚

影音视频 www.bilibili.com 昨天 10:06

[图]

快被强化学习劝退了

影音视频 www.bilibili.com 2024-7-12 16:14

[图]

【大模型实战】Transformers微调保姆级教程！从原理到代码手把手教学，看完就能跑自己的AI模型！

影音视频 www.bilibili.com 昨天 10:06

[图]

【保姆级】17种RAG方案一次喂饱！AI小白避坑指南，学不会算我输全网首发！大模型RAG的17种解法，程序员看完直拍大腿：早出少熬3年夜！

影音视频 www.bilibili.com 昨天 10:06

[图]

【LLaMA-Factory】30分钟实现Llama3中文增强模型微调+法律大模型微调，全程干货，草覆虫也能学会~大模型/LLM

影音视频 www.bilibili.com 昨天 10:06

[图]

【原理】如何构造微调数据集？对话数据、指令数据、Function call数据、思考链数据构造方法详解

影音视频 www.bilibili.com 5-12 3:46

[图]

【喂饭教程】30分钟学会Qwen2.5-7B微调行业大模型，环境配置+模型微调+模型部署+效果展示详细教程！草履虫都能学会~~~

影音视频 www.bilibili.com 3-20 12:23