多辣加香菜
多辣加香菜
文章 | POST系列 | SERIES生活 | LIFE浮世绘 | UKIYOE足迹 | FOOTPRINT关于 | ABOUT

RLHF

LLM reasoning & CoT
RLHF

LLM reasoning & CoT

📅 Mar 27, 2026📖 16 Min Read
READ MORE →
LLM 中的强化学习:ARPO
RLHF

LLM 中的强化学习:ARPO

📅 Mar 18, 2026📖 12 Min Read
READ MORE →
LLM 中的强化学习:GSPO
RLHF

LLM 中的强化学习:GSPO

📅 Mar 17, 2026📖 7 Min Read
READ MORE →
LLM 中的强化学习:DAPO
RLHF

LLM 中的强化学习:DAPO

📅 Mar 11, 2026📖 6 Min Read
READ MORE →
LLM 中的强化学习:GRPO
RLHF

LLM 中的强化学习:GRPO

📅 Mar 2, 2026📖 5 Min Read
READ MORE →
LLM 中的强化学习:DPO
RLHF

LLM 中的强化学习:DPO

📅 Feb 26, 2026📖 5 Min Read
READ MORE →
LLM 中的强化学习:PPO
RLHF

LLM 中的强化学习:PPO

📅 Feb 19, 2026📖 16 Min Read
READ MORE →
强化学习基础
RLHF

强化学习基础

📅 Feb 16, 2026📖 20 Min Read
READ MORE →

Series

deeplearning [7]llm [15]python 技巧 [4]rlhf [8]备忘 [2]游记 [3]训推框架 [3]论文阅读 [2]课程笔记 [5]面经 [3]项目笔记 [4]

Tags

asyncio [1]cdn [1]cloudflare [1]email [1]gpu [1]huggingface [1]inference [3]loss [1]module [2]netflix [1]python [4]register [1]transformer [3]分布式 [2]动作 [1]复习 [2]大模型 [21]异步 [1]强化学习 [7]掩码 [1]数据库 [1]数据集 [3]深度学习 [7]算法 [1]装饰器 [1]设计模式 [1]
© 2025-2026 多辣加香菜 CC BY-NC 4.0