多辣加香菜
多辣加香菜
文章 | POST系列 | SERIES生活 | LIFE浮世绘 | UKIYOE足迹 | FOOTPRINT关于 | ABOUT

Posts

Codex Free 无限续杯
备忘

Codex Free 无限续杯

📅 Jun 10, 2026📖 4 Min Read
READ MORE →
Interview Codes
面经

Interview Codes

📅 Jun 2, 2026📖 6 Min Read
READ MORE →
Interview Q&A
面经

Interview Q&A

📅 Jun 2, 2026📖 23 Min Read
READ MORE →
上海行
游记

上海行

📅 May 25, 2026📖 2 Min Read
READ MORE →
Search-R1 学习指北
项目笔记

Search-R1 学习指北

📅 May 21, 2026📖 29 Min Read
READ MORE →
面试算法速通

面试算法速通

📅 May 18, 2026📖 9 Min Read
READ MORE →
On-Policy Distillation
论文阅读

On-Policy Distillation

📅 May 7, 2026📖 15 Min Read
READ MORE →
RL训推不一致的原因 & 解决方案
面经

RL训推不一致的原因 & 解决方案

📅 Apr 26, 2026📖 6 Min Read
READ MORE →
ToolRL: Reward is All Tool Learning Needs
论文阅读

ToolRL: Reward is All Tool Learning Needs

📅 Apr 24, 2026📖 3 Min Read
READ MORE →
从零开始学 verl 框架
训推框架

从零开始学 verl 框架

📅 Apr 16, 2026📖 30 Min Read
READ MORE →
ToolBrain 学习指北
项目笔记

ToolBrain 学习指北

📅 Apr 13, 2026📖 11 Min Read
READ MORE →
CLIProxyAPI&大模型反代

CLIProxyAPI&大模型反代

📅 Mar 30, 2026📖 9 Min Read
READ MORE →
LLM 清洗数据
LLM

LLM 清洗数据

📅 Mar 29, 2026📖 15 Min Read
READ MORE →
LLM reasoning & CoT
RLHF

LLM reasoning & CoT

📅 Mar 27, 2026📖 16 Min Read
READ MORE →
MedicalGPT 学习指北
项目笔记

MedicalGPT 学习指北

📅 Mar 27, 2026📖 22 Min Read
READ MORE →
Dataset 预处理
LLM

Dataset 预处理

📅 Mar 25, 2026📖 4 Min Read
READ MORE →
LLM 中的强化学习:ARPO
RLHF

LLM 中的强化学习:ARPO

📅 Mar 18, 2026📖 12 Min Read
READ MORE →
组合数学
课程笔记

组合数学

📅 Mar 18, 2026📖 13 Min Read
READ MORE →
LLM 中的强化学习:GSPO
RLHF

LLM 中的强化学习:GSPO

📅 Mar 17, 2026📖 7 Min Read
READ MORE →
vLLM 部署大模型
训推框架

vLLM 部署大模型

📅 Mar 15, 2026📖 3 Min Read
READ MORE →
Flash Attention
LLM

Flash Attention

📅 Mar 14, 2026📖 4 Min Read
READ MORE →
vLLM 原理
训推框架

vLLM 原理

📅 Mar 12, 2026📖 18 Min Read
READ MORE →
LLM 中的强化学习:DAPO
RLHF

LLM 中的强化学习:DAPO

📅 Mar 11, 2026📖 6 Min Read
READ MORE →
大模型知识蒸馏
LLM

大模型知识蒸馏

📅 Mar 5, 2026📖 5 Min Read
READ MORE →
Autograd from scratch
DeepLearning

Autograd from scratch

📅 Mar 4, 2026📖 6 Min Read
READ MORE →
LLM 中的强化学习:GRPO
RLHF

LLM 中的强化学习:GRPO

📅 Mar 2, 2026📖 5 Min Read
READ MORE →
LLM 中的强化学习:DPO
RLHF

LLM 中的强化学习:DPO

📅 Feb 26, 2026📖 5 Min Read
READ MORE →
LLM 中的强化学习:PPO
RLHF

LLM 中的强化学习:PPO

📅 Feb 19, 2026📖 16 Min Read
READ MORE →
大模型量化
LLM

大模型量化

📅 Feb 17, 2026📖 11 Min Read
READ MORE →
LoRA&QLoRA
LLM

LoRA&QLoRA

📅 Feb 16, 2026📖 4 Min Read
READ MORE →
强化学习基础
RLHF

强化学习基础

📅 Feb 16, 2026📖 20 Min Read
READ MORE →
MiniMind 学习指北
项目笔记

MiniMind 学习指北

📅 Feb 13, 2026📖 36 Min Read
READ MORE →
LLM Inference
LLM

LLM Inference

📅 Feb 11, 2026📖 9 Min Read
READ MORE →
MoE 混合专家模型
LLM

MoE 混合专家模型

📅 Feb 6, 2026📖 5 Min Read
READ MORE →
分布式训练技术 - 张量并行
LLM

分布式训练技术 - 张量并行

📅 Feb 5, 2026📖 10 Min Read
READ MORE →
分布式训练技术 - 数据并行
LLM

分布式训练技术 - 数据并行

📅 Feb 2, 2026📖 10 Min Read
READ MORE →
LLM

transformer库的基类

📅 Jan 27, 2026📖 6 Min Read
READ MORE →
Mask On Transformer
DeepLearning

Mask On Transformer

📅 Jan 24, 2026📖 3 Min Read
READ MORE →
CDN 加速博客和图床
备忘

CDN 加速博客和图床

📅 Jan 15, 2026📖 3 Min Read
READ MORE →
高级数据库系统
课程笔记

高级数据库系统

📅 Jan 13, 2026📖 54 Min Read
READ MORE →
算法分析与设计
课程笔记

算法分析与设计

📅 Jan 8, 2026📖 48 Min Read
READ MORE →
冬游黄山
游记

冬游黄山

📅 Jan 1, 2026📖 1 Min Read
READ MORE →
Loss Function
DeepLearning

Loss Function

📅 Dec 27, 2025📖 3 Min Read
READ MORE →
LSTM
DeepLearning

LSTM

📅 Dec 19, 2025📖 7 Min Read
READ MORE →
Stanford-CS336
课程笔记

Stanford-CS336

📅 Dec 17, 2025📖 24 Min Read
READ MORE →
KVCache
LLM

KVCache

📅 Dec 3, 2025📖 3 Min Read
READ MORE →
Optimizer
DeepLearning

Optimizer

📅 Dec 1, 2025📖 4 Min Read
READ MORE →
Stanford-CS224N
课程笔记

Stanford-CS224N

📅 Nov 30, 2025📖 64 Min Read
READ MORE →
RoPE
LLM

RoPE

📅 Nov 28, 2025📖 3 Min Read
READ MORE →
DeepLearning

Bilateral LSTM

📅 Nov 27, 2025📖 3 Min Read
READ MORE →
DeepLearning

RNN

📅 Nov 19, 2025📖 3 Min Read
READ MORE →
Packing or Padding?
LLM

Packing or Padding?

📅 Nov 9, 2025📖 5 Min Read
READ MORE →
Python Tricks
Python 技巧

Python Tricks

📅 Oct 19, 2025📖 1 Min Read
READ MORE →
Python 设计模式
Python 技巧

Python 设计模式

📅 Oct 19, 2025📖 1 Min Read
READ MORE →
Python 异步编程
Python 技巧

Python 异步编程

📅 Oct 19, 2025📖 1 Min Read
READ MORE →
Python 装饰器
Python 技巧

Python 装饰器

📅 Oct 19, 2025📖 1 Min Read
READ MORE →
估算模型需要的显存
LLM

估算模型需要的显存

📅 Aug 22, 2025📖 6 Min Read
READ MORE →
香港行
游记

香港行

📅 Jul 8, 2025📖 3 Min Read
READ MORE →

Series

deeplearning [7]llm [15]python 技巧 [4]rlhf [8]备忘 [2]游记 [3]训推框架 [3]论文阅读 [2]课程笔记 [5]面经 [3]项目笔记 [4]

Tags

asyncio [1]cdn [1]cloudflare [1]email [1]gpu [1]huggingface [1]inference [3]loss [1]module [2]netflix [1]python [4]register [1]transformer [3]分布式 [2]动作 [1]复习 [2]大模型 [21]异步 [1]强化学习 [7]掩码 [1]数据库 [1]数据集 [3]深度学习 [7]算法 [1]装饰器 [1]设计模式 [1]
© 2025-2026 多辣加香菜 CC BY-NC 4.0