RL Algorithms: PPO-RLHF & GRPO-family

导言

  • RLHF 利用复杂的反馈回路,结合人工评估和奖励模型来指导人工智能的学习过程。(RLHF = 人类偏好数据 + Reward Model + RL(如 PPO), 所以RLHF是RL的一种实践方式)
  • 尽管DPO相对于PPO-RHLF更直接,但是(Reinforcement Learning from Verifiable Rewards (RLVR))往往效果更好;
  • 而RLVR算法在 2025年的GRPO提出后,其变种和应用范围迎来了井喷爆发。
  • 本文详细介绍 PPO、GRPO以及DAPO。

[^1]

必看好文[^2]

Read more

Bridging the Gap: Challenges and Trends in Multimodal RL.

导言

快速调研多模态强化学习及其ai infra(verl类似)的下一步方向、技术点和与LLM RL的差异点:

  • 说实话有点头大
  • 多模态理解模型的主体就是LLM,LLM的RL基本半年后会迁移到多模态理解上,所以我要跟踪LLM RL的文章
  • 多模态生成模型的RL偏向DPO为主的另一条路子;
  • 多模态还涉及agent、具身智能,RL又有些不同;
  • 文章多到看得头大。
Read more

Way 2 Wealth Freedom

导言

  • 在训练开发部待了一年,发现一个人在集体里的作用是渺小的,只能负责了一个模块,但是领导却希望你是个全才。而且中国互联网是人力密集型产业。堆人力,不停试。开发人员大部分工作都是消耗在了繁琐的流程上,消磨了意志,相对于2012那些预研的人员,学习提升有限。
  • 最主要是我花的时间,并产生不了技术壁垒,无法保护自己;
  • 打工是不可能发财的,现在还能靠还灵光的脑子来学习新技术,等自己老了就只能被新员工淘汰了。
  • 只有产生规模效应,加上低成本,自动化的工作才能真正积累财富。[^1] 简单来说就是在有需求的地方做平台收人头费。
  • 我当前选择的就是自建自动量化投资平台(资金管理平台),
    • 首先,可以弥补我欠缺的金融知识;学会合理的管钱
    • 其次,在不成熟之前可以自用;
    • 好用之后,可以商业化。
    • 但是个人开发周期3~7年,希望重策略轻软件框架,毕竟时间跨度大,合适的软件框架估计变了。
    • 唯一的问题:难度可能太高了,比如,最后发现不了赚钱的量化策略。
  • 还有另一种可能,在洞察到平台商业机会后,通过快速软件化(前后端)上线。
Read more

Pytorch 2.5 :Dataset & Dataloader

导言

  • 数据集与数据加载器:学习如何使用torch.utils.data.Dataset和DataLoader来加载和处理数据。
  • 数据预处理:介绍常用的数据预处理方法,如归一化、数据增强等。
Read more

Why Choose Quantitative Finance

导言

为什么之前认为金融只是调配资源,并不产生生产价值的我。也会想搞量化。

Read more

Blind Date Tips

导言

相亲是展现真实自我,寻找志趣相投另一半的过程。

Read more

Ideas around Vision-Language Models (VLMs) / Reasoning Models

导言

当前主流的多模态理解模型一般采用视觉编码器 + 模态对齐 + LLM的算法流程,充分复用已有视觉编码器的理解能力和LLM的基础能力。训练过程一般分为多个阶段,如先进行模态对齐的一阶段预训练,然后进行二阶段的参数微调。

Read more

torchrun

导言

vllm 的ray后端属实奇诡,ray stop有残留,flush打印被吞(虽然输出能标记ip,折叠重复,在master输出),ray集群的环境变量固定不变导致DP无法实现多机。

为此考虑使用torchrun实现多机并行。

看这篇,LLM实践:分布式训练框架的编程基础

写得太好了,由浅入深。

DP

Read more