Bridging the Gap: Challenges and Trends in Multimodal RL.

导言

快速调研多模态强化学习及其ai infra(verl类似)的下一步方向、技术点和与LLM RL的差异点:

  • 说实话有点头大
  • 多模态理解模型的主体就是LLM,LLM的RL基本半年后会迁移到多模态理解上,所以我要跟踪LLM RL的文章
  • 多模态生成模型的RL偏向DPO为主的另一条路子;
  • 多模态还涉及agent、具身智能,RL又有些不同;
  • 文章多到看得头大。
Read more