Business Trip: 2601-2602 verl + DanceGRPO

导言

ZJ内部出差,从0到1完成verl + MindSpeed MM + DanceGRPO算法的 t2v RL,达成reward快速持续上升。

时间线/里程碑

260109 - 260215

1.首周:了解现场客户的组织架构,对齐各部分进度,合作代码。
2.功能打通(2人合作):
1. 首周:
1. 0114: Dataloader整改以支持推理输入;
2. 0115-0116: 整合ZJ现场环境,接入MM Model支持初始化;
2. 第二周:
1. 0119-0122: 单卡/减层/不加载RM RL流程通,但是推理出乱码;
2. 0122-0124: 权重转化、推理接入权重转化后权重、全层遇到CANN报错。
3. 第三周
1. 0126-0126: 更新模型最新结构、正常加载权重,修改推理逻辑分支,能正常推理出图片信息。
2. 0127-0128: 依据DanceGRPO算法更新,
3. …

反思和总结

Author

Shaojie Tan

Posted on

2026-02-27

Updated on

2026-02-27

Licensed under