导言
导言
Agent 概念与 OpenClaw 的爆火,本质上反映了人们对个人数字员工(Digital Worker)能力的期待:它不只是一个对话式 AI,而是一个可以在真实工作流中长期运行、承担任务、放大个人生产力的“虚拟员工”。
我真正关心的问题是:如何为自己的具体工作场景配置合适的数字员工,使其在时间与认知两个维度上对个人效率形成倍增效应。
导言
DiffusionNFT 直接在前向加噪过程(forward process)上进行优化,在彻底摆脱似然估计与特定采样器依赖的同时,显著提升了训练效率与生成质量。在GenEval任务上,DiffusionNFT仅用约1.7k步就达到0.94分,而对比方法FlowGRPO需要超过5k步且依赖CFG才达到0.95分。这表明DiffusionNFT的训练效率比FlowGRPO快约25倍。
导言
Step-3-VL 10B
Where Do AI Ideas Come From? A Deeper Look
导言
如果想要写AI论文,就需要总结论文核心观点的来源。
导言
大语言模型、多模态模型是如何设计来实现高效Mem机制。
World Model/UFMs/Omni-Modal: AR vs DiT
导言
视觉领域的GPT moment要来了吗?[^4]
当前多模态设计中AR和DiT的组合关系,单独学习一下
导言
VeRL 作为RL领域趋势最火的开源仓,值得学习。
导言
VeRL 基于ray的多进程管理,并结合 推理、训练等多个阶段。其E2E时间组成和如何加速都是待研究的课题。