My Digital Worker : Target 1

导言

  • 第一阶段的目标: 接入api模型,完成每日的工作相关基础的信息收集和整理归档。
  • 第二阶段的目标: 无监管处理较简单事项;
  • 第三阶段的目标: 参与构建复杂系统,和辅助重要决策。
Read more

My Digital Worker

导言

Agent 概念与 OpenClaw 的爆火,本质上反映了人们对个人数字员工(Digital Worker)能力的期待:它不只是一个对话式 AI,而是一个可以在真实工作流中长期运行、承担任务、放大个人生产力的“虚拟员工”。

我真正关心的问题是:如何为自己的具体工作场景配置合适的数字员工,使其在时间与认知两个维度上对个人效率形成倍增效应。

Read more

AI Post Traning: DiffusionNFT

导言

DiffusionNFT 直接在前向加噪过程(forward process)上进行优化,在彻底摆脱似然估计与特定采样器依赖的同时,显著提升了训练效率与生成质量。在GenEval任务上,DiffusionNFT仅用约1.7k步就达到0.94分,而对比方法FlowGRPO需要超过5k步且依赖CFG才达到0.95分。这表明DiffusionNFT的训练效率比FlowGRPO快约25倍。

Read more

World Model/UFMs/Omni-Modal: AR vs DiT

导言

视觉领域的GPT moment要来了吗?[^4]

  • World Model: (e.g., Emu3.5)
  • Unified Foundation Models, UFMs,强调视觉能力的闭环。证明模型能像“看懂”图片一样“画出”图片。(e.g.,Bagel, Lumina, Emu3.5)
  • Omni 强调交互能力的闭环。证明模型能像真人一样,具备实时、全感官的反应。图片生成暂时不是必须的(e.g.,Qwen-3-Omni、longcat-omni), 但是也能支持(e.g., Ming-Omni)

当前多模态设计中AR和DiT的组合关系,单独学习一下

Read more