SHAOJIE'S BOOK

Posted 2026-07-03Updated 2026-08-031-AI Systems / 0-TOP23 minutes read (About 3458 words)

导言

模型训练建模不是先问“MFU 有多高”，而是先把模型结构、硬件账本、并行切分、调度路径和实测校准放到同一个估算器里。MFU 是其中最干净的计算口径：它把模型理论必需 FLOPs、设备峰值和实测步时连在一起；但显存能不能放下、通信会不会卡住、padding 是否浪费、EP/TP/SP 是否合适，必须另算。

Posted 2026-07-03Updated 2026-08-031-AI Model Architecture / 0-TOP28 minutes read (About 4172 words)

Scaling Law

导言

Scaling Law 不只是“模型越大越好”的经验总结，而是一套算力预算分配语言：在固定训练预算下，参数量、训练数据、序列长度和训练时长互相竞争；在固定推理预算下，模型大小、生成 token、采样策略、工具调用和 agent rollout 也互相竞争。本文只记录论文中可追溯的公开披露；没有披露的数据明确标为“未披露”，不从参数规模反推训练成本。

Posted 2026-07-02Updated 2026-08-031-Agent Workflow / 0-TOP30 minutes read (About 4444 words)

Personal Advantage Workflow

导言

多局点、多任务、多角色同时推进时，真正稀缺的不是勤奋，而是 判断力、取舍能力和可复用记录。均匀响应所有任务只能保证不出明显纰漏，却很难形成个人优势；优势通常来自少数高风险、高杠杆、高不确定、强依赖的局点。

本文把工作链路整理成一个可执行系统：先识别重点风险局点，再拒绝低优先级任务；先快穿刺关键假设，再并行派活和紧跟踪；先用原理、显存、性能 MFU 和投产约束做建模，再用实践验证、详细记录和持续修正形成历史；最后把优势进展、后续风险和必要求助稳定汇报出去。

Posted 2026-07-01Updated 2026-08-031-Agent Workflow / 0-TOP19 minutes read (About 2832 words)

AI Documentation Workflow

导言

这篇文章记录我当前的 Work with AI 文档工作流：不是把一段 prompt 扔给模型、得到一篇孤立文章，而是把调研、来源管理、论文图表、正文插图、图片上传、Hugo 写作规范、可复用 skill 和 git 发布串成一个可验证的流水线。

这条流水线的关键变化来自 Karpathy 的 LLM Wiki 思路：把知识库视作一个由 LLM 维护的 Markdown 代码库。原始资料进入 raw 层，结构化理解进入 wiki 层，Hugo 文章只是最终发布层。这样每次写作都会沉淀可复用记忆，而不是从聊天记录里重新发明一次。

Posted 2027-03-15Updated 2026-08-03Overview14 minutes read (About 2036 words)

Building Large-Scale AI Systems on Ascend: Training, Inference, and Multimodal Optimization

导言

谭邵杰，中国科学技术大学本硕毕业，现任华为昇腾训练开发工程师，专注于 Ascend NPU 上的大模型训练推理框架优化、多模态模型迁移、分布式并行训练、RL 优化与量化推理加速。

AI 训练推理框架与异构加速优化工程师，长期聚焦 Ascend NPU 生态下的大模型训练、推理、多模态迁移、分布式并行、RL 训练与量化优化。

Posted 2026-08-03Updated 2026-08-031-Agent Workflowan hour read (About 9236 words)

Software Design Evidence

导言

AI 相关需求经常采用敏捷方式推进：先完成最小穿刺，遇到问题再解决问题。这种方式可以快速消除技术未知，却容易留下另一类债务：需求散落在聊天和 issue 中，关键取舍没有 ADR，安全与可靠性只在事故后出现，性能结果只有一张截图，最终很难回答“你究竟设计了什么，为什么这样设计，怎样证明它有效”。

任职要求要看的不是文档篇幅，而是从问题到结果的可复核判断链。一份合格的软件设计材料应该同时连接需求/Top 问题、架构视图、质量属性场景、候选方案、设计原则与模式、代码提交、测试/Profiling/运行证据，以及后续架构治理。缺失的环节应如实列为设计或代码工作，不能由 AI 根据最终代码补写成虚构的事前决策。

本文解释 4+1 视图、设计原则、GoF 23 个设计模式（不是 24 个）、安全威胁分析、可靠/可用性、可测试性、功能安全、体验、性能、架构治理和技术决策，并给出一个可复用的本地 Skill：输入需求和穿刺代码 commits，输出软件设计文档、任职举证报告、追踪矩阵与缺口清单。

Posted 2026-08-03Updated 2026-08-031-Agent Workflowan hour read (About 7958 words)

Technology Insight

导言

AI 技术更新很快，日常知道“最近出现了什么”并不难，真正困难的是判断：新技术到底解决了旧方案的哪个瓶颈，会替代什么、保留什么、把成本转移到哪里，以及它是否适合自己的用户、硬件和组织。

技术洞察因此不能止于论文、新闻、功能和融资信息的汇总。它要从一个具体决策出发，建立现有技术基线，读标准和代码，设计最小 Demo 与受控基准，量化瓶颈，评估技术演进、成熟度、全生命周期成本和风险，最后给出带适用边界、证据等级和退出条件的行动建议。

本文把技术全景扫描、竞品与标杆、代码与架构逆向、实验与基准、瓶颈、演进、成熟度、成本收益和风险九类方法组织成一个闭环，并沉淀为可复用的 $technology-insight Skill。

Posted 2026-08-03Updated 2026-08-031-GeneralSkillsan hour read (About 9707 words)

Function Decomposition Methods

导言

功能分解的目标，是把“提升训练问题定位效率”这类高层目标，逐层转成可以独立实现、独立验证、能够追溯业务价值的子功能。真正困难的不是把一个大框画成很多小框，而是保持三种关系清楚：功能树表达“由什么组成”，依赖图表达“先有谁、后有谁”，验收契约表达“怎样证明做到了”。

本文用同一条训练诊断链路比较五种常用方法：功能树、WBS、FAST 功能分析、能力地图和 Feature Breakdown Structure。核心原则是：先按用户能力和业务价值拆“做什么”，再按架构与代码模块分配“由谁实现”。

Posted 2026-08-03Updated 2026-08-031-Agent Workflowan hour read (About 9462 words)

Requirements Analysis

导言

需求分析报告是一份开发前的决策合同。它要在投入主要研发资源之前回答五个问题：客户真正需要什么，需求由哪些部分组成，有哪些技术路线，项目是否可行且值得做，以及每条需求究竟如何定义和验收。

即使报告是在功能已经穿刺或实现之后补写，正文也不应从“已经完成了什么”出发。代码、测试和实验只能作为分析者校验接口、约束、技术可行性和估算边界的材料；最终报告仍应冻结在开发决策时点，使用“应、必须、拟采用、计划验证”的语态，不写实现完成率、测试通过情况或上线效果。

本文按六个阶段组织完整方法：识别真实需求、拆解需求组成、调研与选择技术方案、评估可行性/工作量/价值、定义需求与验收、确定优先级并建立基线。每个阶段都明确要消除的不确定性、适用方法、输出物和评审门。

Posted 2026-08-03Updated 2026-08-031-GeneralSkillsan hour read (About 8227 words)

Data Flow Analysis Methods

导言

分析数据平台、训练平台、日志系统或指标系统时，常见错误不是“不会画图”，而是用一张图回答了它不擅长的问题。DFD 解释数据经过哪里，IPO 解释一个处理如何变换，数据血缘解释结果从何而来，ER 模型解释事实如何持久化，领域模型解释业务规则由谁维护。本文用同一个训练与指标示例拆解五种方法，并给出组合顺序、优劣边界和落地检查表。

Categories

Subscribe for updates

follow.it

Links

Recents

Archives

Tags