Posted 2026-04-13Updated 2026-07-03Programming12 minutes read (About 1849 words)PyPTO 导言 浦江现场性能优化时,原始 triton 的 GDN性能相对于H200的triton性能很差; 接入了 Ascend C的若干GDN算子实现,提速了一倍; 接入 mojo_opset 的 casual_conv1d; 或者 huawei-csl的 sglang的高性能 solve_tril 。性能又提升一波,但和竞品还是有差异。 2012实验室对 PyPTO 有精细调优,现在想接入 Read more
导言 浦江现场性能优化时,原始 triton 的 GDN性能相对于H200的triton性能很差; 接入了 Ascend C的若干GDN算子实现,提速了一倍; 接入 mojo_opset 的 casual_conv1d; 或者 huawei-csl的 sglang的高性能 solve_tril 。性能又提升一波,但和竞品还是有差异。 2012实验室对 PyPTO 有精细调优,现在想接入
2027-03-15Building Large-Scale AI Systems on Ascend: Training, Inference, and Multimodal OptimizationOverview