华泰证券研究指出,DeepSeek V3 通过使用 PTX 优化硬件算法,展现出与 CUDA 解耦的趋势,为适配更多算力芯片打下基础。NSA 采用 Triton 编程语言,可高效编写 GPU 代码,支持多种 GPU 语言。尽管 LLM 训练尚未完全脱离 CUDA 生态,但 DeepSeek NSA 的推出为后续适配更多算力芯片提供了可能。国产算力如异腾已适配 DeepSeek-R1 等国产模型,并取得高效推理效果。随着海外算力受限,国产算力优化有望持续进展,值得关注。