当前位置: 首页 > 热门 >

【2023 · CANN训练营第一季】——听CANN首席架构师解密TIC C算子开发

来源:哔哩哔哩    时间:2023-05-10 01:02:38

前言:2023年5月昇腾AI开发者峰会上,昇腾CANN首席架构师闫长江老师解密了全新的TIK C算子编程体系。正好CANN训练营开设了TIK C算子开发的课程,学习完成后再听大神的串讲,有种豁然开朗的感觉。


(相关资料图)

CANN训练营的TIK C算子课程参见:

https://www.hiascend.com/zh/developer/courses/detail/1627494761683783682

闫老师的演讲包括三部分内容:第一部分是基础概念,包括CANN的基础知识,以及Ascend C算子并行计算的硬件和理论基础;第二部分讲述了Ascend C算子编程的关键概念(核函数和编程范式)和编程实践,以及算子测试程序的编程方法;第三部分讲述了Ascend C算子在cpu和npu上的孪生调试。

下面是老师演讲的PPT。

一、基础知识

一)异构计算架构CANN

二)算子的硬件基础

下面这张图,清晰展示了AICore的内部架构及模块功能,也讲述了Global Mem和Local Mem的关系,Local Mem靠近计算单元,带宽非常高,但容量不大,一般是几百KB到几MB;而Global Mem容量大,但带宽不高。因此需要将Global Mem的数据搬运到Local Mem上,进行运算,运算完成后再将运算结构从Local Mem搬运到Global Mem上。

下面这张图讲述了一个Aicore的内部的计算单元,其中的向量和矩阵计算单元都是单指令多数据计算,也就是一个指令周期可以实现一组数据的加和乘。

三)并行计算        

下面这张图,讲述了并行计算中的两种常见方法:SPMD和流水线,这两种方法都会提现到Ascend C的编程模型和编程方法中。

二、Ascend C算子编程

核函数体现的是SPMD的编程思想,同时简化了用户的代码实现。开发代码时,只需要写单个AI Core核的实现代码。

Ascend C算子采用标准的C++和一组专门的类库API进行编程的。这些API包括计算的,数据搬运以及同步等操作的API。API的操作对象是Tensor,Tensor根据存储位置不同分为GlobalTensor和LocalTensor。

TPIPE的编程范式,实现了前述的流水线方式的并行计算。

算子编写完成后,可以通过host侧的应用开发接口,调用开发好的算子进行测试,验证。

下图讲述的是直接调用核函数的方式进行算子代码测试的。包括CPU和NPU两种测试方法,通过“__CCE_KT_TEST__”宏定义区分是运行在CPU上的代码还是NPU上的代码。

三、Ascend C算子孪生调试

TIK C算子的调试手段丰富,可以在CPU,也可以在NPU上调试。这就是算子的孪生调试技术。

一)CPU域调试调优

在CPU侧调试时,可以使用gdb工具进行调试,还有指令LOG和NPUcheck主动错误分析工具两大神器。指令log功能会把真正执行的指令队列列出来,也就是在运行CPU的核函数调用方式的编译运行后,会生成*.cce的文件,数量和定义的AiCore的数量一致,里面记录某个核上的实际指令序列。

二)NPU的仿真调试能力 

提供了强大的指令日志和数据日志功能,便于分析和调试问题。从下面的图,可以看出double buffer的作用。

三)上板运行调试能力:打印板上运行统计,以及支持打印数据功能

最后,闫老师对本次演讲的内容做了小结:

X 关闭

最近更新

Copyright ©  2015-2022 太平洋字画网版权所有  备案号:豫ICP备2022016495号-17   联系邮箱:93 96 74 66 9@qq.com