1 部分文件需要使用 hipcc 进行编译,因此文件名做了修改; 2 注释了 c++ 编译器不支持的编译选项 -fgpu-default-stream=per-thread; 3 添加 launch_bounds(1024)