20k 词
介绍BankConflict的概念,随后分析上节代码的冲突情况,并自底向上分析warp tiling中的块结构,对warp tiling实现中的循环结构做解释,对向量序号计算做说明。
16k 词
本文介绍了基础矩阵乘法优化的方法,包括简单矩阵乘法实现、全局内存合并、使用共享内存、1D BlockTiling、2D BlockTiling.