Tesla架构计算单元
如下图,为Tesla架构芯片构造图:

其中需要重点关注的部件为:流多处理器(Stream Multiprocessor,SM),流处理器(Streaming Processor,SP)。在该GPU中,最核心的执行单元为SP,即真正的劳动者,一个SP执行一个线程thread,一个SM执行一个线程块threadBlock。上述Tesla架构中有14个SM,每个SM有8个SP,整个GPU芯片一共有112个SP。
Fermi架构计算单元
如下图,为Fermi架构芯片构造图:

相对于Tesla架构,Fermi架构把SP的寄存器都剥离出来组成寄存器堆Register File,原来的SP变成了Core(核,即计算核心)。同样地,Core才是真正的劳动者,一个Core执行一个线程thread,一个SM执行一个线程块threadBlock。上述Fermi架构中有16个SM,每个SM有32个Core,整个GPU芯片一共有512个Core。

















