CUDA学习笔记之Tesla图形与计算架构和通用计算模型-kanghtta-ChinaUnix博客

只记今朝kang.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

kanghtta

博客访问： 1833241
博文数量： 290
博客积分： 10653
博客等级：上将
技术积分： 3178
用户组：普通用户
注册时间： 2007-10-24 23:08

文章分类

全部博文（290）

Python（3）
Exploit（0）
Android（0）
文件格式（1）
QT编程（4）
调试器（2）

dbg（1）

IDA（0）

OllyIce（0）

windbg（1）
Linux内核分析（13）

系统引导（11）
模式匹配（0）
驱动开发技术（4）

驱动开发相关资料（0）

学习笔记（1）

WDK文档（1）
工具使用（10）
源代码阅读（19）

grub源代码（2）

Service（8）

CRT（4）

Visual C++（3）

汇编（1）
WWW程序设计（1）

服务器（0）

JavaScript（0）

PHP（0）

CSS（0）

HTML（0）
Visual C++ SDK （17）
经典视频收集（13）
Shell Code揭秘（2）
诗词歌赋赏析（0）
读书（1）
英语学习（4）

新概念英语（0）

第四册（0）

第三册（0）

第二册（2）

第一册（0）

介词用法总结（1）

新视野大学英语（0）
经典文章转载（44）
系统优化与网络安（14）
心情日记（18）
计算机体系结构相（2）
linux学习（26）
操作系统-WINDOWS（10）
计算机网络（15）

网络流媒体协议标（0）

RFC文档（2）

Network Programm（6）
反汇编与加密解密（9）

PackKer（1）
汇编语言程序设计（29）
数据库技术（3）

Sql和高级语言的（1）

SQl server 2000（0）
数据结构与语言学（26）

逆向C++（1）

算法与数据结构（4）

java 程序设计（1）

C++语言基础（17）

C++现代大学教程（3）
未分配的博文（0）

文章存档

2013年（6）

2012年（15）

2011年（25）

2010年（86）

2009年（52）

2008年（66）

2007年（40）

我的朋友

最近访客

推荐博文

CUDA学习笔记之Tesla图形与计算架构和通用计算模型

分类：

2010-03-01 16:52:49

发表时间：2010-01-06

Tesla图形与计算架构：流处理器阵列（scalable streaming processor array，SPA）+存储器系统，由片上互联网络连接；存储器系统：存储器控制器（MMC）、固定功能的光栅操作单元（raster operation processors，ROP），二级纹理缓存；

Tesla图形与计算架构：流处理器阵列（scalable streaming processor array，SPA）+存储器系统，由片上互联网络连接；

存储器系统：存储器控制器（MMC）、固定功能的光栅操作单元（raster operation processors，ROP），二级纹理缓存；

MMC：负责控制片外的DRAM显存，每个存储器可以提供64bit位宽；

ROP：对存储器内的数据进行颜色和深度操作；

SPA可以将计算得到的深度与颜色信息发送给ROP，也可以直接读写DRAM或者通过纹理缓存以制度方式访问DRAM；

SPA：若干个TPC(Thread Processing Cluster,线程处理器群)构成；

2~3个SM（Streaming Multiprocessor）组成一个TPC；

G200：10个TPC，每个TPC中有3个SM；

SM：大致相当于一个具有8路SIMD的处理器，指令宽度不是是32（即warp size）;

每个SM具有独立的完整前端，包括取址、译码、发射和执行单元等；

同一个TPC中的SM共享存储器流水线；

包含8个线程处理器（Thread Processor，TP或者成为SP）；

Sp有独立的寄存器和指令指针，没有取指和调度单元构成的完整前端，类似于当代多线程CPU中的一条流水线；

CUDA编程模型中：整个Grid被加载到SPA上，再将整个Block分发到各个SM上，TPC是透明的；

相互之间不能通信的粗粒度并行block 被分发到各个SM上，每个Block内的细粒度写作线程数量因为SIMT的自动向量化可以灵活调整；

在通用计算中，存储器带宽往往成为制约计算性能提高的瓶颈；

Tesla通用速算模型：

CTA：(Collaborative Tread Arrays), CUDA程序的任务分发单位，CTA与block是同一事物在执行模型和编程模型中的表述；

同一个block中的线程使用同一块shared memory；

一个CTA里的线程必须被分配到同一个SM中；

目前硬件下，CTA最多由16个warp组成（512个线程）；

目前架构下，函数执行参数和参数要通过shared memory 传递到各个CTA：因为shared memory尺寸较大，并且可以读写；

Compute Scheduler：计算分发单元；

采用轮询算法，尽可能平均地将各个CTA分发到各个SM上，同时在每个SM上分配尽可能多的CTA；

知识点：

同一个SM上可以存在多个warp上下文，但是一个时刻只有一个warp被执行；

一个warp中所有线程必须属于同一个CTA；

一个SM上应该保持多个CTA上下文，就可以比只有一个CTA的上下文更好的隐藏延时；

现有架构中一个SM中至少有6个active warp才能隐藏延迟；

属于同一个warp的thread之间进行通信，不需要进行栅栏同步（barrier）；

发射逻辑电路使用一个加权算法计算各条warp指令的优先级；

优先级受到warp所在的block、warp指令类型和其他一些因素的影响；

当一条指令需要用到的register和shared memory资源都处于可用状态的时候，这条指令的状态被设置为就绪状态（ready）；

发射逻辑单元从指令级中选择优先级最高的就绪态指令；

如果一个warp中有几条处于就绪状态的指令等待执行，这些指令会被连续发射，知道重新计算warp的状态和优先级，或者发射逻辑选择了来自另一个warp的指令；

Shared memory：用于实现block内的thread通信；

被组织为16个bank；

Global memory中的数据要先写入register，才能转移到shared memory；

执行单元：

SM中最主要的执行资源为8个32bit ALU和MAD；

Sp：一个branch单元和一个ALU或者MAD；

ALU和MAD需要4个sp周期才能执行完毕：首先取出数据需要一个时钟周期，然后利用3个时钟周期进行运算；

特殊运算单元：DPU（Double Precision Unit），用来处理寄存器中的64位浮点和整形操作数的64bit乘加单元；在GT200中每个SM中只有一个；

SFU: 执行超越函数、插值、倒数、平方根倒数、正弦、余弦以及其他特殊运算；cuda中提供的一些带有”_”前缀的函数由SFU只需将能够；SFU指令大都有16个时钟周期的延迟；

双发射并行：在NVIDIA的微架构设计中，sp执行一条指令再怎么也有至少两个核心周期的延迟，sm每个核心周期能够发射一条指令；

当sm发射一条指令后，sp经过一段时间才能执行完毕，此时sm再发射一条指令，这种机制成为双发射并行（dual issue）；

双发射不仅提高了使用率，但是也增加了寄存器的带宽压力；

纹理，渲染和存储器流水线：

进行数据输入输出；

存储器流水线：纹理流水线、加载流水线和渲染输出流水线；

纹理流水线和加载流水线进行读取操作，ROP流水线进行写入操作；

纹理缓存与CPU缓存比较：

Cpu缓存为一维的，存储器地址为线性的；典型的纹理是二维连续的，读取地址也必须是在两个维度上连续分布的；加载时要将二维纹理地址映射到一维；

纹理缓存是只读的，并且不满足缓存数据的一致性；

纹理缓存的主要功能是节省带宽和功耗，CPU缓存是为了实现较低的访问延迟；

阅读(1077) | 评论(0) | 转发(0) |

上一篇： Tesla架构下的CUDA程序优化

下一篇：关注python

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6