NVIDIA GPU架构与原理分析（五）——Kepler 架构 GPU 概述-登高望远海-ChinaUnix博客

小爬虫

首页　| 　博文目录　| 　关于我

登高望远海

博客访问： 837596
博文数量： 31
博客积分： 0
博客等级：民兵
技术积分： 4136
用户组：普通用户
注册时间： 2013-06-21 00:52

个人简介

余自庚寅年麦月误入Linux领域，先从事文件系统与IO之技，后及性能基准之术，上诸述之领域，吾虽有知晓，然未能精通，实为憾事！

文章分类

全部博文（31）

文章存档

2016年（8）

2014年（9）

2013年（14）

我的朋友

相关博文

NVIDIA GPU架构与原理分析（五）——Kepler 架构 GPU 概述

分类：高性能计算

2016-03-06 16:37:08

Kepler GK110 由 71 亿个晶体管组成，速度最快，是有史以来架构最复杂的微处理器，GK110 新加了许多注重计算性能的创新功能。GK110提供超过每秒 1 万亿次双精度浮点计算的吞吐量，性能效率明显高于之前的 Fermi 架构。除大大提高的性能之外，Kepler 架构在电源效率方面有 3 次巨大的飞跃，使 Fermi 的性能/功率比提高了 3 倍。
完整 Kepler GK110 架构包括 15个SMX 单元和六个 64 位内存控制器。不同的产品将使用 GK110 不同的配置。例如，某些产品可能部署 13 或 14 个 SMX。

Kepler GK110 的以下新功能提高 GPU 的利用率，简化了并行程序设计，并有助于 GPU 在各种计算环境中部署：

(1)Dynamic Parallelism

能够让 GPU 在无需 CPU 介入的情况下，通过专用加速硬件路径为自己创建新的线程，对结果同步，并控制这些线程的调度。

(2)Hyper-Q

Hyper - Q 允许多个 CPU 核同时在单一 GPU 上启动线程，从而大大提高了 GPU 的利用率并削减了 CPU 空闲时间。Hyper‐Q 增加了主机和 Kepler GK110 GPU 之间的连接总数（工作队列），允许 32 个并发、硬件管理的连接（与 Fermi 相比，Fermi 只允许单个连接）。Hyper - Q 是一种灵活的解决方案，允许来自多个 CUDA 流、多个消息传递接口（MPI）进程，甚至是进程内多个线程的单独连接。

(3)Grid Management Unit

使 Dynamic Parallelism 能够使用先进、灵活的 GRID 管理和调度控制系统。新 GK110 Grid Management Unit (GMU) 管理按优先顺序在 GPU上执行的Grid。GMU 可以暂停新 GRID 和等待队列的调度，并能中止 GRID，直到其能够执行时为止，为 Dynamic Parallelism 的运行提供了灵活性。GMU 确保 CPU和 GPU产生的工作负载得到妥善的管理和调度。

(4)英伟达GPUDirect

英伟达GPUDirect 能够使单个计算机内的 GPU 或位于网络内不同服务器内的 GPU 直接交换数据，无需进入 CPU 系统内存。GPUDirect 中的 RDMA 功能允许第三方设备，例如 SSD、NIC、和 IB 适配器，直接访问相同系统内多个 GPU 上的内存，大大降低 MPI 从 GPU 内存发送/接收信息的延迟。还降低了系统内存带宽的要求并释放其他 CUDA 任务使用的 GPU DMA 引擎。Kepler GK110 还支持其他的 GPUDirect 功能，包括 Peer-to-Peer 和 GPUDirect for Video。

在下面进一步讨论的该架构的主要功能，包括：

? 新 SMX 处理器架构

? 增强的内存子系统，在每个层次提供额外的缓存能力，更多的带宽，且完全进行了重新设计，DRAM I/O 实施的速度大大加快。

? 贯穿整个设计的硬件支持使其具有新的编程模型功能

阅读(7028) | 评论(0) | 转发(0) |

上一篇：NVIDIA GPU架构与原理分析（四）——Fermi 架构的 GPU 产品

下一篇：NVIDIA GPU架构与原理分析（六）——Kepler GK110的流式多处理器 (SMX) 架构

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6