细数那些处理器技术与编程模型的发展趋势-dcssy-ChinaUnix博客

dcssy的ChinaUnix博客

首页　| 　博文目录　| 　关于我

dcssy

博客访问： 44858
博文数量： 13
博客积分： 0
博客等级：民兵
技术积分： 381
用户组：普通用户
注册时间： 2013-04-25 16:24

文章分类

全部博文（13）

IT软件（12）
财经杂志（0）
未分配的博文（1）

文章存档

2013年（13）

我的朋友

相关博文

细数那些处理器技术与编程模型的发展趋势

分类：服务器与存储

2013-06-25 15:52:53

　　1.处理器技术的发展

　　1971年，全球第一颗通用型微处理器4004推出，由2300个晶体管构成。当时——戈登摩尔(Gordon Moore)，就提出后来被业界奉为信条的“摩尔定律”——每过18个月，芯片上可以集成的晶体管数目将增加一倍。

　　在一块芯片上集成的晶体管数目越多，意味着运算速度即主频就更快。到了英特尔的奔腾(Pentium 4)840处理器，晶体管数量已经增加至2.5亿个，相比当年的4004增加了10万倍。其主频也从最初的740kHz(每秒钟可进行74万次运算)，增长到现在的3GHz(每秒钟运算30亿次)以上。这一时期，我们称之为单核时代。这一时期的主要特点是通过不断扩充，提升机器的主频，优化单核核心的流水线效率。

　　但到了2005年，当主频接近4GHz时，单核处理器速度也会遇到自己的极限：那就是单纯的主频提升，已经无法明显提升系统整体性能。此时，多核处理器应运而生。

　　多核芯片的出现，使处理器开始向“横向扩展”，而非以前单纯地“纵向扩充”，从而更好地提高处理器的性能。多核心的架构实现了“分治法”战略，通过划分任务，线程应用能够充分利用多个执行内核，并可在特定的时间内执行更多任务。多核处理器是单枚芯片(也称为“硅核”)，能够直接插入单一的处理器插槽中，但操作系统会利用所有相关的资源，将每个执行内核作为分立的逻辑处理器。通过在两个执行内核之间划分任务，多核处理器可在特定的时钟周期内执行更多任务。多核架构能够使软件更出色地运行，并创建一个促进未来的软件编写更趋完善的架构。

　　但是，随着多核时代不断发展，到了2010年遇到了同样的问题。此时，处理器的性能曲线变成了频率曲线，这个时候，我们进入了基于CPU+GPU的异构计算的时代。基于CPU+GPU的异构计算系统指的是在传统计算机系统中加入GPU作为加速部件并配合CPU共同承担计算任务的新型系统。相比于传统的单纯以CPU作为计算部件的同构系统，异构系统优势明显。首先，GPU能够更出色的完成某些特殊应用，例如对于追求浮点运算性能的应用来说，目前GPU的浮点运算能力已经远远超过CPU;其次，原先只用于图形处理领域的GPU正在逐渐向通用计算方向发展，在各GPU生产厂商的大力推动下，一些原先制约GPU通用化的障碍(如硬件结构、编程模型)已经不同程度地得到了克服;最后，当今单纯由CPU搭建的高性能计算机系统遇到了许多难以克服的问题，例如扩展性问题、功耗问题等，而使用GPU加速部件可以很好地解决这些问题。

　　2.编程模型的发展

　　随着处理器构架的不断发展变化，编程模型也发生着深刻的变化。在单核时代，软件性能随着处理器性能发展可以获得免费的提升，用汇编或者C++编写的程序，基本上都是单并发程序，这个时候编写的软件完成之后，随着硬件升级一次，软件的性能也会得到线性的提升，硬件的性能不断提升，让软件也不断发展。

　　到了多核时代，这种线性递增的方式已经结束了，程序员不得不去改变思维模式，必须思考如何把多个核心利用起来，编程模型很主要的任务，就是需要发掘应用的并行性，更强调数据的并行，如何把一个大数据集划分，是SPMD的模式，可能是Pipeline的模式，这是需要程序开发者去努力思考的事情，这是对一个算法的设计提出的要求。

　　而在异构计算的时代，对编程模型提出了更高的要求。所谓异构计算，是指CPU+GPU或者CPU+其它设备(如FPGA等)协同计算。一般情况下，现程序，是在CPU上计算。但是，当大量的数据需要计算时，CPU显得力不从心。那么，是否可以找寻其它的方法来解决计算速度呢?那就是异构计算。例如可利用CPU(Central Processing Unit)、GPU(Graphic Processing Unit)、甚至APU(Accelerated Processing Units，CPU与GPU的融合)等计算设备的计算能力从而来提高系统的速度。异构系统越来越普遍，对于支持这种环境的计算而言，也正受到越来越多的关注。

　　对于异构计算来说，虽然现在我们看到许多计算机中都应用了GPU的通用计算，使用显卡来进行大规模的并行计算任务，但是在这个过程中，处理器就被闲置了。例如许多转码程序在运行的时候，仅仅是运行在显卡，而处理器并未参与到转码加速中来。将异构的运算部件，全部有效的调用起来，这是一件困难的编程工作。

　　与此同时，当前的CPU和GPU是分立设计的处理器，不能高效率地协同工作，编写同时运行于CPU和GPU的程序也是相当麻烦。由于CPU和GPU拥有独立的地址空间，应用程序不得不明确地控制数据在CPU和GPU之间的流动。

　　为了充分释放并行处理器的计算能力，架构设计者必须打破既有格局，采用新的思路。设计者必须重塑计算系统，把同一个平台上分立的处理单元紧密整合成为不断演进单颗处理器，同时无需软件开发者的编程方式发生重大的改变。异构系统架构(HSA，Heterogeneous System Architecture)的出现，展现了一种全新的体系架构，可以适应各种特性的计算任务。HSA创造了一种更佳的处理器设计，展示了CPU和GPU被无缝集成后所带来的益处和潜能。通过HSA，程序可以在统一的地址空间中建立数据结构，在最合适的处理器上创建任务。处理器之间的数据交互不过是传递一个指针。多个计算任务之间通过coherent memory，barrier，和atomic等操作来保证数据的同步(和多核CPU的方式相同)。透过HSA中间语言(HSAIL, HSA Intermediate Language)，不同的硬件实现向上暴露出统一的软件接口。HSAIL也是所有底层软件模块、开发工具一致的目标平台。同时，HSAIL足够灵活并且接近硬件，各个硬件厂商可以高效地把它映射到自己的硬件设计上。HSAIL也解放了程序员，后者不必为不同硬件平台裁剪自己的代码，同一套代码可以顺利运行在不同CPU/GPU配置的系统上。

　　3、HSA的未来

　　HSA与传统架构相比，它的优势在于可以发展成统一的内存编制。CPU跟它的CU之间的内存叫做共享内存，也就是说，它处理的东西对于CU单元和计算单元来说是透明同步可见的。，统一的内存设计使所有计算单元访问相同的数据，这里面就避免了一个数据的搬迁，数据不需要搬迁，CPU和GPU计算能够无缝交替进行。

　　HSA系统的优势在于：第一、统一的功耗效率管理，以前CPU和GPU的电源管理是两套方式，现在对于电源管理来说，是同样的一种电源管理方式。第二、优化的计算效率。在这样一个异构系统当中CPU和GPU可以同时访问内存。第三、访问内存可以一次性访问，CPU在GPU上处理数据一定要保证一致性。

　　目前，利用GPU进行加速优化应用已经得到实质性应用，这些GPU加速应用涵盖了各个行业领域，包括生物信息学、分子动力学、量子化学、材料科学、可视化和对接软件、数值分析学、物理学、天气与气候预报、国防与情报、计算金融、计算机辅助设计与制造、计算流体动力学、计算结构力学、流体模拟、电子设计自动化、动画建模与渲染、色彩校正与颗粒处理效果、后期合成制作、视频编辑、影音编码与数字发行、广播与新闻、立体3D制作、天气图形、油气矿业等等。例如，AMD与Adobe合作，首次在微软Windows平台上推出支持OpenCL硬件加速视频编辑功能的新版Adobe PremierePro，新版本的Adobe Premiere Pro 经过优化以充分利用AMD旗下各种专业及消费类图形处理器(GPU)和加速处理器(APU)的性能，从而能够在从DV到高清和4K超高清不同格式下以高帧率提供前所未有的实时编辑功能。

　　与此同时，AMD公司还发表HSA运算架构的新技术：hUMA(heterogeneous Uniform Memory Access)，来解决CPU与GPU间的重覆资料拷贝问题。透过hUMA，CPU和GPU能共享同一个存储空间，并且CPU能够直接存取GPU的存储位址，不必像过去得花工夫再将GPU的运算资料复写到CPU上。hUMA像个连贯快取的系统，让CPU和GPU能共享同一个存储空间，让CPU和GPU在存储上看到的数据都能维持一致，如果其中一方上的数据改变，另一方还是能看到更新的数据。换句话说，hUMA能让GPU直接存取CPU的存储位置，当CPU在读写资料时，GPU也能同时读写资料。

　　在未来的几年，随着HSA架构的逐渐成熟和各厂家相关产品的推出，可以预见更多差异化的应用会在上述平台上大量涌现。这些应用将根本性的改变目前由于操作系统、硬件平台的同质化而产生的应用同质化，并带来大量商机和丰富用户体验。通过异构架构HSA编程，软件公司和开发者能够实现诸多原先CPU体系架构无法得到的计算资源和计算性能，从而催生大量附带的差异化应用，如人脸识别、虚拟实现、手势控制、全天计算、高清图像处理、安全、云计算搜索等领域，并走出国内传统对GPU只在高性能(HPC)计算这一特定领域应用的误区，真正实现广泛应用，合理应用，差异化应用和高质量应用。

　　虽然异构系统架构目前处于起步阶段，还有许多的工作需要进一步完善，但是异构系统架构仍拥有强大的生命力，凭借其先进的跨平台和跨设备的计算架构，可以创造出更新、更好的用户体验，必将会是未来技术发展的趋势，并为异构计算和编程带来的广阔前景。

阅读(1611) | 评论(0) | 转发(0) |

上一篇：浅谈面向GPU并行计算新趋势

下一篇：浅谈体验设计如何创新？

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6