OpenCL Caffe：一个可跨平台的快速机器学习框架-lyan-ChinaUnix博客

认真的柯南

首页　| 　博文目录　| 　关于我

lyan

博客访问： 248965
博文数量： 33
博客积分： 0
博客等级：民兵
技术积分： 480
用户组：普通用户
注册时间： 2019-01-22 08:36

个人简介

专注虚拟化性能优化，硬件显卡网卡虚拟加速，面向容器的轻量虚拟化开发永远的Linux Geeker！

文章分类

全部博文（33）

架构相关（1）
操作哦系统（0）
虚拟化工具（1）
大数据（1）
Linux Kerne（1）
容器化（1）
杂七杂八（0）
DPDK（1）
微虚机（5）
Debian（3）
SUSE（2）
GPU虚拟化（6）
QEMU（10）
ACPI（1）
未分配的博文（0）

推荐博文

OpenCL后端的移植及优化

Caffe框架一开始由C++和CUDA编写而成，其CUDA层负责硬件资源分配以及使用的优化，例如 CPU-GPU的任务调度，内存管理以及数据传输等。但是由于OpenCL在硬件抽象，缓存管理，同步以及数据传输上使用了不同于CUDA的实现，所以它的后端移植并不是一个很简单的过程。

这篇论文将OpenCL的移植过程分成两个阶段。阶段一实现了一个包括三层的的逐层移植，这三层分别是C++机器学习接口，OpenCL封装器，以及GPU核心。逐层移植是指我们一层层的进行移植，然后每移植一层就用其它原来的CUDA层进行验证，这样很好的保证了DNN算法的正确性和收敛性。

当完成阶段一的三层移植后，阶段二集中于性能优化。通过结合AMD的分析工具CodeXL以及OpenCL的event和printf，我们对阶段一移植的OpenCL进行了剖析，发现了一些比较大的瓶颈。首先是在构建GPU核心时，OpenCL 的在线编译频繁调用了clBuildProgram：以一个迭代100次的Cifar训练为例，期间竟然产生了63次clBuildProgram调用，并占据了68%的整体时间。另外一个瓶颈就是卷积层，它占据了绝大部分的计算时间。由于在不同层间产生了大量长窄形的不规则矩阵，BLAS（基础线性代数程序集）测试性能遭受了很大的损失。

为避免这些情形，这篇论文提出了三种主要的优化技术。首先，利用缓存GPU核心来防止OpenCL在线编译的过载，其次重新排布批量数据来提高数据并行化，最后就是采用多命令队列来加速任务并行化。这些优化技术非常有效的将DNN问题集的大小同当前的OpenCL数学库映射到一起，改善了硬件资源利用率，性能提速高达4.5倍。

测评

测评采用了AlexNet DNN模型和ImageNet数据库，分别对OpenCL后端和CUDA后端的Caffe进行了性能对比，类库分别采用了没有优化的clBLAS和cuBLAS，以及各自优化后的clBLAS（批量并行优化）和cuDNN v2，CUDA后端运行在NVIDIA的TitanX显卡，OpenCL后端则在AMD的R9 Fury显卡，输入为大小100的小型批数据。

通过图三所示，经过优化的clBLAS在性能上已经可以同cuBLAS相媲美。当然，跟同样经过优化的cuDNN v2相比，OpenCL Caffe仍然落后了一倍。但是考虑到AMD R9 Fury约560美元同NVIDIA TitanX约1000美元的市场售价，作者认为OpenCL Coffe仍然具有非常好的性价比。

跨平台能力分析

一个显而易见的问题是，论文一直在强调OpenCL后端的可移植优势，那么文中在AMD GPU上测试的OpenCL代码能不能直接在ARM的MALI GPU上运行呢？这是一个很好的验证实验，但是作者并没有在文中提及。

另外，作者还提醒了一些兼容性上的小问题，“有一些生产厂商采用了不同的扩展名和关键字。例如Caffe在GPU核心中使用了很多模板来支持不同的浮点精度，可是不同厂商的这些模板关键字并不一样，这样我们就必须要修改代码才能让它在不同平台上运行。”

OpenCL对深度学习框架的支持还不是很完善，但正如论文所讲，它会在未来中变得更好。

原文：http://muratbuffalo.blogspot.com/2017/09/paper-summary-opencl-caffe-accelerating.html

阅读(5304) | 评论(0) | 转发(0) |

上一篇：Linux内核将在5.1版本中增加硬件加速子系统

下一篇：virt-manager 2.1 新特性一览

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6