分类: 高性能计算
2022-11-16 15:14:58
TF计算图从逻辑层来讲,由op与tensor构成。op是项点代表计算单元,tensor是边代表op之间流动的数据内容,两者配合以数据流图的形式来表达计算图。那么op对应的物理层实现是什么?TF中有哪些op,以及各自的适用场景是什么?op到底是如何运行的?接下来让我们一起探索和回答这些问题。
op代表计算图中的节点,是tf.Operation对象,代表一个计算单元。用户在创建模型和训练代码时,会创建一系列op及其依赖关系,并将这些op和依赖添加到tf.Graph对象中(一般为默认图)。比如:tf.matmul()就是一个op,它有两个输入tensor和一个输出tensor。
op的分类一般有多个视角,比如按是否内置划分、按工作类型划分。
按是否内置划分,一般分为:内置op和自定义op(见“二、自定义op”部分介绍)。
按工作类型划分,一般分为:常见数学op、数组op、矩阵op、有状态op、神经网络op、检查点op、队列与同步op、控制流op。TF白皮书对内置op的分类总结如下:
op一般都有名称且代表一个抽象的计算过程。op可以设置若干属性,但这些属性必须在编译期提供或推理得到,因为它们用来实例化一个节点对象从而执行真正的计算。属性的经典用法就是拿来支持类型多态,比如两个浮点张量的矩阵乘法与两个整型张量的矩阵乘法。
kernel是op在指定设备类型(CPU/GPU)上的具体实现。TF二进制库通过注册机制定义了一系列op及对应的kernel实现,用户可以提供额外的op定义与kernel实现进行扩充。一般来说,一个op对应多个kernel实现。
接下来让我们一起用矩阵乘法MatMul算子的相关代码来理解op与kernel的关系(此处不必纠结代码细节,只需体会op与kernel关系即可):
点击(此处)折叠或打开
- // 首先给出op注册的定义。其中输入输出支持泛型,其合法类型在Attr中进行枚举。
- // 代码位置 tensorflow1.15.5\tensorflow\core\ops\math_ops.cc
- REGISTER_OP("MatMul")
- .Input("a: T")
- .Input("b: T")
- .Output("product: T")
- .Attr("transpose_a: bool = false")
- .Attr("transpose_b: bool = false")
- .Attr(
- "T: {bfloat16, half, float, double, int32, int64, complex64, "
- "complex128}")
- .SetShapeFn(shape_inference::MatMulShape);
- // MatMul的实现,采用类模板机制
- // 代码位置 tensorflow1.15.5\tensorflow\core\kernels\matmul_op.cc
- template <typename Device, typename T, bool USE_CUBLAS>
- class MatMulOp : public OpKernel {
- public:
- explicit MatMulOp(OpKernelConstruction* ctx)
- : OpKernel(ctx), algorithms_set_already_(false) {
- OP_REQUIRES_OK(ctx, ctx->GetAttr("transpose_a", &transpose_a_));
- OP_REQUIRES_OK(ctx, ctx->GetAttr("transpose_b", &transpose_b_));
- LaunchMatMul<Device, T, USE_CUBLAS>::GetBlasGemmAlgorithm(
- ctx, &algorithms_, &algorithms_set_already_);
- use_autotune_ = MatmulAutotuneEnable();
- }
- // 省略了很多代码...
- private:
- std::vector<int64> algorithms_;
- bool algorithms_set_already_;
- bool use_autotune_;
- bool transpose_a_;
- bool transpose_b_;
- };
- // MatMul的op定义与kernel实现绑定处理
- // 代码位置 tensorflow1.15.5\tensorflow\core\kernels\matmul_op.cc
- #define REGISTER_CPU_EIGEN(T) /*cpu与eigen组合对应实现*/ \
- REGISTER_KERNEL_BUILDER( \
- Name("MatMul").Device(DEVICE_CPU).TypeConstraint<T>("T").Label("eigen"), \
- MatMulOp<CPUDevice, T, false /* cublas, ignored for CPU */>);
- #define REGISTER_CPU(T) /*cpu对应实现(eigen与非eigen)*/ \
- REGISTER_KERNEL_BUILDER( \
- Name("MatMul").Device(DEVICE_CPU).TypeConstraint<T>("T"), \
- MatMulOp<CPUDevice, T, false /* cublas, ignored for CPU */>); \
- REGISTER_CPU_EIGEN(T);
- #define REGISTER_GPU(T) /*gpu对应实现(cublas与非cublas)*/ \
- REGISTER_KERNEL_BUILDER( \
- Name("MatMul").Device(DEVICE_GPU).TypeConstraint<T>("T"), \
- MatMulOp<GPUDevice, T, true /* cublas, true by default */>); \
- REGISTER_KERNEL_BUILDER(Name("MatMul") \
- .Device(DEVICE_GPU) \
- .TypeConstraint<T>("T") \
- .Label("cublas"), \
- MatMulOp<GPUDevice, T, true /* cublas */>)
用户编写的模型训练代码一般由TF原生的op算子及其依赖关系组成,但有时候我们定义的计算逻辑在TF中没有相应的op实现。根据TensorFlow官网的建议,我们应当先组合python op算子或python函数进行尝试。完成尝试之后再决定要不要自定义op。
一般来说,需要自定义op的场景有如下3个:
在此举个例子方便大家理解。假如我们要实现一个新计算实逻:中位数池化(median pooling),过程中要在滑动窗口不断求得中位数。检索TF文档没有发现对应op,因此我们先考虑用TF python op组合来实现它,果然通过ExtractImagePatches and TopK就可以实现这个功能。经测试前述组合方案并不是计算和存储高效的,因此我们就有必要将median pooling在一个op中进行高效实现。
自定义op一般遵循5个基本步骤:
接下来我们就以官网{BANNED}最佳简单的ZeroOut同步式自定义op(继承OpKernel)为例,结合代码来讲述上述5个步骤。下面先给出步骤1和步骤2用C++实现的代码(官方推荐用bazel编译so文件):
步骤3加载上述so文件(自动完成前后端op映射);步骤4是可选项,此处不需要;步骤5基于python api测试op功能。相应代码如下:点击(此处)折叠或打开
- // 步骤1:注册op
- REGISTER_OP("ZeroOut")
- .Input("to_zero: int32")
- .Output("zeroed: int32")
- .SetShapeFn([](::tensorflow::shape_inference::InferenceContext* c) {
- c->set_output(0, c->input(0)); //c
点击(此处)折叠或打开
- import tensorflow as tf
- zero_out_module = tf.load_op_library('./zero_out.so') # 加载so文件生成python module
- with tf.Session(''):
- zero_out_module.zero_out([[1, 2], [3, 4]]).eval()
- # Prints
- array([[1, 0], [0, 0]], dtype=int32)
关于op的技术话题还有很多,我们在此简述一些要点:
整体来看,op与kernel都有其结构描述与统一的注册管理中心。而OpDefBuilder有两个包装类OpDefBuilderWrapper和OpDefBuilderReceiver,前者支持op构建的链式语法,后者接受op构建结果并进行注册。众所周知,op是编译期概念,而kernel是运行期概念,在AI编译器的后端处理流程中会进行op的算子选择,此过程会基于一系列策略为op匹配{BANNED}最佳合适的kernel实现。
?
首先,我们来看一下大家在使用TensorFlow过程中经常碰到的libtensorflow_framework.so。按照tf1.15.5/tensorflow/BUILD中的描述,libtensorflow_framework.so定义了op和kernel的注册机制而不涉及具体实现。
点击(此处)折叠或打开
- // rootdir=tensorflow1.15.5
- // ${rootdir}/tensorflow/BUILD
- /*
- # A shared object which includes registration mechanisms for ops and
- # kernels. Does not include the implementations of any ops or kernels. Instead,
- # the library which loads libtensorflow_framework.so
- # (e.g. _pywrap_tensorflow_internal.so for Python, libtensorflow.so for the C
- # API) is responsible for registering ops with libtensorflow_framework.so. In
- # addition to this core set of ops, user libraries which are loaded (via
- # TF_LoadLibrary/tf.load_op_library) register their ops and kernels with this
- # shared object directly.
- */
- tf_cc_shared_object(
- name = "tensorflow_framework",
- framework_so = [],
- linkopts = select({
- "//tensorflow:macos": [],
- "//tensorflow:windows": [],
- "//tensorflow:freebsd": [
- "-Wl,--version-script,$(location //tensorflow:tf_framework_version_script.lds)",
- "-lexecinfo",
- ],
- "//conditions:default": [
- "-Wl,--version-script,$(location //tensorflow:tf_framework_version_script.lds)",
- ],
- }),
- linkstatic = 1,
- per_os_targets = True,
- soversion = VERSION,
- visibility = ["//visibility:public"],
- deps = [
- "//tensorflow/cc/saved_model:loader_lite_impl",
- "//tensorflow/core:core_cpu_impl",
- "//tensorflow/core:framework_internal_impl", /* 展开此target进行查看 */
- "//tensorflow/core:gpu_runtime_impl",
- "//tensorflow/core/grappler/optimizers:custom_graph_optimizer_registry_impl",
- "//tensorflow/core:lib_internal_impl",
- "//tensorflow/stream_executor:stream_executor_impl",
- "//tensorflow:tf_framework_version_script.lds",
- ] + tf_additional_binary_deps(),
- )
- // ${rootdir}/tensorflow/core/BUILD
- tf_cuda_library(
- name = "framework_internal_impl",
- srcs = FRAMEWORK_INTERNAL_PRIVATE_HEADERS + glob( // 可以查看FRAMEWORK_INTERNAL_PRIVATE_HEADERS内容
- [
- "example/**/*.cc",
- "framework/**/*.cc",
- "util/**/*.cc",
- "graph/edgeset.cc",
- "graph/graph.cc",
- "graph/graph_def_builder.cc",
- "graph/node_builder.cc",
- "graph/tensor_id.cc",
- "graph/while_context.h",
- "graph/while_context.cc",
- ],
- // 省略了诸多代码
- )
- // FRAMEWORK_INTERNAL_PRIVATE_HEADERS的内容
- FRAMEWORK_INTERNAL_PRIVATE_HEADERS = [
- "graph/edgeset.h",
- "graph/graph.h",
- "graph/graph_def_builder.h",
- "graph/node_builder.h",
- "graph/tensor_id.h",
- ] + glob(
- [
- "example/**/*.h",
- "framework/**/*.h", // 这里就是重点,查看${rootdir}/tensorflow/core/framework/op.h和opkernel.h
- "util/**/*.h",
- ]
- )
- // 先来看op.h
- #define REGISTER_OP(name) REGISTER_OP_UNIQ_HELPER(__COUNTER__, name)
- #define REGISTER_OP_UNIQ_HELPER(ctr, name) REGISTER_OP_UNIQ(ctr, name)
- #define REGISTER_OP_UNIQ(ctr, name) \
- static ::tensorflow::register_op::OpDefBuilderReceiver register_op##ctr \
- TF_ATTRIBUTE_UNUSED = \
- ::tensorflow::register_op::OpDefBuilderWrapper<SHOULD_REGISTER_OP( \
- name)>(name)
- // 再来看看opkernel.h
- #define REGISTER_KERNEL_BUILDER(kernel_builder, ...) \
- REGISTER_KERNEL_BUILDER_UNIQ_HELPER(__COUNTER__, kernel_builder, __VA_ARGS__)
- #define REGISTER_KERNEL_BUILDER_UNIQ_HELPER(ctr, kernel_builder, ...) \
- REGISTER_KERNEL_BUILDER_UNIQ(ctr, kernel_builder, __VA_ARGS__)
- #define REGISTER_KERNEL_BUILDER_UNIQ(ctr, kernel_builder, ...) \
- constexpr bool should_register_##ctr##__flag = \
- SHOULD_REGISTER_OP_KERNEL(#__VA_ARGS__); \
- static ::tensorflow::kernel_factory::OpKernelRegistrar \
- registrar__body__##ctr##__object( \
- should_register_##ctr##__flag \
- ? ::tensorflow::register_kernel::kernel_builder.Build() \
- : nullptr, \
- #__VA_ARGS__, \
- [](::tensorflow::OpKernelConstruction* context) \
- -> ::tensorflow::OpKernel* { \
- return new __VA_ARGS__(context); \
- })
本文为大家系统讲解了TensorFlow的核心抽象op及其kernel实现。需要自定义op的具体场景,以及op的运行框架及若干技术细节。读罢此文,读者应该有如下几点收获:
1.《TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems》:
6.tensorflow源码解析之framework-resource: https://www.cnblogs.com/jicanghai/p/9535504.html
7.tensorflow源码解析之framework-op: https://www.cnblogs.com/jicanghai/p/9539513.html