Docker技术三大要点：cgroup, namespace和unionFS的理解-i042416-ChinaUnix博客

测试

首页　| 　博文目录　| 　关于我

i042416

博客访问： 1521275
博文数量： 931
博客积分： 10
博客等级：民兵
技术积分： 10198
用户组：普通用户
注册时间： 2011-07-08 12:28

个人简介

测试

文章分类

全部博文（931）

Kubernetes（26）
微信（12）
Web（11）
数据库（11）
JavaScript（48）
Linux（39）
Chrome（13）
SAP（769）

Hybris（40）

Java（56）

UI5（56）

C4C（64）

S/4（33）

CRM（106）

ABAP（185）

云（125）
未分配的博文（2）

文章存档

2020年（134）

2019年（792）

2018年（5）

我的朋友

岸边的莎

相关博文

Docker技术三大要点：cgroup, namespace和unionFS的理解

分类：架构设计与优化

2019-08-29 13:19:54

的网页有这样一张有意思的动画：

从这张gif图片，我们不难看出Docker网站想传达这样一条信息, 使用Docker加速了build，ship和run的过程。

Docker最早问世是2013年，以一个开源项目的方式被大家熟知。

Docker的奠基者是dotcloud，一家开发PaaS平台的技术公司。

不过可惜的是，这家公司把Docker开源之后，于2016年倒闭了，因为其主业务PaaS无法和微软，亚马逊等PaaS业界巨头竞争，不禁让人唏嘘。

Docker其实是容器化技术的具体技术实现之一，采用go语言开发。很多朋友刚接触Docker时，认为它就是一种更轻量级的虚拟机，这种认识其实是错误的，Docker和虚拟机有本质的区别。容器本质上讲就是运行在操作系统上的一个进程，只不过加入了对资源的隔离和限制。而Docker是基于容器的这个设计思想，基于Linux Container技术实现的核心管理引擎。

为什么资源的隔离和限制在云时代更加重要？在默认情况下，一个操作系统里所有运行的进程共享CPU和内存资源，如果程序设计不当，最极端的情况，某进程出现死循环可能会耗尽CPU资源，或者由于内存泄漏消耗掉大部分系统资源，这在企业级产品场景下是不可接受的，所以进程的资源隔离技术是非常必要的。

我当初刚接触Docker时，以为这是一项新的技术发明，后来才知道，Linux操作系统本身从操作系统层面就支持虚拟化技术，叫做Linux container，也就是大家到处能看到的LXC的全称。

LXC的三大特色：cgroup，namespace和unionFS。

cgroup：

CGroups 全称control group，用来限定一个进程的资源使用，由Linux 内核支持，可以限制和隔离Linux进程组 (process groups) 所使用的物理资源，比如cpu，内存，磁盘和网络IO，是Linux container技术的物理基础。

namespace：

另一个维度的资源隔离技术，大家可以把这个概念和我们熟悉的C++和Java里的namespace相对照。

如果CGroup设计出来的目的是为了隔离上面描述的物理资源，那么namespace则用来隔离PID(进程ID),IPC,Network等系统资源。

我们现在可以将它们分配给特定的Namespace，每个Namespace里面的资源对其他Namespace都是透明的。

不同container内的进程属于不同的Namespace，彼此透明，互不干扰。

我们用一个例子来理解namespace的必要。

假设多个用户购买了一台Linux服务器的Nginx服务，每个用户在该服务器上被分配了一个Linux系统的账号。我们希望每个用户只能访问分配给其的文件夹，这当然可以通过Linux文件系统本身的权限控制来实现，即一个用户只能访问属于他本身的那些文件夹。

但是有些操作仍然需要系统级别的权限，比如root，但我们肯定不可能给每个用户都分配root权限。因此我们就可以使用namespace技术：

我们能够为UID = n的用户，虚拟化一个namespace出来，在这个namespace里面，该用户具备root权限，但是在宿主机上，该UID =n的用户还是一个普通用户，也感知不到自己其实不是一个真的root用户这件事。

同样的方式可以通过namespace虚拟化进程树。

在每一个namespace内部，每一个用户都拥有一个属于自己的init进程，pid = 1，对于该用户来说，仿佛他独占一台物理的Linux服务器。

对于每一个命名空间，从用户看起来，应该像一台单独的Linux计算机一样，有自己的init进程(PID为1)，其他进程的PID依次递增，A和B空间都有PID为1的init进程，子容器的进程映射到父容器的进程上，父容器可以知道每一个子容器的运行状态，而子容器与子容器之间是隔离的。从图中我们可以看到，进程3在父命名空间里面PID 为3，但是在子命名空间内，他就是1.也就是说用户从子命名空间 A 内看进程3就像 init 进程一样，以为这个进程是自己的初始化进程，但是从整个 host 来看，他其实只是3号进程虚拟化出来的一个空间而已。

看下面的图加深理解。

父容器有两个子容器，父容器的命名空间里有两个进程，id分别为3和4, 映射到两个子命名空间后，分别成为其init进程，这样命名空间A和B的用户都认为自己独占整台服务器。