qemu live migration 流程(2) -- 数据迁移-ziyubingzhu-ChinaUnix博客

鹌鹑的博客

首页　| 　博文目录　| 　关于我

ziyubingzhu

博客访问： 131954
博文数量： 25
博客积分： 0
博客等级：民兵
技术积分： 251
用户组：普通用户
注册时间： 2014-04-29 14:18

个人简介

不以物喜，勿以己悲；乐观向上，持之以恒。

文章分类

全部博文（25）

KVM虚拟化（4）
技术分享（1）
openstack（1）
Linux Raid（10）
Linux系统（3）
Linux内核（6）
未分配的博文（0）

文章存档

2015年（25）

我的朋友

manshukw

相关博文

qemu live migration 流程(2) -- 数据迁移

分类：云计算

2015-08-25 16:45:44

qmp_drive_mirror命令实现流程

迁移发起端：

入口函数qmp_drive_mirror（blockdev.c）

> qmp_drive_mirror（blockdev.c）

|--> bdrv_open：打开target指定的设备

|--> mirror_start：创建mirror

|--> mirror_start_job：此函数会传入一个回调函数block_job_cb用于mirror_job完成后处理等操作

|--> block_job_create：申请BlockJob结构job，初始化后返回

|--> qemu_coroutine_create(mirror_run)，交给协程处理mirror操作，执行函数注册为mirror_run

|--> qemu_coroutine_enter：执行函数完成后的处理，一般可以在这里执行回调函数

函数mirror_run（block/mirror.c）工作流程如下：

1. bdrv_is_allocated_above --> bdrv_set_dirty，获取设备要迁移的数据，如果要迁移，就设置bitmap中该block的位为dirty

2. 循环开始迁移bitmap中为drity的数据，直到虚拟机满足切换条件为止（should_complete被赋值或者block_job_is_cancelled）

2.1 bdrv_get_dirty_count，统计需要迁移的数据块个数

2.2 mirror_iteration，开始迁移数据

注：mirror_complete时会将should_complete赋值为true，此函数由libvirt调用命令qmp_block_job_complete触发

block_job_is_cancelled是由libvirt调用命令qmp_block_job_cancel触发

3. 迁移完成后，调用函数bdrv_drain_all下刷所有数据

4. 调用函数block_job_completed，释放申请的block job资源

从上述流程中可以看到，qemu层自己维护了一个bitmap，根据bitmap中标记的dirty_page做为迁移依据，即：

1. 全量数据盘迁移bitmap中所有位置为1；

2. 增量数据盘迁移根据bitmap记录的哪些位为dirty决定，因为虚拟机IO请求都要走qeme层，所以可以做到记录每个数据块的写操作；

3. 迁移过程中的增量数据，依然可以继续找到bitmap中其对应的位，然后置为1。

因此，在增量数据迁移时，整个过程最重要两个步骤是：

1. 初始化bitmap位图：根据每个driver自己注册的bdrv_co_get_block_status接口获取，此接口由函数bdrv_is_allocated_above调用

2. 根据bitmap位图迁移数据：调用函数mirror_iteration完成

第一步：位图设置

> bdrv_is_allocated_above（block.c）

|--> bdrv_is_allocated

|--> bdrv_get_block_status

|--> bdrv_get_block_status_co_entry

|--> bdrv_co_get_block_status

|--> bs->drv->bdrv_co_get_block_status

假设磁盘文件是file/qcow2，则bs->drv->bdrv_co_get_block_status被注册为函数qcow2_co_get_block_status（block/qcow2.c）

> qcow2_co_get_block_status

|--> qcow2_get_cluster_offset

函数qcow2_get_cluster_offset根据传入offset从qcow2的l1_table和l2_table中查找是否有对应的值，最终返回下面几个状态：

1. COMPRESSED：压缩过的数据

2. ZERO：写过，但写的是0

3. UNALLOCATED：未写，或者数据在base上

4. NORMAL：正常的数据

经过处理，上述1、2、4的数据为需要迁移的数据；3的数据需要额外处理，后续还会提及到。

假设磁盘文件是block/raw，则bs->drv->bdrv_co_get_block_status被注册为函数raw_co_get_block_status（block/raw.c），

此函数直接返回>0的值，经过处理，全部为需要迁移的数据，即raw格式的磁盘默认全部迁移。

第二步：按位迁移

> mirror_iteration（block/mirror.c）

|--> bdrv_aio_readv：异步从源端磁盘中读数据

|--> bdrv_co_aio_rw_vector：启动一个协程，执行函数为bdrv_co_do_rw

?--> bdrv_co_do_rw：此处处理读

|--> bdrv_co_do_readv：传入的第一个参数为bs，下面的drv=bs->drv，注定了最后的读函数进入第一层设备类型

|--> bdrv_co_do_preadv：其中io_limits_enabled决定是否限速

|--> bdrv_aligned_preadv

|--> drv->bdrv_co_readv，此函数由第一层设备类型决定

假设磁盘文件是file/qcow2，则注册为qcow2_co_readv函数

> qcow2_co_readv（block/qcow2.c）

|--> 如果要读的数据为UNALLOCATED，则在没有base image时，直接返回0，有base image时，从base中读

|--> 如果要读的数据为ZERO，则直接返回0

|--> 如果要读的数据为COMPRESSED，则先解压数据到buffer中，然后直接返回buffer中的数据（解压时读数据调用bdrv_read函数，有兴趣的可以跟一下）

|--> 如果要读的数据为NORMAL，则需要进一步调用函数bdrv_co_readv（block.c）

|--> bdrv_co_do_readv：传入的第一个参数为bs->file，下面的drv=bs->file->drv，注册了最后的读函数进入第二层设备类型

|--> bdrv_co_do_preadv：其中io_limits_enabled决定是否限速

|--> bdrv_aligned_preadv

|--> drv->bdrv_co_readv，因为第一层设备类型为file/qcow2，决定了第二层类型为file，其注册函数为raw_aio_readv函数

|--> raw_aio_readv（block/raw-posix.c）

|--> raw_aio_submit

|--> paio_submit，后续流程就为qemu实现的设备的读写

假设磁盘文件是block/raw，则注册为raw_co_readv函数

> raw_co_readv（block/raw.c）

|--> bdrv_co_readv（block.c）

|--> bdrv_co_do_readv：传入的第一个参数为bs->file，下面的drv=bs->file->drv，注册了最后的读函数进入第二层设备类型

|--> bdrv_co_do_preadv：其中io_limits_enabled决定是否限速

|--> bdrv_aligned_preadv

|--> drv->bdrv_co_readv，因为第一层设备类型为block/raw，决定了第二层类型为host_device，其注册函数为raw_aio_readv函数

|--> raw_aio_readv（block/raw-posix.c）

|--> raw_aio_submit

|--> paio_submit，后续流程就为qemu实现的设备的读写

当数据读完成后，会执行定义好的回调函数mirror_read_complete

> mirror_read_complete（block/mirror.c）

|--> bdrv_aio_writev：异步从源端磁盘中读数据

|--> bdrv_aio_writev

|--> bdrv_co_aio_rw_vector：启动一个协程，执行函数为bdrv_co_do_rw

?--> bdrv_co_do_rw：此处处理写

|--> bdrv_co_do_writev

|--> ... ... 后续流程大体同读，不再赘述

至此，drive-mirror源端的流程就分析到这里，还有些细节上的东西并没有提及，有兴趣的可以自己看看。

迁移目的端：

启动nbd server，然后将需要创建driver-mirror的disk导出（虚拟机有几块disk，就需要导出几次）。

未完 -- 待续。

阅读(5541) | 评论(0) | 转发(0) |

上一篇：qemu live migration 流程(1) -- 命令简介

下一篇：qemu live migration 流程(3) -- 内存迁移

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6