在新Linux内核中体验GPU虚拟化-lyan-ChinaUnix博客

认真的柯南

首页　| 　博文目录　| 　关于我

lyan

博客访问： 248802
博文数量： 33
博客积分： 0
博客等级：民兵
技术积分： 480
用户组：普通用户
注册时间： 2019-01-22 08:36

个人简介

专注虚拟化性能优化，硬件显卡网卡虚拟加速，面向容器的轻量虚拟化开发永远的Linux Geeker！

文章分类

全部博文（33）

架构相关（1）
操作哦系统（0）
虚拟化工具（1）
大数据（1）
Linux Kerne（1）
容器化（1）
杂七杂八（0）
DPDK（1）
微虚机（5）
Debian（3）
SUSE（2）
GPU虚拟化（6）
QEMU（10）
ACPI（1）
未分配的博文（0）

推荐博文

相关博文

在新Linux内核中体验GPU虚拟化

分类：虚拟化

2019-01-22 10:33:33

从内核4.10，支持 virtual gpu 的代码开始汇入主线程。这部分代码主要由两部分组成：

首先， mediated 设备框架（mdev），基本上，这部分代码使得内核驱动开始用vfio框架跟接口来支持虚拟pci设备。nvidia 以及intel都采用了这种所谓的mdev机制，将宿主机中的物理GPU分割成多个虚拟设备，以便供多个虚拟机同时使用。

第二个， intel 的i915驱动也是采用了mdev初始化支持，当然仍然有很多工作需要去做，例如不能直接登录虚拟机的显示画面，所以必须通过客户机中安装x11vnc或者类似的vnc工具，也有一些稳定性的问题需要解决。

如果你还是想尝尝鲜的话，下面是详细的步骤，当然不要在生产环境中测试，也做做好系统崩溃的准备， :-)

宿主机：生成虚拟设备

确保你的系统内核要大于4.10，如何是intel的集成显卡的话，确定要至少是broadwell或者更新。在内核配置文件中打开vfio跟mdev（所有的CONFIG_VFIO_*选项），如果是intel设备，再打开 CONFIG_DRM_I915_GVT 和 CONFIG_DRM_I915_GVT_KVMGT 。如果你想加入一些测试功能的话，也可以打开CONFIG_SAMPLE_VFIO_MDEV_MTTY，生成一些mtty的测试驱动。

启动新编译的内核，加载所有的模块：vfio-pci,vfio-mdev, 可选的mtty。当然你也不能忘了i915以及kvmgt，不过他们可能已经在启动过程中默认加载了。

进入目录 /sys/class/mdev_bus directory

kraxel@broadwell ~# cd /sys/class/mdev_bus
kraxel@broadwell .../class/mdev_bus# ls -l
total 0
lrwxrwxrwx. 1 root root 0 17. Jan 10:51 0000:00:02.0 -> ../../devices/pci0000:00/0000:00:02.0
lrwxrwxrwx. 1 root root 0 17. Jan 11:57 mtty -> ../../devices/virtual/mtty/mtty

你会看到每一个被mdev支持的驱动都在那有一个目录。下一步进入 $device/mdev_supported_types，检查以下你可以生成什么样的虚拟GPU设备

kraxel@broadwell .../class/mdev_bus# cd 0000:00:02.0/mdev_supported_types
kraxel@broadwell .../0000:00:02.0/mdev_supported_types# ls -l
total 0
drwxr-xr-x. 3 root root 0 17. Jan 11:59 i915-GVTg_V4_1
drwxr-xr-x. 3 root root 0 17. Jan 11:57 i915-GVTg_V4_2
drwxr-xr-x. 3 root root 0 17. Jan 11:59 i915-GVTg_V4_4

你可以发现，intel可以支持三种不同的设备类型，三种设备有不同的显存大小，以及可以被生成的数量。让我们继续看一下description 和 available_instance

kraxel@broadwell .../0000:00:02.0/mdev_supported_types# cd i915-GVTg_V4_2
kraxel@broadwell .../mdev_supported_types/i915-GVTg_V4_2# cat description 
low_gm_size: 64MB
high_gm_size: 192MB
fence: 4
kraxel@broadwell .../mdev_supported_types/i915-GVTg_V4_2# cat available_instance 
2

现在你可以通过在“write”文件中写入UUID来生成相应的虚拟设备：

kraxel@broadwell .../mdev_supported_types/i915-GVTg_V4_2# uuid=$(uuidgen)
kraxel@broadwell .../mdev_supported_types/i915-GVTg_V4_2# echo $uuid
f321853c-c584-4a6b-b99a-3eee22a3919c
kraxel@broadwell .../mdev_supported_types/i915-GVTg_V4_2# sudo sh -c "echo $uuid > create"

新生成的vgpu设备将会在宿主机GPU下作为一个子目录出现：

kraxel@broadwell .../mdev_supported_types/i915-GVTg_V4_2# cd ../../$uuid
kraxel@broadwell .../0000:00:02.0/f321853c-c584-4a6b-b99a-3eee22a3919c# ls -l
total 0
lrwxrwxrwx. 1 root root    0 17. Jan 12:31 driver -> ../../../../bus/mdev/drivers/vfio_mdev
lrwxrwxrwx. 1 root root    0 17. Jan 12:35 iommu_group -> ../../../../kernel/iommu_groups/10
lrwxrwxrwx. 1 root root    0 17. Jan 12:35 mdev_type -> ../mdev_supported_types/i915-GVTg_V4_2
drwxr-xr-x. 2 root root    0 17. Jan 12:35 power
--w-------. 1 root root 4096 17. Jan 12:35 remove
lrwxrwxrwx. 1 root root    0 17. Jan 12:31 subsystem -> ../../../../bus/mdev
-rw-r--r--. 1 root root 4096 17. Jan 12:35 uevent

你可以看到设备被放置在IOMMU的第10组，我们会在下面使用这个值。

宿主机：设置虚拟机

最终我们希望虚拟机设置就像添加一个libvirt xml 文件那样简单。因为mdev设备并没有一个PCI 地址，因此我们不能简单的透传，我们需要一个sysfs设备路径来传递给QEMU， libvirt现在还不支持这个功能，所以这一步稍微有些复杂，我们需要在libvirt里做一些手动设置。

首先，我们必须确定QEMU 具有权限访问 “/dev”。默认情况下libvirt通过用户控制组限定了这个访问，我们需要关闭它。到文件“/etc/libvirt/qemu.conf”里，屏蔽掉“cgroup_controllers”那一栏就好，还有记得删掉“devices”。完成后记得重启libvirtd

其次，我们也要允许QEMU可以访问IOMMU group10. 可通过下面的命令实现：

kraxel@broadwell ~# chmod 666 /dev/vfio/10

第三：更新libvirt xml文件：


  [ ... ]
  1048576
  
    
  
  [ ... ]

我们可以使用一个比较特殊的namespace来传递额外的命令行，毕竟libvirt还不支持传递 sysfs路径（当前libvirt已经可以了）。同时我们也必须显式的锁主客户机内存

虚拟机内部设置

最好在添加vgpu之间先准备一个可以运行的虚拟机。添加一个串口，这样我们也可以在图形界面坏掉的时候仍然可以跟虚机通讯。将i915加入blacklist，至少在你知道你的设置可以工作后再手动加载它。同时启动进入runlevel3 文本界面而不是通常的runlevel5 图形界面，然后手动启动xorg服务器

intel推荐客户机需要使用4.8以后的内核，同时确保xorg server 使用 modesetting驱动，我的基于intel驱动的测试并没有成功。配置文件如下：

root@guest ~# cat /etc/X11/xorg.conf.d/intel.conf 
Section "Device"
        Identifier  "Card0"
#       Driver      "intel"
        Driver      "modesetting"
        BusID       "PCI:0:5:0"
EndSection

然后使用x11vnc，xterm，以及mwm来启动xorg server，脚本如下：

#!/bin/sh
# debug
echo "# $0: DISPLAY=$DISPLAY"
# start server
if test "$DISPLAY" != ":4"; then
        echo "# $0: starting Xorg server"
        exec startx $0 -- /usr/bin/Xorg :4
        exit 1
fi
echo "# $0: starting session"
# configure session
xrdb $HOME/.Xdefaults
# start clients
x11vnc -rfbport 5904 &
xterm &
exec mwm

这个session 使用了 4号显示，所以你可以在宿主机里用以下命令访问：

kraxel@broadwell ~# vncviewer $guest_ip:4

原文

https://www.kraxel.org/blog/2017/01/virtual-gpu-support-landing-upstream/

阅读(5373) | 评论(0) | 转发(0) |

上一篇：QEMU中的新版vga仿真

下一篇：SUSE Labs Con 2018有感

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6