Xorg的一些问题和随想-ckelsel-ChinaUnix博客

主要描述了一下xorg的一些令我比较头痛的问题和一些感想。

1:单进程的设计
类似于以前的游戏，就是一个大循环while(1)
然后再进行处理。这里面每个操作都不能阻塞否则就会导致xorg挂起没有反应。
缺陷主要表现在,每个模块都必须是完全可靠的，所有的驱动，从kernel到上层输入输出,否则xorg整体就挂掉了
a)input处理
这里的问题从下往上来看，最下面是kernel的driver，也就是ldd，并不是每个人都能写好ldd，很多ldd写的有问题。
简单的例子，就是evdev的driver处理不符合规范，会导致上面的xserver无法处理，sigio处理不好就导致xorg进入无限循环
还有就是xserver自己的处理都是靠sigio来实现的，当底下设备比如鼠标有数据可以读的时候就会发sigio上来中断xserver
xserver是在信号处理程序里面来做所有的input操作的，也就是说实际上xserver的input的驱动都是在信号处理程序里面，
但是很多人不熟悉信号处理里面是有很多事情不能做的，内存管理等等，abort消息就会到来，xserver挂掉了。
也就是说从kernel里面到xserver里面任何一个地方都不能出问题，但是实际上，有些驱动有问题，可能在任何模块，比如dma模块，
出了问题之后上面的总线就会出问题，然后usb设备驱动就不正常，鼠标键盘，touchpad，touchscreen就出问题，xorg 挂起。
还有就是kernel的驱动开发不符合规范，比如Synaptics的驱动，有些做bsp的人员对上面的xserver并不太了解，做驱动的时候有些
想当然的按照低端的嵌入式来做的，自己定一套规范，这样上面是无法使用的。

b)graphic驱动。
凡是和硬件相关的都不太好处理，因为底下的驱动有问题的话，上面是很难发现错误的，比如一个ioctl就block到内核里面了，
简单的比如硬件解码或者一个hardware的blend，就导致硬件挂起。屏幕蓝屏或者屏幕不刷新了。我们没有办法可以交互。
还有就是有些设备并没有串口或者网络可以调试，嵌入式的驱动都是要自己写的了。不像pc这么成熟。

c)很老的设计
目前还有很多十几年前的代码，简单点说比如freetype相关的东西也都是7年前的了，现在没有人用，也没有人删除。

问题列表
1：为什么xorg不使用多线程来处理。
多线程的程序调试太麻烦了，而且目前的input框架，是靠sigio来驱动的，信号驱动的时候，就驱动来说，比如xf86-input-synaptics,里面绝大多数的代码
都是在信号处理程序里面执行的，所以请尽快处理，请不要分配内存，请不要block，请尽快返回。这样来说驱动是不能做的很复杂的。
2:为什么input不能单独拿出一个进程来处理
个人觉得input部分是可以拿出来作为一个进程来处理的。input部分是一个相对独立的系统，和其他部分的关联很小，目前看唯一关联的就是grab，
因为从xserver的设计来说grab的时候是和window关联的，但是window这个设计整个就不是现代化的。设备的grab感觉需要重新设计一下，目前grab比较乱。但是
input自己的处理是相对独立的，还有就是input的设计是一个全局的变量，xorg会要求必须有一个键盘一个鼠标处理的逻辑这个就是所谓的VCP/VCK
这个东西想抠出来比较麻烦。无处不在的使用这个全局变量input.info.xx
还有就是热插拔的处理，这个子模块也是使用全局变量来处理的，如果单独拿出来的话，input daemon里面要做处理，xserver里面也要做处理。
如果grab能够处理好的话，input daemon还是能够复用很多xserver的代码的。在input daemon和xserver之间可以使用一个虚拟的驱动，
比如vinput.so，编写的框架继承现有的input框架，然后从socket来获取input daemon的事件。这样需要新的x协议XinputDaeon event.使用evdev不太好。

3:Output部分是否可以单独拿出一个进程来处理。
这个有点麻烦，因为所有的drawable的申请可能还是需要在xserver里面处理的，因为兼容性的需要，为什么要兼容xserver，因为目前应用软件，
很多应用软件想要移植到别的图形系统工作量太大了，而且时间太长，简单点，比如说firefox如果想要移植到minigui并不太容易，首先想要看懂gecko的代码就不是
一件容易的事情。为什么不用gtk-directfb,同理，还是应用软件的问题，必须能够做到应用软件拿来就可以用，或者做简单的debug就可以使用。thunderbird要移植也
很不容易，我以前也不用thunderbird，但是后来有人发邮件总是说，请看红色的部分，但是sylpheed等等软件无法回复html邮件，
简单的要想composite html，目前没有gecko之外的选择，浏览器还可以选用webkit，但是webkit的gtk后端并不太稳定，简单的浏览国内的一些网站
就可以发现，好些网站都无法正常浏览，要么直接显示html代码，要么就是崩溃退出，而同样的页面用firefox或者gecko的其他浏览器就能够显示，
一句话，webkit的容错性不行，导致稳定性不行，而gecko太慢。

话说回来，如果output是一个单独的进程的问题，首先就是线路流程太长，以一个简单的调用来说，上层想用gtk来显示一张图片，这个过程我们看看
首先gdk模块把文件装载到内存，这个是从硬盘读取到应用程序的进程空间，在该应用程序的内存里面，然后显示的时候gtk会调用函数把这个图片
显示到图形系统上面，到xlib这一层的函数的时候一般都是调用xputimage，或者变种，比如Xshmputimage，Xvputimage，XvShmPutimage，类似
这样的函数。这样的函数的处理流程如下，xlib会把这个图片通过socket发送到xserver这边，如果是shm的则不用，但是普通情况下
都是走socket，本地的socket或者是tcp的远程socket。xlib把这个图片发送到xserver端的时候，xserver端再显示出去，如果没有硬件加速，就是直接搬运到framebuffer了
如果有硬件加速，就是要先搬到显存，然后再走驱动的加速显示出去。因为Putimage的时候是需要进行一些运算的，比如image可能是有背景的，或者说是有alpha值的
如果不是over操作的话，就需要计算了，这个时候最好是有gpu的加速，不然cpu是很慢的，所以说output如果作为一个单独的daemon来跑的话，
这样在xserver和output daemon之前是有很大量的数据操作的，那么说可以直接在xserver里面把请求转到output daemon，所有的drawble的分配
都在output daemon里面来做，这个也没错，但是xserver里面还要处理事件的，比如要计算鼠标到了哪个window之上，这个需要和output daemon通信。
实际上通信会非常多，当然不知道这里是否可以更好的协调这些之前的关系，就是xapp，xserver，outputdaemon。inputdaemon

4:xserver加速框架的问题
Xaa是老的加速框架，现在已经基本不用了，
KAA是kdrive的加速框架，kdrive之前本来是一个试验性的xserver也就是说是xserver的一种，xserver有多种，xorg，kdrive,xdmx,等等
EXA是xorg的KAA类比实现，

这些加速框都是分两边的，一个是xserver这边的框架实现(xorg/hw/xfree86/exa xorg/exa，一个是驱动这边的回调函数的实现(xf86-video-intel)。
至于xvideo或者xvmc等等，也一般就直接实现在这个graphic 驱动里面了，这个是2d的
上面说的都是2d的加速
xaa,kaa,exa都是2d的加速，包含一些最基本的加速，比如填充，填充又分多种了，但是就算是现代的gpu也不完全支持这些图形操作,还有就是
对不同的操作模式gpu的速度也有很大差别。比如composite操作，比如copy的操作。
对于每种操作，源和目的的格式可能不一样，比如RGB565,RGB888,这样也是xserver能支持各种不同pict的原因。
还有就是mask的处理。关于pixel的mask，这个目前看好像opengl里面没有对应的实现。只能mask掉某个通道，但是不能mask掉特定的某几个bit。
还有就是另外的一种opengl的mask，mask平面，和目前kaa加速机制上用不上，xserver最早的设计，图形操作是什么都做，但是gpu并不是什么运算
都能支持，简单点说gpu的特长是blend。像素运算。就目前的图形系统来说，虽然3d出来已经很多年，但是目前的图形系统实际上还是一个2D的系统
Xserver本身只设计成处理pixel的，像素操作的，比如简单的，不能处理矢量数据，没有任何浮点支持。image也都是像素的，虽然xvimage是可以缩放和旋转的，
但是这个本质上还是像素的处理。cairo是矢量的，cairo和xserver没有太直接的关系，cairo可以创建xlib的后端，surface创建xlibsurface就可以画到xwindow里面
了。但是也只是以xserver作为输出，现在字体基本上输出都是矢量的了，但是xserver是不支持矢量的，glyph的渲染目前有接口，但是实际上都没有加速的实现，
大家越来越倾向于所有的事情都在客户端做，比如图形渲染，效果直接在应用程序里面做好，xserver这边只管输出，或者只管clip。这样xserver的框架也就简单了。
还有自己的渲染，也都移动到客户端来实现了。目前基本都使用的是freetype，字体图形是在客户端这边生成完之后，到xserver那边显示的,但是这样也害死和有问题
就是cache的问题，如果所有的事情都在xserver这边做，xserver可以cache所有的客户端需求的字体，如果都在客户端做，每个客户端都需要cache自己的字体，而如果
这个程序是使用opengl的texture来渲染的，就会占用很多texuture，显存很快就不够用了。显存和内存之间倒腾数据是很废时间的。libxft也是在客户端生成字体，然后xserver
端显示的。

为什么我们不把所有的东西都用3D来做呢？或者说xgl，xegl为什么失败了。
这个之前也说过了，xegl失败应该说是一个必然，就不再说了，xegl是否适合于嵌入式，就像gallium3d一样，从嵌入式，然后再porting到desktop。
实际上我们一直有一个问题是回避不了的，就是2d和3D共存的问题，因为本质上我们的图形系统是一个2d的系统。但是我们又要支持3D.比如iphone也要支持游戏的。
如果人人都想直接输出到屏幕又不管别人，那样会是什么样子，屏幕就乱掉了，并且狂闪，每个人都在往同一个区域画自己的东西。 X on EGL.
实际上，所有的2d应用，都在一个3D应用里面，也就是说，只有3d的应用，所有的普通的xlib的应用，都发请求到xserver，而xserver自己是一个简单的EGl应用，
负责在3D的context里面来处理这些2D的绘图请求，关于clip，还是要靠glx。EGl库里面需要告诉opengl clip掉哪些区域，可惜的是，大家说，我们可以开放EGl的代码
但是opengl这部分不行，那还不如什么都他们实现。

为什么不能在gtk里面直接使用opengl来渲染，或者说使用opengl来加速gtk等等，
这个当然是可以的，只是大家讨论的结果是，opengl并不适合做gtk里面的各种加速的操作，opengl比较适合做3D？反正是后来没做。
字体渲染是很慢的，而且内存管理上问题很多。点阵字体基本只用户屏幕显示了，打印上还是矢量字体，而且目前基本都是freetype做的。

为什么我们不能做一个3D的widget？
目前是有的，就是clutter了，但是没法把所有的应用软件都porting到clutter上面。目前绝大多数的应用，可以说99.99999%都是其他的widget，
比如gtk,qt,wxwidget等等，要把这些都加速，还是只能在xserver里面做。我们应该是无法在xlib里面做的。xlib是在应用程序的空间，可以发请求到xserver

现在越来越多的程序依赖cairo了，任何能看到的高品质的输出现在基本上都依赖cairo了，但是cairo目前用的最多的还是xlib的surface，使用exa加速
如果没有exa的驱动，就加速不了，嵌入式上面要自己做还是很麻烦的事情。如果能够加速的操作太少，这些判断能否加速的操作所耗费的"时间比"就会上升，
这样会比不加速还慢。

使用opengl来直接做加速的各种显示很多。
1:首先一条就是texture大小的显示，我们使用render to texture的时候，texture不能太小，
比如firefox打开一个页面，里面有很多图片，这很常见，我们假定每个图片大小500kb，不算大，但是jpeg的放到内存里面之后可能会有10M大小，
当然图片可能更大，还有就是比如，我们使用20张图片，就是200M显存，这样嵌入式上面根本就是用不了了，就算pc，最近的pc有200M的也还不算
是太老的显卡。我们首先要把20张图片放到显存里面，还有就是这个surface也是要在texture上面的，也就是说我们把这20张图片渲染到一个texture上面去
因为我们要滚动啊，整个window或者说drawable或者pixmap都是在显存里面的，我们的显存根本放不下，嵌入式的显存32M差不多很大了。就涉及到texture拆分的
问题，这样复杂度就上来了。
2:context的限制，嵌入式能够支持的context太少，可能3个左右，或者更少，有些可以支持7到8个，不知道iphone是不是就是因为context太少才不支持多任务
实际上来说iphone的系统本来是多任务的，但是UI的application就不行了。当前只能跑一个，而且iphone的游戏都是全屏的，EGL on FB就是这样了。
不能创建window，只能是全屏的window，如果是EGL on X就可以是小的window了，clutter就有eglx的后端。而我们讨论的X ON EGL，是X ON EGL FB
而不是X on EGL on X
EGL是对上的一个接口，下面是有一个native的输出系统的，可以是framebuffer，这个是最基本的，一般提供的都是egl on framebuffer的。
下面也可以是xserver，也就是opengl render到x的一个window里面去。
context支持的越多，显存占用也越多，context切换也更慢。context越少，xegl的需求就越强烈。因为我们要用有限的context加速到所有的应用。
只有在xserver端使用一个context来加速众多xclient的应用了，所有的绘图请求发送到xserver这边，而xserver是一个3D的应用程序，就可以使用opengl的函数来加速
这些操作了。

所以如果在嵌入式上面，大多数应用使用gtk，而gtk下面现在是cairo，gtk的engine现在也换成了cairo，如果使用cairo-xlib,没有加速，慢，假矢量实现更慢
如果使用cairo-vg，因为每个用用至少要占用一个context，context又不够了，我们至少要跑个7,8个程序吧。cairo-gl，是依赖glx的，一般嵌入式无法使用opengl，
所以这个没法使用,cairo-glitz, glitz已经随着xgl死掉而死掉了。计算没有死掉，glitz也同样，context会不够用。目前使用cairo-glitz的也很少，cairo-gl的基本没有。
基本都是cairo-xlib,底下使用exa加速的，而没有exa，这些都白说。

glitz类比pixman，就是pixman的opengl实现，xorg把pixel的操作慢慢都拿到pixman里面做，所以xorg现在离不开pixman了，所以之前xgl也需要一个gtliz，
也就是pixman的替代品。

plugin framework.目前的插件实现基本都是so的形式，但是so形式的插件有一个重大缺陷就是，任何一个不好的so就会导致整个framework挂掉。
还有就是线程的支持，不同的so可能有些做了线程安全的处理，而有些没有，还有就是so出问题难于调试。用so的好处是，一个进程空间，资源共享容易，
通信容易，效率更高，window管理更为方便，不过是子窗口和父窗口的问题，layout也容易管理。还有一点就是xevent的处理很容易，因为就是一个本地应用。
但是如果做成多进程的插件，用一个单独的进程来画另外一个程序的window，这样实现是比较困难的，首先就是window mapping的问题,还有就是输入事件的获取
还有就是当主进程窗口被覆盖和最小化处理等等，总之交互的处理很不方便。说这个主要是flash.

flash真的这么烂吗？是的，flash问题很多。
1:cpu占用高，以adobe的arm的flash10实现来说，cpu占用很高，而国内的网站，比如sina，sohu等等，flash广告极多，多这还不要紧，多开几个tab页的时候
浏览器就反应不过来了。只靠cpu指令的优化性能提高有限,
2:国际化支持差，字体显示技术不行。
3:crashy,这个问题在pc上也很常见，经常导致浏览器挂起，(遇到的少的朋友是很少从开发者的角度去看这个问题)
4:内存占用高。
5: clip反应慢，残留。
还有其他一些问题。

x on egl fb的限制，最基本的显示还是opengl自己的限制。opengl并不是万能的，3D是他的强项，但是2D处理上面尤其是目前的2D设计
比如目前的2D的api，也就是上层Xlib提供的2D的API，并不是opengl能够完全做的了的。那么shader？但是shader做逻辑处理好像也不行。
还有就是扩展性的问题，x on egl只适合小系统，而框架并不适合xserver原始的设计，扩展性， flexible,比如opengl的实现，管理一个显卡，
一个输出设备，显存管理也依赖opengl，opengl的压力会很大。而且有些东西是实现不了的，比如多屏支持，多头支持，分布式渲染的支持，
分布式opengl的支持，就不行了。还有就是分辨率调整，外置接头的输出(HDMI等等),一句话，opengl如果做最底层的话带来了众多限制，
但是对于大多数人来说，也就是本机可以使用，所以x on egl fb可能还是有用的。

还有就是我们的显卡其实不够强大到所有的操作都交给它实现，偶尔我们运行一下3D游戏，这个显卡还够用，但是大量的GUI都靠它的时候，它就不行了。
xgl当时不行还有一个原因就是，很多人的显卡都是intel的集成的显卡，但是intel的opengl性能就是垃圾, intel显卡的出货量占到30%左右
虽然我们平常说的都是nvidia和ati/amd但是intel在显卡这里还是有很大份额的，以前好像一直是最大来。

显示的计算最早是在内存里面，现在也还是需要在内存里面，因为显存始终是比内存小很多，现在内存可以4G了，但是显存也就500M上下

内存是线性的，pixman可以很容易的计算，但是没有加速，opengl里面的显存我们是无法直接用cpu计算的，gpu不支持的计算我们就需要使用
cpu来计算，cpu是万能的，虽然很慢，耗电量很大，我们就要使用texture到显存了，这样性能影响很大，因为要flush整个pipeline。然后才读出来。
算完之后，在将来的某个时候他还要再回到显存里面去。执行gpu所支持的运算。内存可以扩展到无限大，但是显存就不行。我们需要不断的在显存和内存之间传递
数据。500M的显存并不那么大。那么说为什么不使用集成显卡，又回来了，intel的显卡性能差一个主要原因就是集成显卡，使用用内存做显存
因为内存带宽是一定的，我们平时访问数据也要使用内存带宽，显卡使用显存也要使用内存带宽，只能有一个人用，需要等待。而且还有就是集成显卡
内存也不是动态增长的，也就是说在bios里面就划定了某块区域是显卡使用的，系统启动之后看不到这个内存了。什么时候能够显卡cpu共用内存
而且带宽足够大，不用反复搬运，性能就会好很多了。

framebuffer抽象出一个线性的区域来说，对于计算会好很多。但是目前opengl这个东西分配来的内存是按照opengl开发者的策略从显存中挖了一块显存出来
我们是无法计算其地址的，也就是说我们实际上无法使用exa和fb的计算机制，kaa，exa的显存管理模型就是利用offscreen来加速的，
系统中的某块地址是online screen,某块地址是offscreen，使用offscreen的地址画这个东西，当然这里所说的onlinescreen和offscreen都是显存里面，
计算都是在offscreen里面算好的，然后显示到onlinescreen的。如果资料在内存，也就是我们说的主存，那么就需要先搬运到offscreen去计算。
当offscreen显存不够的时候就踢出一部分到内存里面去。

但是opengl是不进行这个管理的，只有用户知道这个东西什么时候改，比如创建texture失败的时候就知道该置换一部分显存出来了，但是显存总是太小，
我们总是在倒腾数据。

clutter是会自己拆分texture的。

egl on nvidia还是别指望了，pc上面肯定没戏。没人用。驱动这个东西如果没有项目驱动，光靠开源的热情是没用的，商家看到的是钱，如果
项目不能带来利益（包括声望）的话，是没动力的，还有很重要一点就是，专利保护越来越厉害，能不开源的东西最好不要开源，否则被别人专利打击
了就不好了。这也是为什么egl可以比较容易沟通，但是opengl就不行。drm可以公开，但是opengl还是不行。

硬件的限制太多，而cpu+主存+swap基本能力上说是无限的。
比如简单的硬件缩放，有些2D芯片只能缩放多少倍，有些是无级缩放，但是性能不行,cpu最通用，逻辑限制也最少，当然如果不考虑加速等等的话。

关于openvg。
openvg是比较接近2D的要求的，所以为什么不用EGL+openvg?
again，还是一样的限制，openvg的接口比opengles的接口要简单一些，
关于openvg的实现，有一些厂家是用opengles1.1来实现的，也就是说用固定流水线的opengl来实现的openvg。
也就是说使用的是3D的芯片，而3D的嵌入式芯片性能本来就很弱。

有些厂家的openvg的实现是单独的2D芯片，比如arm公司自己出的mali gpu,但是这样还是有一个问题就是
我们这里有了多个存储部件了，
1:openvg,2D的显存(hardware的2D芯片，不是3D芯片gles实现的openvg)
2:opengles 3D的显存
3:内存，也就是我们的主存了
4:硬盘(swap)
5:online ,offscreen部分的处理。

我们需要在上述几个部分反复的倒腾数据，芯片越多越复杂。

如果是openvg用opengles来实现的。
1:3D显存,我们走EGL的api可以在opengvg和opengles之间倒腾数据，希望它不会太慢
2:内存
3:硬盘(swap)
4:online,offscreen逻辑的处理。

嵌入式上面要极力避免使用swap，在pc上面硬盘虽然慢，但是硬盘的速度也还是有600M/S左右，
但是在嵌入式呢？如果是flash，很慢，如果是sd卡，更慢，如果是usb disk，看接口了，也不太快。
你很快就会发现，kswapd 的cpu跑到100%了，还有就是你的swap设备很快就坏掉了。

xserver的grab机制。
也有一些问题，就是有时候grab会造成屏幕锁住，比如鼠标可以移动，但是点击不了了。xserver的window管理都是靠window manager来实现的，
所以在输入password的时候可能会弹出其他的对话框,密码就会被别人看到了。

xserver的事件监听机制，某些快捷键被别人grab走了之后就无法监听到。
所以最好xserver还是input分开。

kms
之前的文章说过了，图形最好是在开机的时候就初始化好，这样xorg启动的时候不用再初始化一次。屏幕就不会闪了。
还有就是，屏幕相关的设置都拿到kernel里面去，这样xorg就不再需要root权限了，而xorg这个大家伙目前是需要root用户的。
xorg的目前是作为一个简单的应用程序来运行，或者是一个简单的opengl的应用程序。反正xorg里面的东西要尽量简单，
目前这些所有的重要的功能都在xorg里面实现，导致他太重要，一点错误也不能出，其中某一个功能出了问题都是致命性的，要么是crash，要么是hang。
一旦hang住，我们就没法交互了。网络？但是有些设备上面没有网络，或者网络很不稳定，比如3G，wifi也有时候不太稳定，usb dongle，驱动稳定性更差
Xorg目前引入了太多linux专有的东西，当然linux用的人多，开发的人也多，但是xorg这个大家伙，要删除几十年前的代码并不是一件容易的事情，而且
老的设计现在处处都制纣，想拿掉不容易，想加也不容易，加的话，各个模块都要加，否则一个单独的功能，比如单独的xorg的patch如果导致别的模块无法使用的话
是不会被接受的。比如hal，比如kms，比如udev，

纯软件的限制最少，所有的东西都在内存里面的计算模型最方便。cpu的计算最通用。
但是我们要的就是加速。

egl+opengl虽然opengl是最通用的加速方式，但是驱动和芯片开发商一般都要考虑directx的实现，虽然他们实现opengl的时候尽量少的和window sys相关。
但是想让他们开发egl+opengl就难了。一来用的人少。二来不能给厂商带来利益，这样开源的人开发的少，商业的开发的也少，开源社区想给nvidia这样的社区施加
压力是基本不可能的。他们只会按部就班的走，就像开源社区的人喜欢开发自己喜欢的东西，而不是大家所需要的东西一样。

没有商业公司的需求和支持，linux也无法走到今天。

开源的dri的框架为什么难于被支持，还是老话，越专有，越不容易被打击，反汇编有罪。而且工作量极大，特别是硬件相关的，而且是寄存器太多的
情况下。另外就是dri并不比私有的框架优秀多少，除非这个框架特别优秀。

Xorg现在是尾大不掉，linux应用也是，离不开这些widget，但是widget从最早的设计就严重一来window系统。
必须考虑fallback的情况。显卡不支持的东西太多了。看opengl像无所不能似的，实际上图形学比这个要广泛的多了。

Xorg是纯2D的像素处理的设计。

字体处理是图形系统很重要一块，性能也是，性能主要就是各种图形运算了，数据传输等等。
还有很重要一点就是交互了，GUI就是为交互而设计的，输出系统只是其中一部分，输入系统也是很重要一部分。
虽然这么多年过去，最重要的输入设备还是mouse, keyboard,touchpad,touchscreen,画板等等，但是比如多点触摸，鼠标手势,重力感应，图像识别(指纹等等）gps,camera等等，
慢慢也都进入寻常家庭了。

国际化，现在没有一个数字消费产品不支持国际化吧，这个包括字体显示(render,raster)，排版(layout)，缩放(scale),还有就是输入法了
笔画输入，手写输入，键盘基本输入，

dri还是非dri。
dri的性能会好，非dri的管理性更好，如果大家都是offscreen render的话，只需要一个display manager就行了。

为什么clutter不支持offscreen的stage。要显示出来还是要读出来，如果是render to texture,还是需要把这个texture搬运到屏幕上面。
需要一次额外的搬运，如果是dri，opengl知道自己什么时候该刷新屏幕，什么时候pipeline完毕了。直接blend到framebuffer上面。

我们只有一个framebuffer，所以才需要有人来管理这个事情，如果只有一个人往这里写，自然就没有问题了。其他的人都render to texture,或者render to pixmap
但是这样我们的理论还是2D的设计，最后blend到2D的framebuffer上面去。当然我们的硬件的确就是一块2D的屏幕。

关于硬件解码。

从硬盘上的文件，读取到内存里面，这个时候我们传递给硬件解码器，硬件解码器解码出来是frame，简单理解就是一个图片吧，这个图片我们直接在显存里面。
然后从显存搬运到framebuffer去，这样的搬运是比较少的。

另外一种，
从硬盘上的文件，读取到内存，写入到硬件解码器，解码到特定的存储空间，然后从特定的存储空间取出这个frame，到了内存，也就是解码完之后的frame，现在在内存里面
然后如果没有xv，我们就创建一个ximage，然后走socket，xputimage，传递到xserver的空间（还是在内存，不过在xserver的进程空间),然后xserver把这个搬运到offscreen的显存
然后从这里搬运到onlinescreen，

如果有xv，我们就创建一个xvimage，然后走socket，传递xserver的空间（还是在内存，不过在xserver的进程空间),然后xserver把这个搬运到offscreen的显存,然后走硬件加速
blend到onlinescreen的特定区域，blend的过程中可以缩放，可以旋转等等。

当然也可以支持shm。image的传输可以省掉，但是数据搬运还是存在。

所以最好硬件解码器解码完毕之后是在显存里面的。不用搬回到内存，然后再回到显存。当然解码器解码到显存，这块显存是预留的，需要使用专门的接口来获取这个地址，
显卡也能够通过这个地址来搬运到屏幕上面。

但是一般的arm+dsp的就不行了，dsp解码完之后都是片上内存，还要读出来。

mplayer还可以走opengl的输出，使用opengl的输出，可以使用gpu做缩放和filter，和其他的变换。1080p每一帧
1920×1080x16/8=3.955078125M(yuv422格式),还有就是解码前，解码后的数据都在显存里面的。
还有就是opengl不支持yuv，需要从yuv转成rgb才能够显示，还需要1920×1080x24/8=5.9326171875M(rgb888),如果有alpha就是32

在嵌入式的显卡里面pixel shader(fragment shader)现在好像只有一个?不确定，没有拿到什么数据，一般都只说支持opengles2.0。
而且性能不怎么样。所以做这个yuv转换性能可能也不太好，没专门测试过。
context太少，xv需要占用一个context来做shader。

Xorg的设计已经很老了，从各个方面来说。

暂时只想到这些，以后慢慢补充。

阅读(3281) | 评论(0) | 转发(0) |

上一篇：android studio 更改SDK路径

下一篇：android studio 编译 OSChina客户端

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6