分类: WINDOWS
2010-04-29 16:33:03
一个microsoft的.exe程序的启动过程
最近我正在研究一个microsoft的.exe程序的启动过程,这也是以上所说的关于os如何加载程序的知识,它包括进程创建,主线程 创建,PE文件加载,程序c运行时启动函数以及四种main函数的调用等许多令我不得不静下心来好好思索的东东。从mfc编程角度来说,这些都是不得见的,不过了解这些对程序员编制好的windows程序是有好处的。在平时的学习中中我有很多疑点,到底在桌面双击一个exe程序,os调用的第一个函数是什么?甚至到现在我研究很长时间后,还是得不到令我满意的答案。不过在学习的过程中我还是又说收获的,下面和大家一起分享一下,我也把这段时间所学作一下总结。
要了解一个.exe程序的启动过程就不得不了解一下有关操作系统方面的知识,such as“进程,线程,虚拟内存"的基本的知识。当然这里我就不详细介绍了,有兴趣的同学可以自己去查一查这方面的资料。在未真正开始之前,先统一一下本文出现的一些名词的含义:
App.exe----------假定为应用mfc的AppWizard做出的一个SDI程序,App是它的名字。你可以把它看为一个标准的"hello mfc!"程序。
PE------------不要以为它是“体育课”的缩写呦。它可是微软的标准win32可执行文件.exe和动态链接库.dll的文件格式,它的english name是Portable Executable File Format。
下面可要正式开始了。
一个microsoft的.exe程序的启动方法有很多,这里我们以双击App.exe图标启动为例(其他方法,我想也是一样的)。在补充一下,我所用的os是Windows2000Server,所以这里也主要讨论win2000下的应用程序,要涉及较多关于NT内核,毕竟微软主推win2000/winxp和Unicode么。
一个microsoft的.exe程序的启动过程如下:
(1)当我们双击App.exe图标启动程序时,系统首先做什么呢,让我们先听一听侯捷是如何说的吧“执行起来的App进程其实是shell调用CreateProcess激活的”----"深入浅出MFC second edition" page39载。很多书上都是如是说的,shell又名“命令解释器”,是win32操作系统基于浏览器的一个32位用户接口,它是一个多线程的好例子,屏幕上每一个文件夹浏览窗口都是它的一个线程。它是操作系统引导时加载的系统进程,它具体表现为windows explorer.exe。explorer.exe是所有用户应用程序的创造者。你完全可以将shell看成是所有应用程序进程的父进程,就像桌面(desktop)可看成所有窗口的父窗口一样。(可以用pexplore查看od启动后,进程关系。)shell的用途很多,如启动应用程序,管理文件系统,将应用程序与相应文件相关联等等。我们常见的桌面上的带有小箭头的快捷方式(shortcut)就是一个shell链接,shell负责管理一个叫"名字空间"的类似文件系统似的“超文件系统”,它允许应用程序在任何地方在不知访问对象名字和位置的前提下访问到这个对象,此类对象有:文件,目录,驱动器,打印机以及网络资源。而名字空间就是shell把这些对象有层次组织起来的一个结构。名字空间为用户和应用程序提供了一种可靠和高效的方法来访问和管理对象。好了不论它是什么,凡正它调用了CreateProcess,一切就从这里开始了。
(2)CreateProcess这个函数可作了不少工作。App进程由此诞生。当CreateProcess这个函数被调用,系统就会创建一个“进程内核对象”。进程内核对象可以看作一个操作系统用来管理进程的内核对象,它也是系统用来存放关于进程统计信息的地方(一个小的数据结构),其实它的真正创建者是一个叫NtCreateProcess的windows2000系统服务函数(也叫执行体服务函数),他创建了进程内核对象供用户扩展。进程内核对象的初始使用计数为1。然后系统为该进程创建4GB(=2^32)的虚拟地址空间(所谓虚拟就不是真的创建4GB的物理内存空间,这些空间不是真在物理内存上).用于加载App.exe可执行文件和任何必要的dll文件的数据和代码。
(3)下面概述一下系统的加载器(可称为loader)是如何加载这些东东的。首先了解一下系统为该进程创建4GB的虚拟地址空间是如何分配的,对于win2000/winxp来说,默认情况下每个用户进程可以占有2GB的私有地址空间;操作系统占有剩余的2GB空间。
在32位x86系统上,
从0x00000000到0x7fffffff的空间中存放着 应用程序代码,全局变量,每个线程堆栈,dll代码。
从0x80000000到0xc0000000的空间中存放着 内核和执行体,HAL(硬件抽象层),引导驱动程序。
从0xc0000000到0xc0800000的空间中存放着 进程页表和超空间。
从0xc0800000到0xffffffff的空间中存放着 系统高速缓存,分页缓冲池,非分页缓冲池。
首先,CreateProcess打开应用程序文件(.exe),它先扫描该文件的文件头,该文件头里含有文件能运行在那个环境之下,如果是win32环境,系统就直接加载文件的代码和数据并输入(import)该文件执行所需的dll函数。如果不是win32环境比如时os/2的.exe则先加载相应的环境子系统,再由该环境加载该文件的代码和数据以及该文件执行所需的dll函数。至于系统是如何知道文件的代码和数据以及该文件执行所需的dll函数所在的位置就需要你了解一下PE文件格式了,其实也很简单,PE文件拥有很多sections,数据和代码都放在不同的section里面,文件执行所需的dll也放在单独的section(.idata)里,这里就不详述了。而且在加载过程中涉及到有关虚拟内存,内存映射文件等很多较深的知识,我会在以后的系列文章中详细专题论述的。
(4)进程加载代码和数据完毕后,就开始创建线程来执行进程空间内的代码。进程是静态的,它只是线程的容器。一个进程至少应该有一个线程(main thread),其它线程都是主线程通过调用CreateThread函数创建的。线程也是核心对象,他的实际创建者是一个叫NtCreateThread的windows2000系统服务函数。一个线程其实只是一个线程核心对象和两个堆栈(一个核心堆栈,用于线程运行在核心态;一个用户堆栈,用于线程运行在用户态),线程与进程类似,也拥有线程核心对象计数和线程句柄,这里不详述。线程用于描述进程中的运行路径。每当进程被初始化时,系统就要创建一个主线程。该线程与c/c++运行时库的启动代码一道开始运行,启动代码则调用进入点函数(就是我们的main函数,它也是主线程的进入点函数),并且继续运行直到进入点函数返回并且c/c++运行时库的启动代码调用ExitProcess为止。每个线程都有自己的入口点函数,主线程入口点函数名字必须是main,wmain,WinMain或wWinMain。而其他的线程入口点函数名字可使用任何名字。每个线程函数必须有一个返回值,它将作为线程的退出代码。对于主线程来说,这个返回值将传给c/c++运行时库的启动函数。
(5)c/c++运行时库的启动函数它其实是一个程序的真正调用的第一个函数,它是在程序链接时由链接程序选择相应的启动函数并加到程序的开始处。c/c++运行时库有四个版本的启动函数,他们分别对应不同类型的应用程序。比如,需要ANSI字符和字符串的GUI应用程序的启动函数是WinMainCRTStartup,其对应的进入点函数是WinMain;需要Unicode字符和字符串的GUI应用程序的启动函数是wWinMainCRTStartup,其对应的进入点函数是wWinMain;而需要ANSI字符和字符串的CUI应用程序(如控制台console程序)的应用程序的启动函数是mainCRTStartup,对应的入口点函数为main;需要Unicode字符和字符串的CUI应用程序(如控制台console程序)的应用程序的启动函数为wmainCRTStartup,对应的入口点函数为wmain;c/c++运行时库的启动函数的功能如下:
以wWinMainCRTStartup(大多数运行在windows2000下的应用程序的启动函数都是它)为例。它负责:
*检索指向新进程的完整命令行指针;
*检索指向新进程的环境变量的指针;
*对c/c++运行时的全局变量进行初始化;
*对c运行期的内存单元分配函数(比如malloc,calloc)和其他低层I/O例程使用的内存栈进行初始化。
*为C++的全局和静态类调用构造函数。
当这些初始化工作完成后,该启动函数就调用wWinMain函数进入应用程序的执行。当wWinMain函数执行完毕返回时,wWinMainCRTStartup启动函数就调用c运行期的exit()函数,将返回值(nMainRetVal)传递给它。之后exit()便开始收尾工作:
*调用由_onexit()函数调用和注册的任何函数。
*为C++的全局和静态类调用析构函数;
*调用操作系统的ExitProcess函数,将nMainRetVal传递给它,这使得操作系统能够撤销进程并设置它的exit 代码。
(6)至此启动函数的任务完成,至于中间wWinMain函数的运行过程看看mfc源码即可。不过我还要提一下,wWinMain函数其实只是调用了mfc的AfxWinMain()函数,而一切的真正代码的运行也是从AfxWinMain()开始的。
以上只是粗略将一下一个microsoft的.exe程序的启动过程,其中有很多深奥的知识我只是提了一下,有些知识在以后的文章中还会陆续提到的。
Bigwhite
2002.5.18
转:Windows中.exe程序的启动过程和C/C++运行时库
Windows系统中,.exe后缀的文件一般可以双击运行。编程时,编译出来的最终结果一般也表现为一个exe程序和其他的为程序执行提供支持的dll。我们双击一个exe程序的时候,在操作系统层面上,做了些什么使得应用程序能够执行呢?
现在有一个App.exe文件,根据这篇文章的说法,我总结了一下,双击App.exe之后操作系统做的工作如下:
1、 shell调用CreateProcss激活一个App.exe进程。Shell即命令解释器,是操作系统引导时即加载的一个系统进程,在Windows任务管理器里面可以看到一个名为”Explorer.exe”的进程,就是它了。
2、 CreateProcss创建了一个进程内核对象,而系统为该进程创建4GB的虚拟地址空间(在Win2000/WinXP下,每个进程可以有2GB的私有地址空间,剩余的2GB由操作系统占用)用来加载App.exe和其他必要的DLL函数;
3、 CreateProcess加载exe文件,分析文件头(具体格式见PE文件格式分析)以识别文件的运行环境,根据文件头决定由那个环境进行加载操作;
4、 加载App.exe及其必要的DLL文件数据和代码后,CreateProcss即创建主线程,执行C/C++运行时的启动代码,由启动代码执行剩下的过程。
从上面的描述可以看出,一个程序真正调用的第一个应该是C/C++运行时的启动函数。那么C/C++运行时库在程序运行时起到了什么样的作用?下面是关于C/C++运行时的一些学习体会。
什么是C/C++运行时库,网上随便一搜,能得到一大串结果。运行时库是一个library,我们日常编写的程序代码都是运行在这个库上的,运行时库完成了一些底层的基础的工作,例如初始化运行期间的内存单元分配函数,初始化底层I/O例程使用的内存栈,初始化C/C++运行时的全局变量,为C++全局和静态类调用构造函数等等。这样的运行时库使得程序员不必关心过于底层的内容,专注于自己的应用程序逻辑。运行时库还提供一些基础的库函数调用,如memcpy,malloc之类的,更重要的是,运行时库还为应用程序添加启动函数。
Windows环境下,VC提供的 C run-time library又分为动态运行时库和静态运行时库。动态运行时库主要是msvcrt.dll(Debug版:msvcrtd.dll),对应的库文件是msvcrt.lib(Debug版:msvcrtd.lib)。静态运行时库对应的主要文件是:libc.lib (单线程静态库)和libcmt.lib (多线程静态库)。其中msvcrt.dll提供几千个C函数,包括printf这么低级的函数也在msvcrt.dll中。
应用程序编写完成后进行编译和链接时,编译器根据编译选项(Visual Studio中即为工程设置),如单线程、多线程或DLL,自动为应用程序链接不同的运行时库的启动函数。在VS2005中,通过下面的操作可以查看或修改选项以决定链接哪个运行时库:
打开工程属性,选择左侧的配置属性—->C/C++—->代码生成,查看【运行时库】,选择不同的运行时库即可。
回到第一个问题,主线程执行C/C++运行时的启动代码,由启动函数调用对应的入口点函数,进入应用程序执行代码逻辑。
不使用宽字节的控制台程序的启动函数为mainCRTStartup。这个函数在VC安装目录下的crt\src\ crt0.c文件中。下面是一个从网上找到的简化版:
void mainCRTStartup(void)
{
int mainret;
/*获得WIN32完整的版本信息*/
_osver = GetVersion();
_winminor = ( _osver >> 8 ) & 0×00FF ;
_winmajor = _osver & 0×00FF ;
_winver = ( _winmajor << 8 ) + _winminor;
_osver = ( _osver >> 16 ) & 0×00FFFF ;
_ioinit(); /* initialize lowio */
/* 获得命令行信息 */
_acmdln = (char *) GetCommandLineA();
/* 获得环境信息 */
_aenvptr = (char *) __crtGetEnvironmentStringsA();
_setargv(); /* 设置命令行参数 */
_setenvp(); /* 设置环境参数 */
_cinit(); /* C数据初始化:全局变量初始化,就在这里!*/
__initenv = _environ;
mainret = main( __argc, __argv, _environ ); /*调用main函数*/
exit( mainret );
}
从以上代码可知,运行库在调用用户程序的main或WinMain函数之前,进行了一些初始化工作。初始化完成后,接着才调用了我们自己编写的main或WinMain函数。这样, C/C++运行时库和应用程序就正常地工作起来了。
除了crt0.c外,C运行时库中还包含wcrt0.c、 wincrt0.c、wwincrt0.c三个文件用来提供初始化函数。wcrt0.c是crt0.c的宽字符集版,wincrt0.c中包含 windows应用程序的入口函数,而wwincrt0.c则是wincrt0.c的宽字符集版。
同样由上面简化版的代码可知,当用户程序的main或WinMain函数执行结束后,返回值被当做参数传入exit函数中,有exit完成程序执行的收尾工作,包括析构C++全局和静态类,调用操作系统的ExitProcess函数,告知进程退出等。
以上是我对于程序执行过程和C/C++运行时库的一点理解,若有错漏,欢迎指正。