linux内核启动分析-zhangyd6-ChinaUnix博客

Deamzhangyd.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

zhangyd6

博客访问： 509888
博文数量： 104
博客积分： 3045
博客等级：少校
技术积分： 1230
用户组：普通用户
注册时间： 2008-02-29 10:18

文章分类

全部博文（104）

无线（2）
makefile（4）
系统应用（5）
数字电视（18）
嵌入式Linux（25）

cpu（5）

linux设备驱动（2）

linux内核分析（18）
网络（9）
算法（2）
理财（0）
tools（8）
FPGA（1）
shell（6）
信号处理（1）
生活（1）
u-boot分析和移植（8）
c语言（14）
未分配的博文（0）

文章存档

2011年（72）

2010年（1）

2009年（1）

2008年（30）

我的朋友

最近访客

推荐博文

linux内核启动分析

分类：

2008-04-08 16:09:21

114 start:
115                 .type   start,#function
116                 .rept   8
117                 mov     r0, r0
118                 .endr
119
120                 b       1f
121                 .word   0x016f2818              @ Magic numbers to help the loader
122                 .word   start                   @ absolute load/run zImage address
123                 .word   _edata                  @ zImage end address
124 1:              mov     r7, r1                  @ save architecture ID
125                 mov     r8, r2                  @ save atags pointer
126           /*用r7 和 r8来保存id 和 atags 参数
           ／＊一下程序来关闭中断   防止中断发生

127 #ifndef __ARM_ARCH_2__
128                 /*
129                  * Booting from Angel - need to enter SVC mode and disable
130                  * FIQs/IRQs (numeric definitions from angel arm.h source).
131                  * We only do this if we were in user mode on entry.
132                  */
133                 mrs     r2, cpsr                @ get current mode
134                 tst     r2, #3                  @ not user?
135                 bne     not_angel
136                 mov     r0, #0x17               @ angel_SWIreason_EnterSVC
137                 swi     0x123456                @ angel_SWI_ARM
138 not_angel:
139                 mrs     r2, cpsr                @ turn off interrupts to
140                 orr     r2, r2, #0xc0           @ prevent angel from running
141                 msr     cpsr_c, r2
142 #else
143                 teqp    pc, #0x0c000003         @ turn off interrupts
144 #endif
／＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊／
289 LC0:            .word   LC0                     @ r1
290                 .word   __bss_start             @ r2
291                 .word   _end                    @ r3
292                 .word   zreladdr                @ r4
293                 .word   _start                  @ r5
294                 .word   _got_start              @ r6
295                 .word   _got_end                @ ip
296                 .word   user_stack+4096         @ sp
297 LC1:            .word   reloc_end - reloc_start
298                 .size   LC0, . - LC0
／＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊／
以上是lc0地址出的代码记录了各种地址把他们下载到 r1, r2. r3, ......sp中／
156                 .text
157                 adr     r0, LC0
158                 ldmia   r0, {r1, r2, r3, r4, r5, r6, ip, sp}
159                 subs    r0, r0, r1              @ calculate the delta offset
            判断 r0 的偏移地址 r1 记录了lc0 加在地址，r0 记录了lc0 的实际执行地址算出它的地址偏移量。
            如果是零那么我们运行在我们所连接的地址出如果不是零则运行在不是连接的地址出
161                                                 @ if delta is zero, we are
162                 beq     not_relocated           @ running at the address we
163                                                 @ were linked at.
164                 计算出实际要运行的地址
171                  */
172                 add     r5, r5, r0
173                 add     r6, r6, r0
174                 add     ip, ip, r0
175
176 #ifndef CONFIG_ZBOOT_ROM
177                 /*
178                  * If we're running fully PIC === CONFIG_ZBOOT_ROM = n,
179                  * we need to fix up pointers into the BSS region.
180                  *   r2 - BSS start
181                  *   r3 - BSS end
182                  *   sp - stack pointer
183                  */
184                 add     r2, r2, r0
185                 add     r3, r3, r0
186                 add     sp, sp, r0
187
188                 /*
189                  把 GOT 表加在到所希望的地址处 .
190                  */
191 1:              ldr     r1, [r6, #0]            @ relocate entries in the GOT
192                 add     r1, r1, r0              @ table. This fixes up the
193                 str     r1, [r6], #4            @ C references.
194                 cmp     r6, ip
195                 blo     1b
196 #else
197
198                 /*
199                  * Relocate entries in the GOT table. We only relocate
200                  * the entries that are outside the (relocated) BSS region.
201                  */
202 1:              ldr     r1, [r6, #0]            @ relocate entries in the GOT
203                 cmp     r1, r2                  @ entry < bss_start ||
204                 cmphs   r3, r1                  @ _end < entry
205                 addlo   r1, r1, r0              @ table. This fixes up the
206                 str     r1, [r6], #4            @ C references.
207                 cmp     r6, ip
208                 blo     1b
209 #endif
210             ／＊清除bss 的内容
211 not_relocated: mov     r0, #0
212 1:              str     r0, [r2], #4            @ clear bss
213                 str     r0, [r2], #4
214                 str     r0, [r2], #4
215                 str     r0, [r2], #4
216                 cmp     r2, r3
217                 blo     1b
218
219                        打开 cache
224                 bl      cache_on
225                 分派64k的内存给 stack
226                 mov     r1, sp                  @ malloc space above stack
227                 add     r2, sp, #0x10000        @ 64k max
228
                    /＊如果 sp 所在的地址不大于内核的起始地址就不用搬移
                        我觉得就是通过运算如果是压缩的代码的终止地址就不用搬移如果是压缩的代码那么就不满足条件然活就调用解压缩                            函数搬移到   r2 指向的地址处
238                 cmp     r4, r2
239                 bhs     wont_overwrite
240                 sub     r3, sp, r5              @ > compressed kernel size
241                 add     r0, r4, r3, lsl #2      @ allow for 4x expansion
242                 cmp     r0, r5
243                 bls     wont_overwrite
244
245                 mov     r5, r2                  @ decompress after malloc space
246                 mov     r0, r5
247                 mov     r3, r7
248                 bl      decompress_kernel
249
250                 add     r0, r0, #127 + 128      @ alignment + stack
251                 bic     r0, r0, #127            @ align the kernel length
252 /*

262                 add     r1, r5, r0              @ end of decompressed kernel
263                 adr     r2, reloc_start
264                 ldr     r3, LC1
265                 add     r3, r2, r3
266 1:              ldmia   r2!, {r9 - r14}         @ copy relocation code
267                 stmia   r1!, {r9 - r14}
268                 ldmia   r2!, {r9 - r14}
269                 stmia   r1!, {r9 - r14}
270                 cmp     r2, r3
271                 blo     1b
272                 add     sp, r1, #128            @ relocate the stack
273
274                 bl      cache_clean_flush
275                 add     pc, r5, r0              @ 此处调用内核进入内核函数
276
277 /*
278 * We're not in danger of overwriting ourselves. Do this the simple way.
279 *
280 * r4     = kernel execution address
281 * r7     = architecture ID
282 */
            原地压缩
283 wont_overwrite: mov     r0, r4
284                 mov     r3, r7
285                 bl      decompress_kernel
286                 b       call_kernel
                调用内核进入内核函数
其实 u-boot 将内核代码拷贝到0x30008000地址出该地址然后把内核解压缩到高地址出，然后将解压缩的内核拷贝到地地址处然后跳转到地地址出执行内核函数以上代码是自己的分析，由于是新手难免有理解错误的地方下面是引用的taoyuetao 的分析
下面的代码是在arch/arm/kernel /head.S
ENTRY(stext)
83         msr     cpsr_c, #PSR_F_BIT | PSR_I_BIT | SVC_MODE @ ensure svc mode
84                                                 @ and irqs disabled
85         mrc     p15, 0, r9, c0, c0              @ get processor id
86         bl      __lookup_processor_type         @ r5=procinfo r9=cpuid
87         movs    r10, r5                         @ invalid processor (r5=0)?
88         beq     __error_p                       @ yes, error 'p'
89         bl      __lookup_machine_type           @ r5=machinfo
90         movs    r8, r5                          @ invalid machine (r5=0)?
91         beq     __error_a                       @ yes, error 'a'
92         bl      __vet_atags
93         bl      __create_page_tables
102         ldr     r13, __switch_data              @ address to jump to after
103                                                 @ mmu has been enabled
104         adr     lr, __enable_mmu                @ return (PIC) address
105         add     pc, r10, #PROCINFO_INITFUNC
首先取保 cpu 运行在svc模式下并且关掉所有的中断获得 cpu ID查看cpu 的类型是否匹配    然后获得开发板的类型
启动mmu 最后跳转到start_kernel()函数。
原文地址：http://www.cublog.cn/u/31100/showart_269462.html
一下引子taoyuetao的文章：
函数__lookup_processor_type介绍：
内核中使用了一个结构struct proc_info_list，用来记录处理器相关的信息，该结构定义在
kernel/include/asm-arm/procinfo.h头文件中。
struct proc_info_list {
    unsigned int        cpu_val;
    unsigned int        cpu_mask;
    unsigned long       __cpu_mmu_flags;    /* used by head-armv.S */
    unsigned long       __cpu_flush;        /* used by head-armv.S */
    const char      *arch_name;
    const char      *elf_name;
    unsigned int        elf_hwcap;
    struct proc_info_item   *info;
    struct processor    *proc;
};

在arch/arm/mm/proc-xscale.S文件中定义了所有和xscale有关的proc_info_list，我们使用的pxa270定义如下：

.section ".proc.info", #alloc, #execinstr

.type   __bva0_proc_info,#object
__bva0_proc_info:
    .long   0x69054110          @ Bulverde A0: 0x69054110, A1 : 0x69054111.
    .long   0xfffffff0          @ and this is the CPU id mask.
#if CACHE_WRITE_THROUGH
    .long   0x00000c0a
#else
    .long   0x00000c0e
#endif
b   __xscale_setup
.long   cpu_arch_name
    .long   cpu_elf_name
    .long   HWCAP_SWP|HWCAP_HALF|HWCAP_THUMB|HWCAP_FAST_MULT|HWCAP_EDSP|HWCAP_XSCALE
    .long   cpu_bva0_info
    .long   xscale_processor_functions
    .size   __bva0_proc_info, . - __bva0_proc_info

由于.section指示符，上面定义的__bva0_proc_info信息在编译的时候被放到了.proc.info段中，这是由linux的
链接脚本文件vmlinux.lds指定的，参考如下：
       SECTIONS
       {
           . = 0xC0008000;
           .init : {           /* Init code and data       */
              _stext = .;
              __init_begin = .;
                  *(.text.init)
              __proc_info_begin = .;
                  *(.proc.info)
              __proc_info_end = .;

这里的符号__proc_info_begin指向.proc.info的起始地址，而符号__proc_info_end指向.proc.info的结束地址。
后面就会引用这两个符号，来指向.proc.info这个段。
下面来来看看函数的源代码，为了分析方便将函数按行进行编号，其中17-18行就是前面提到的对.proc.info的引用，
第2行将17行的地址放到寄存器r5中，adr是小范围的地址读取伪指令。第3行将r5所指向的数据区的数据读出到r7，r9
r10，执行结果是r7=__proc_info_end，r9=__proc_info_begin，r10=第19行的地址，第4-6行的结果应该是r10指向
__proc_info_begin的地址，第7行读取cpu的id，这是一个协处理器指令，将processor ID存储在r9中，第8行将r10指向
的__bva0_proc_info开始的数据读出放到寄存器r5，r6，r8，结果r5=0x69054110(cpu_val)，r6=0xfffffff0(cpu_mask)，
r8=0x00000c0e(__cpu_mmu_flags)，第9-10行将读出的id和结构中的id进行比较，如果id相同则返回，返回时r9存储
processor ID，如果id不匹配，则将指针r10增加36(proc_info_list结构的长度)，如果r10小于r7指定的地址，也就是
__proc_info_end，则继续循环比较下一个proc_info_list中的id，如第11-14行的代码，如果查找到__proc_info_end
仍未找到一个匹配的id，则将r10清零并返回，如15-16行，也就是说如果函数执行成功则r10指向匹配的proc_info_list
结构地址，如果函数返回错误则r10为0。
1 __lookup_processor_type:
2    adr r5, 2f
3    ldmia   r5, {r7, r9, r10}
4    sub r5, r5, r10         @ convert addresses
5    add r7, r7, r5          @ to our address space
6    add r10, r9, r5
7    mrc p15, 0, r9, c0, c0      @ get processor id
8 1:   ldmia   r10, {r5, r6, r8}       @ value, mask, mmuflags
9    and r6, r6, r9          @ mask wanted bits
10   teq r5, r6
11   moveq   pc, lr
12   add r10, r10, #36           @ sizeof(proc_info_list)
13   cmp r10, r7
14   blt 1b
15   mov r10, #0             @ unknown processor
16   mov pc, lr
17 2:     .long   __proc_info_end
18        .long   __proc_info_begin
19        .long   2b
20        .long   __arch_info_begin
21        .long   __arch_info_end
前一篇介绍了汇编函数__lookup_processor_type，这一篇介绍__lookup_architecture_type函数
函数__lookup_architecture_type介绍：
每个机器(一般指的是某一个电路板)都有自己的特殊结构，如物理内存地址，物理I/O地址，显存起始地址等等，
这个结构为struct machine_desc，定义在asm-arm/mach/arch.h中:
struct machine_desc {
/*
* Note! The first four elements are used
* by assembler code in head-armv.S
*/
unsigned intnr;/* architecture number*/
unsigned intphys_ram;/* start of physical ram */
unsigned intphys_io;/* start of physical io*/
unsigned intio_pg_offst;/* byte offset for io page table entry*/

const char*name;/* architecture name*/
unsigned intparam_offset;/* parameter page*/

unsigned intvideo_start;/* start of video RAM*/
unsigned intvideo_end;/* end of video RAM*/

unsigned intreserve_lp0 :1;/* never has lp0*/,
unsigned intreserve_lp1 :1;/* never has lp1*/
unsigned intreserve_lp2 :1;/* never has lp2*/
unsigned intsoft_reboot :1;/* soft reboot*/
void(*fixup)(struct machine_desc *,
struct param_struct *, char **,
struct meminfo *);
void(*map_io)(void);/* IO mapping function*/
void(*init_irq)(void);
};

这个结构一般都定义在(以arm平台为例)kernel\arch\arm\mach-xxx\xxx.c中，是用宏来定义的，以mainstone的开发板为例：
定义在kernel\arch\arm\mach-pxa\mainstone.c文件中，如下所示：
MACHINE_START(MAINSTONE, "Intel DBBVA0 Development Platform")
     MAINTAINER("MontaVista Software Inc.")
     BOOT_MEM(0xa0000000, 0x40000000, io_p2v(0x40000000))
     FIXUP(fixup_mainstone)
     MAPIO(mainstone_map_io)
     INITIRQ(mainstone_init_irq)
MACHINE_END
这些宏也定义在kernel/include/asm-arm/mach/arch.h中，以MACHINE_START为例：
#define MACHINE_START(_type,_name)      \
const struct machine_desc __mach_desc_##_type   \
__attribute__((__section__(".arch.info"))) = { \
     .nr     = MACH_TYPE_##_type,    \
     .name       = _name,

展开之后结构的是：
__mach_desc_MAINSTONE = {
.nr = MACH_TYPE_MAINSTIONE,
.name = "Intel DBBVA0 Development Platform",

中间的1行__attribute__((__section__(".arch.info"))) = {说明将这个结构放到指定的段.arch.info中，这和前面的
.proc.info是一个意思，__attribute__((__section__的含义参考GNU手册。后面的宏都是类似的含义，这里就不再一一
介绍。下面开始说明源码：

第1行实现r4指向2b的地址，2b如__lookup_processor_type介绍的第19行，将machine_desc结构中的数据存放到r2, r3, r5, r6, r7。
读取__mach_desc_MAINSTONE结构中的nr参数到r5中，如第7行，比较r5和r1中的机器编号是否相同，如第8行，
r5中的nr值MACH_TYPE_MAINSTONE定义在kernel\include\asm-arm\mach-types.h中：
#define MACH_TYPE_MAINSTONE            303
r1中的值是由bootloader传递过来的，这在<>中有说明，
如果机器编号相同，跳到15行执行，r5=intphys_ram，r6=intphys_io，r7=intio_pg_offst，并返回。如果
不同则将地址指针增加，在跳到7行继续查找，如10--12行的代码，如果检索完所有的machine_desc仍然没
有找到则将r7清零并返回。
1 __lookup_architecture_type:
2          adr r4, 2b
3          ldmia   r4, {r2, r3, r5, r6, r7}    @ throw away r2, r3
4          sub r5, r4, r5          @ convert addresses
5          add r4, r6, r5          @ to our address space
6          add r7, r7, r5
7 1:      ldr r5, [r4]            @ get machine type
8          teq r5, r1
9          beq 2f
10         add r4, r4, #SIZEOF_MACHINE_DESC
11         cmp r4, r7
12         blt 1b
13         mov r7, #0              @ unknown architecture
14         mov pc, lr
15 2:      ldmib   r4, {r5, r6, r7}        @ found, get results
16         mov pc, lr
函数__create_page_tables介绍：

假设内核起始物理地址是0xA0008000，虚拟地址是0xC0008000，下面的代码是建立内核起始处4MB空间的映射，
采用了一级映射方式，即段式(section)映射方式，每段映射范围为1MB空间。于是需要建立4个表项，实现：
虚拟地址0xC0000000~0xC0300000，映射到物理地址0xA0000000~0xA0300000。

     .macro pgtbl, reg, rambase
     adr \reg, stext
     sub \reg, \reg, #0x4000
     .endm

     .macro krnladr, rd, pgtable, rambase
     bic \rd, \pgtable, #0x000ff000
     .endm

/*
* Setup the initial page tables. We only setup the barest
* amount which are required to get the kernel running, which
* generally means mapping in the kernel code.
*
* We only map in 4MB of RAM, which should be sufficient in
* all cases.
*
* r5 = physical address of start of RAM
* r6 = physical IO address
* r7 = byte offset into page tables for IO
* r8 = page table flags
*/
1 __create_page_tables:
/* r5中存放着内核启动的地址0xa0008000 */
/* pgtbl将启动地址减去0x4000，存放到r4=0xa0004000 */
2         pgtbl   r4, r5              @ page table address

/*
* Clear the 16K level 1 swapper page table
*/
/* r0 = 0xa0004000 */
3         mov r0, r4
4         mov r3, #0
/* r2 = 0xa0008000 */
5         add r2, r0, #0x4000
/* 清除16k空间，addr 0xa0004000: 0xa0008000 is page table, total 16K*/
6 1:      str r3, [r0], #4
7         str r3, [r0], #4
8         str r3, [r0], #4
9         str r3, [r0], #4
10        teq r0, r2
11        bne 1b

/*
* Create identity mapping for first MB of kernel to
* cater for the MMU enable. This identity mapping
* will be removed by paging_init()
*/
/* r2 = 0xa0040000 & 0x000ff000 = 0xa00000000 */
12        krnladr r2, r4, r5          @ start of kernel
/* r3 = 0xa0000000 + 0x00000c0e = 0xa00000c0e */
/* r8 = 0x00000c0e在__lookup_processor_type函数中初始化 */
13       add r3, r8, r2          @ flags + kernel base
/* value r3=0xa0000c0e store to addr 0xa0006800*/
/* r4 = 0xa0006800 */
14        str r3, [r4, r2, lsr #18]       @ identity mapping
/*
* Now setup the pagetables for our kernel direct
* mapped region. We round TEXTADDR down to the
* nearest megabyte boundary.
*/
/* TEXTADDR= 0xC0008000 有关TEXTADDR参考<> */
/* start of kernel, r0=0xa0007000 */
15        add r0, r4, #(TEXTADDR & 0xff000000) >> 18 @ start of kernel
/* r2=0xa0000c0e */
16        bic r2, r3, #0x00f00000
/* 0xa0000c0e的数据写入到0xa00070000 */
17        str r2, [r0]            @ PAGE_OFFSET + 0MB
/* r0=0xa0007000, no change */
18        add r0, r0, #(TEXTADDR & 0x00f00000) >> 18

19        str r3, [r0], #4            @ KERNEL + 0MB
20        add r3, r3, #1 << 20
21        str r3, [r0], #4            @ KERNEL + 1MB
22        add r3, r3, #1 << 20
23        str r3, [r0], #4            @ KERNEL + 2MB
24        add r3, r3, #1 << 20
25        str r3, [r0], #4            @ KERNEL + 3MB
/*
* Ensure that the first section of RAM is present.
* we assume that:
* 1. the RAM is aligned to a 32MB boundary
* 2. the kernel is executing in the same 32MB chunk
*     as the start of RAM.
*/
26        bic r0, r0, #0x01f00000 >> 18   @ round down
27        and r2, r5, #0xfe000000     @ round down
28        add r3, r8, r2          @ flags + rambase
29        str r3, [r0]

30        bic r8, r8, #0x0c           @ turn off cacheable

31        mov pc, lr

我已经把每一步涉及的地址详细列出了，读者可以自行对照阅读。第11～16行，清空页表项从0xA0004000到0xA00,8000，共16KB。
第28行，取得__cpu_mmu_flags。第35～45行，填写页表项，共4项。读者可以对照XScale的地址映射手册，
因为采用的是段式映射方式，所以每1MB虚拟空间映射到相同的页表表项，根据手册说明，段式映射只有一级表索引，
是虚拟地址的前12位；而页式映射的页目录表是前12位，页表是接着的8位，最后12位才是页内偏移，
读者一定不要和386的10位页目录表，10位页表的机制相混淆。我们举个例子说明，对于虚拟地址0xC00x,xxxxx，
其前12位为C00，页表基址为0xA000,4000，所以表项地址为0xA000,4000+0xC00<<2=0xA000,7000，
而这个地址内容为0xA0000C0E，其前12位0xA00为段基地址，后20位为一些flags，这是从刚才__bva0_proc_info中取得的。
函数__mmap_switched介绍：

/*
* The following fragment of code is executed with the MMU on, and uses
* absolute addresses; this is not position independent.
*
* r0 = processor control register
* r1 = machine ID
* r9 = processor ID
*/

/* 下面按4字节对齐 */
1      .align 5
2 __mmap_switched:
/* r3 = __bss_start */
3     adr r3, __switch_data + 4
4       ldmia   r3, {r4, r5, r6, r7, r8, sp}@ r2 = compat
                             @ sp = stack pointer
5       mov fp, #0              @ Clear BSS (and zero fp)
6 1:    cmp r4, r5
7       strcc   fp, [r4],#4
8       bcc 1b

9       str r9, [r6]            @ Save processor ID
10      str r1, [r7]            @ Save machine type
11      orr r0, r0, #2          @ ...........A.
12      bic r2, r0, #2          @ Clear 'A' bit
13      stmia   r8, {r0, r2}            @ Save control register values
14      b   SYMBOL_NAME(start_kernel)

程序的4行执行完成之后的结果是r4=__bss_start，r5=_end，r6=processor_id，r7=__machine_arch_type，
r8=cr_alignment，sp=init_task_union+8192，第5-8行将__bss_start到_end清零，定义在vmlinux.lds文件中，如下：

.bss : {
        __bss_start = .;    /* BSS              */
       *(.bss)
       *(COMMON)
_end = . ;
}

第9、10行分别将处理器类型和机器类型存储到变量processor_id和__machine_arch_type中，这些变量以后会
在start_kernel->setup_arch中使用，来得到当前处理器的struct proc_info_list结构和当前系统的machine_desc结构的数据。
第10-13将processor control register保存到cr_alignment中，14行跳转到init/main.c中的start_kernel进入内核启动的第二阶段。
至此：linux 启动的汇编部分全部分析完毕。接下来的任务是交给c语言中的start_kernel来进行。

阅读(1943) | 评论(0) | 转发(0) |

上一篇：crc 校验错误分析

下一篇：Unix系列shell程序编写从入门到精通

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6