Chinaunix首页 | 论坛 | 博客
  • 博客访问: 15367223
  • 博文数量: 2005
  • 博客积分: 11986
  • 博客等级: 上将
  • 技术积分: 22535
  • 用 户 组: 普通用户
  • 注册时间: 2007-05-17 13:56
文章分类

全部博文(2005)

文章存档

2014年(2)

2013年(2)

2012年(16)

2011年(66)

2010年(368)

2009年(743)

2008年(491)

2007年(317)

分类: LINUX

2007-08-05 17:19:15

浅析armlinux-paging_init()->free_area_init_core()函数5-4

文章来源:http://gliethttp.cublog.cn

建议首先参考《浅析armlinux2_4_19启动程序[head-armv.s文件][http://gliethttp.cublog.cn]

//----------------------------------------
//1.mm/Numa.c->free_area_init_node()
void __init free_area_init_node(int nid, pg_data_t *pgdat, struct page *pmap,
    unsigned long *zones_size, unsigned long zone_start_paddr,
    unsigned long *zholes_size)
{
    free_area_init_core(0, &contig_page_data, &mem_map, zones_size,
                zone_start_paddr, zholes_size, pmap);
}
//----------------------------------------
//2.mm/Page_alloc.c->free_area_init_core()
void __init free_area_init_core(int nid, pg_data_t *pgdat, struct page **gmap,
    unsigned long *zones_size, unsigned long zone_start_paddr,
    unsigned long *zholes_size, struct page *lmem_map)
{
    unsigned long i, j;
    unsigned long map_size;
    unsigned long totalpages, offset, realtotalpages;
    const unsigned long zone_required_alignment = 1UL << (MAX_ORDER-1);
    if (zone_start_paddr & ~PAGE_MASK)//zone_start_paddr一定是要页对齐的
        BUG();
    totalpages = 0;
//#define MAX_NR_ZONES 3
//累加所有zone大小到totalpages
    for (i = 0; i < MAX_NR_ZONES; i++) {
        unsigned long size = zones_size[i];
        totalpages += size;
    }
    realtotalpages = totalpages;
    if (zholes_size)
        for (i = 0; i < MAX_NR_ZONES; i++)
            realtotalpages -= zholes_size[i];//挖掉每一个zone内部的holes空间
    printk("On node %d totalpages: %lu\n", nid, realtotalpages);
//每一个4k物理页都对应一个mem_map_t来管理
    map_size = (totalpages + 1)*sizeof(struct page);
//多申请1个sizeof(struct page),因为可能会调整掉第一个sizeof(struct page)大小空间的前几个字节
    if (lmem_map == (struct page *)0) {
lmem_map = (struct page *) alloc_bootmem_node(pgdat, map_size);
//将申请到的map_size大小的空间起始地址lmem_map进行sizeof(mem_map_t)字节对齐调整,其对齐基址为PAGE_OFFSET
lmem_map = (struct page *)(PAGE_OFFSET + MAP_ALIGN((unsigned long)lmem_map - PAGE_OFFSET));
    }
    *gmap = pgdat->node_mem_map = lmem_map;//存储到mem_map中,之后mem_map=lmem_map
    pgdat->node_size = totalpages;
    pgdat->node_start_paddr = zone_start_paddr;
    pgdat->node_start_mapnr = (lmem_map - mem_map);//lmem_map和mem_map相对距离,距离多少个mem_map_t
    pgdat->nr_zones = 0;
    offset = lmem_map - mem_map;    
    for (j = 0; j < MAX_NR_ZONES; j++) {
        zone_t *zone = pgdat->node_zones + j;
        unsigned long mask;
        unsigned long size, realsize;
        zone_table[nid * MAX_NR_ZONES + j] = zone;
        realsize = size = zones_size[j];
        if (zholes_size)
            realsize -= zholes_size[j];
//打印输出内容如下:
//On node 0 totalpages: 8192
//zone(0): 8192 pages.
//zone(1): 0 pages.
//zone(2): 0 pages. 
        printk("zone(%lu): %lu pages.\n", j, size);
        zone->size = size;
        zone->name = zone_names[j];
//zone_names[0]="DMA"
//zone_names[1]="Normal"
//zone_names[2]="HighMem"
//zone只是内核为了管理方便做的一种逻辑上的划分,并不存在这种物理硬件单元[gliethttp]
        zone->lock = SPIN_LOCK_UNLOCKED;
        zone->zone_pgdat = pgdat;
        zone->free_pages = 0;
        zone->need_balance = 0;
        if (!size)
            continue;
//用于进程睡眠在当前页上的waitqueue个数
        zone->wait_table_size = wait_table_size(size);
        zone->wait_table_shift =
            BITS_PER_LONG - wait_table_bits(zone->wait_table_size);
//申请zone->wait_table_size*sizeof(wait_queue_head_t)个字节连续数据
        zone->wait_table = (wait_queue_head_t *)
            alloc_bootmem_node(pgdat, zone->wait_table_size
                        * sizeof(wait_queue_head_t));
//初始化wait_table中wait_queue_head表项
        for(i = 0; i < zone->wait_table_size; ++i)
            init_waitqueue_head(zone->wait_table + i);
        pgdat->nr_zones = j+1;//记录当前zone的下一个zone号
//static int zone_balance_ratio[MAX_NR_ZONES] __initdata = { 128, 128, 128, };
//static int zone_balance_min[MAX_NR_ZONES] __initdata = { 20 , 20, 20, };
//static int zone_balance_max[MAX_NR_ZONES] __initdata = { 255, 255, 255, };
        mask = (realsize / zone_balance_ratio[j]);
        if (mask < zone_balance_min[j])
            mask = zone_balance_min[j];
        else if (mask > zone_balance_max[j])
            mask = zone_balance_max[j];
//系统中空闲物理页数绝对不要少于pages_min
//该zone区内存最底限,到达该值时,分配器将同步调用kswapd,
//让其将内核中的某些页交换到外存,从而保证系统中有足够的空闲页块.
        zone->pages_min = mask;
//当系统中空闲物理页数少于pages_low时,开始强化交换
        zone->pages_low = mask*2;
//当空闲物理页数少于pages_high时,启动后台交换;而当空闲物理页数大于pages_high时,内核交换守护进程什么也不做
        zone->pages_high = mask*3;//该zone区内存临界值
//管理每个4k页的数据结构mem_map_t的起始地址zone->zone_mem_map
        zone->zone_mem_map = mem_map + offset;
        zone->zone_start_mapnr = offset;//lmem_map和mem_map相对距离,距离多少个mem_map_t
        zone->zone_start_paddr = zone_start_paddr;//该zone的起始地址
//该zone_start_paddr应该是2^9,即:512页对齐,即:512*4k=2M字节对齐
        if ((zone_start_paddr >> PAGE_SHIFT) & (zone_required_alignment-1))
            printk("BUG: wrong zone alignment, it will crash\n");
        for (i = 0; i < size; i++) {
            struct page *page = mem_map + offset + i;
//对每一个4k页对应的mem_map_t管理结构进行如下相同的初始化
            set_page_zone(page, nid * MAX_NR_ZONES + j);//设置flag的zone标志区
            set_page_count(page, 0);//设置使用本页的用户数目为0
            SetPageReserved(page);//设置本页flag为PG_reserved,由系统保留使用
            INIT_LIST_HEAD(&page->list);//初始化list的头和屁股使其都指向自己
            if (j != ZONE_HIGHMEM)
                set_page_address(page, __va(zone_start_paddr));//对于我的armlinux版本,此为空
            zone_start_paddr += PAGE_SIZE;//因为上一句没有,所以此举也无用

        }
        offset += size;
        for (i = 0; ; i++) {
//linux的物理页分配采用链表和位图结合的方法.linux内核定义了一个称为free_area的数组,
//该数组的每一项描述某一种页块的信息
//zone->free_area[0]--2^0=1页空闲链表
//zone->free_area[1]--2^1=2页空闲链表
//zone->free_area[2]--2^2=4页空闲链表
//...
//zone->free_area[9]--2^9=512页空闲链表
//数组free_area的每项包含三个元素:next、prev和map.指针next、prev用于将物理页块结构mem_map_t连结成一个双向链表;
//而map则是记录这种页块组分配情况的位图,例如,位图的第N位为1,表明第N个页块是空闲的.从图中也可以看到,
//用来记录页块组分配情况的位图大小各不相同,显然页块越小,位图越大.free_area数组的大小为10或12(可调),
//因此它管理的最小内存块的大小是1页(4K),最大内存块的大小是512页(2M)或2048页(8M).
//页分配代码使用向量表free_area来分配和回收物理页
            unsigned long bitmap_size;
            INIT_LIST_HEAD(&zone->free_area[i].free_list);//初始化free_area的链表
            if (i == MAX_ORDER-1) {
                zone->free_area[i].map = NULL;
//我的armlinux,MAX_ORDER=10,所以一共2^9=512个页,所以kmalloc最多申请512个连续页=512*4k=2M
                break;
            }
//对于Buddy(伙伴)算法,采用模型:index >> (i+1);[i为order值,index一般是"size-1"]
//所以Buddy管理的内存总大小为size-1,记得在<唐山一中>念高中的时候有这样一道数学题
//s=1/2+1/4+1/8+...1/2^n的值是多少,怎么计算呢?先将等式两端分别乘上2,即:
//2s=1+1/2+1/4+...1/2^(n+1)=逼近1+s,所以s=逼近1,但永远都达不到1.
//所以从这个角度我们可以看到Buddy的算法中,不论MAX_ORDER有多大10,10000...,甚至无穷,也不会把size-1切割到0
//size-1数据穷尽,当然这还要考虑小于1字节时已经不存在意义的问题,
//但是MAX_ORDER已经有很强的伸缩性了[gliethttp 2007-08-05]
//free_area[0].map位图大小=((size-1)/ 2)/8=(size-1) >> (0+1+3)
//free_area[1].map位图大小=((size-1)/ 4)/8=(size-1) >> (1+1+3)
//...
//free_area[9].map位图大小=((size-1)/1024)/8=(size-1) >> (9+1+3)
            bitmap_size = (size-1) >> (i+4);
//因为所有bitmap的操作都是long类型4字节操作,所以需要将bitmap_size调整成>=先前bitmap_size的4倍数
//可以假想bitmap_size&0x03=1,出现零头,怎么办,显然我们不能不管,所以
//#define LONG_ALIGN(x) (((x)+(sizeof(long))-1)&~((sizeof(long))-1))
//(1+3)&~3这样对齐到了上边界,
//但是为什么要传递bitmap_size+1进行调整呢,这是为了,当bitmap_size&0x03=0时,它还要进行
//(0+1+3)&~3,这样就到了下一个对齐单元,但明明已经对齐了,为什么还要加,我想这可能和统一的风格和舒适度有关系吧!
//所以调整后的bitmap_size肯定大于先前为调整的bitmap_size,1~4字节之间
            bitmap_size = LONG_ALIGN(bitmap_size+1);
            zone->free_area[i].map = //返回32字节对齐后的bitmap_size大小虚拟地址空间首地址
//请参考《浅析armlinux-setup_arch()->alloc_bootmem_low_pages()函数5-1》[http://gliethttp.cublog.cn]
             (unsigned long *) alloc_bootmem_node(pgdat, bitmap_size);
        }
    }
    build_zonelists(pgdat);//将zone登记到zonelist中
}
//----------------------------------------
//3.
#define PAGES_PER_WAITQUEUE    256
static inline unsigned long wait_table_size(unsigned long pages)
{unsigned long size = 1;
    pages /= PAGES_PER_WAITQUEUE;//8192/256=32
    while (size < pages)
        size <<= 1;//计算上边界
    size = min(size, 4096UL);//权衡一个用来进程睡眠wait queue的合理大小
    return size;
}
//----------------------------------------
//4.
static inline unsigned long wait_table_bits(unsigned long size)
{
//fft[find first zero in word]从低位开始找到第一个0的位置
//所以这里是查找size中第一个出现1的位置
    return ffz(~size);
}
//----------------------------------------
//5.
static inline void set_page_zone(struct page *page, unsigned long zone_num)
{
    page->flags &= ~(~0UL << ZONE_SHIFT);//清0高8位
    page->flags |= zone_num << ZONE_SHIFT;//将zone_num送到高8位
}
//----------------------------------------
//6.include/linux/Mm.h->SetPageReserved()
#define SetPageReserved(page) set_bit(PG_reserved, &(page)->flags)
//arch/arm/lib/setbit.S->set_bit()
ENTRY(set_bit)
    and     r2, r0, #7//r0在字节内的移位量0~7

    mov     r3, #1
    mov     r3, r3, lsl r2//将计算偏移后结果存入r3
    save_and_disable_irqs ip, r2//禁用中断,同时ip=cpsr
    ldrb    r2, [r1, r0, lsr #3]//读取第r0位对应字节处的字节数据,即:r1+r0/8
    orr     r2, r2, r3//相应位置1
    strb    r2, [r1, r0, lsr #3]//回写
    restore_irqs ip
    RETINSTR(mov,pc,lr)
//----------------------------------------
//7.mm/Page_alloc.c->build_zonelists()
static inline void build_zonelists(pg_data_t *pgdat)
{int i, j, k;
//#define GFP_ZONEMASK 0x0f
    for (i = 0; i <= GFP_ZONEMASK; i++) {
        zonelist_t *zonelist;
        zone_t *zone;
        zonelist = pgdat->node_zonelists + i;
//对memset的理解可参见《浅析armlinux-__arch_clear_user内存拷贝函数之3》[http://gliethttp.cublog.cn]
        memset(zonelist, 0, sizeof(*zonelist));
        j = 0;
//#define ZONE_DMA 0
//#define ZONE_NORMAL 1
//#define ZONE_HIGHMEM 2
//所以GFP_ZONEMASK的所有i值,都被0x3掩掉
        k = ZONE_NORMAL;
        if (i & __GFP_HIGHMEM)
            k = ZONE_HIGHMEM;
        if (i & __GFP_DMA)
            k = ZONE_DMA;
        switch (k) {//我的armlinux版本只提供3种zone
            default:
                BUG();
            case ZONE_HIGHMEM:
                zone = pgdat->node_zones + ZONE_HIGHMEM;
                if (zone->size) {
#ifndef CONFIG_HIGHMEM
                    BUG();
#endif
                    zonelist->zones[j++] = zone;//将ZONE_HIGHMEM对应的node填入表中
                }
            case ZONE_NORMAL:
                zone = pgdat->node_zones + ZONE_NORMAL;
                if (zone->size)
                    zonelist->zones[j++] = zone;//将ZONE_NORMAL对应的node填入表中
            case ZONE_DMA:
                zone = pgdat->node_zones + ZONE_DMA;
                if (zone->size)
                    zonelist->zones[j++] = zone;//将ZONE_DMA对应的node填入表中
        }
        zonelist->zones[j++] = NULL;//给node链表追加结尾
    }
}

阅读(2829) | 评论(1) | 转发(1) |
给主人留下些什么吧!~~

hackernelor2014-12-27 23:22:23

楼主功力很深啊,学习中。。。,在唐山一中读过书,呵呵,不错啊