Chinaunix首页 | 论坛 | 博客
  • 博客访问: 2764781
  • 博文数量: 79
  • 博客积分: 30130
  • 博客等级: 大将
  • 技术积分: 2608
  • 用 户 组: 普通用户
  • 注册时间: 2007-10-22 14:58
个人简介

博所搬至http://xiaogr.com

文章存档

2015年(2)

2009年(3)

2008年(56)

2007年(18)

分类: LINUX

2008-02-15 16:15:17

------------------------------------------

本文系本站原创,欢迎转载!

转载请注明出处:http://ericxiao.cublog.cn/

------------------------------------------

前面我们已经分析了linux如何利用伙伴系统,slab分配器分配内存,用这些方法得到的内存在物理地址上都是连续的,然而,有些时候,每次请求内存时,系统都分配物理地址连续的内存块是不合适的,可以利用小块内存连接成大块可使用的内存.这在操作系统设计中也被称为 内存拼接”,显然,内存拼接在需要较大内存,而内存访问相比之下不是很频繁的情况下是比较有效的.

     linux内核中用来管理内存拼接的接口是vmalloc/vfree.vmalloc分配得到的内存在线性地址是平滑的,但是物理地址上是非连续的.

     :准备知识:

     Linuxvm_struct结构来表示vmalloc使用的线性地址.vmalloc所使用的线性地址区间为: VMALLOC_START VMALLOC_END.借用<>中的一副插图,如下示:

 

从上图中我们可以看到每一个vmalloc_area4KB隔开,这样做是为了很容易就能捕捉到越界访问,因为中间是一个 空洞”.

:相关的数据结构

下面来分析一下vmalloc area的数据结构:

struct vm_struct {

     void          *addr;             //虚拟地址

     unsigned long      size;         //vm的大小

     unsigned long      flags;        //vm的标志

     struct page        **pages;      //vm所映射的page

     unsigned int       nr_pages;     //page个数

     unsigned long      phys_addr;    //对应的起始物理地址  

     struct vm_struct   *next;        //下一个vm.用来形成链表

}

全局变量vmlist用来管理vm构成的链表

全局变量vmlist用于访问vmlist所使用的信号量

对于vm_struct有两个常用的操作: get_vm_area/remove_vm_area

get_vm_area:用来分配一个合适大小的vm结构,分配成功之后,将其链入到vmlist,代码在 mm/vmalloc.c.如下示:

//sizevm的大小

struct vm_struct *get_vm_area(unsigned long size, unsigned long flags)

{

     //VMALLOC_STARTVMALLOC_END找到一段合适的空间

     return __get_vm_area(size, flags, VMALLOC_START, VMALLOC_END);

}

//参数说明:

//start:起始地址 end:结束地址 size 空间大小

struct vm_struct *__get_vm_area(unsigned long size, unsigned long flags,

                   unsigned long start, unsigned long end)

{

     struct vm_struct **p, *tmp, *area;

     unsigned long align = 1;

     unsigned long addr;

 

     //如果指定了VM_IOREMAP.则调整对齐因子

     if (flags & VM_IOREMAP) {

         int bit = fls(size);

 

         if (bit > IOREMAP_MAX_ORDER)

              bit = IOREMAP_MAX_ORDER;

         else if (bit < PAGE_SHIFT)

              bit = PAGE_SHIFT;

 

         align = 1ul << bit;

     }

     //将起始地址按照对齐因子对齐

     addr = ALIGN(start, align);

     //分配一个vm_struct结构空间

     area = kmalloc(sizeof(*area), GFP_KERNEL);

     if (unlikely(!area))

         return NULL;

 

     //PAGE_SIZE:i32中为4KB,即上面所说的间隔空洞

     size += PAGE_SIZE;

     if (unlikely(!size)) {

         kfree (area);

         return NULL;

     }

 

     write_lock(&vmlist_lock);

     //遍历vmlist:找到合适大小的末使用空间

     for (p = &vmlist; (tmp = *p) != NULL ;p = &tmp->next) {

         //若起始地址落在某一个vm区间,则调整起始地址为vm区间的末尾

         if ((unsigned long)tmp->addr < addr) {

              if((unsigned long)tmp->addr + tmp->size >= addr)

                   addr = ALIGN(tmp->size +

                            (unsigned long)tmp->addr, align);

              continue;

         }

         //size+addr < addr ?除非size == 0

         if ((size + addr) < addr)

              goto out;

         //中间的空隙可以容纳下size大小的vm.说明已经找到了这样的一个vm

         if (size + addr <= (unsigned long)tmp->addr)

              goto found;

         //调整起始地址为vm的结束地址

         addr = ALIGN(tmp->size + (unsigned long)tmp->addr, align);

         //如果超出了范围

         if (addr > end - size)

              goto out;

     }

 

found:

     //找到了合适大小的空间,area->addr赋值为addr,然后链入vmlist

     area->next = *p;

     *p = area;

 

     area->flags = flags;

     area->addr = (void *)addr;

     area->size = size;

     area->pages = NULL;

     area->nr_pages = 0;

     area->phys_addr = 0;

     write_unlock(&vmlist_lock);

 

     return area;

 

out:

     //没有找到合适大小的空间,出错返回

     write_unlock(&vmlist_lock);

     kfree(area);

     if (printk_ratelimit())

         printk(KERN_WARNING "allocation failed: out of vmalloc space - use vmalloc= to increase size.\n");

     return NULL;

}

这段代码不是很复杂,在此不详细分析了.

remove_vm_area用来将相应的vmvmlist中断开,使其表示的空间可以被利用

//addr:对应vm的超始地址

struct vm_struct *remove_vm_area(void *addr)

{

     struct vm_struct **p, *tmp;

 

     write_lock(&vmlist_lock);

     //遍历vmlist.找到超始地址为addrvm

for (p = &vmlist ; (tmp = *p) != NULL ;p = &tmp->next) {

          if (tmp->addr == addr)

               goto found;

     }

     write_unlock(&vmlist_lock);

     return NULL;

 

found:

     //断开tmp所对应的映射关系

     unmap_vm_area(tmp);

     //找到了这个vm,将其从vmlist上断开

     *p = tmp->next;

     write_unlock(&vmlist_lock);

     return tmp;

}

unmap_vm_area用来断开vm所在线性地址所对应的映射关系.它的代码如下:

void unmap_vm_area(struct vm_struct *area)

{

     //vm所对应的起始线性地址

     unsigned long address = (unsigned long) area->addr;

     //vm所对应的结束线性地址

     unsigned long end = (address + area->size);

     pgd_t *dir;

     //起始地址所在的内核页目录项

     dir = pgd_offset_k(address);

     flush_cache_vunmap(address, end);

     do {

         //断开地址所对应的pmd映射

         unmap_area_pmd(dir, address, end - address);

//运行到这里的时候,已经断开了一个页目录所表示的线性地址,而每个页目录表示的线性地址//大小为PGDIR_SIZE

         address = (address + PGDIR_SIZE) & PGDIR_MASK;

         dir++;

     } while (address && (address < end));

     //当到达末尾时结束循环

     flush_tlb_kernel_range((unsigned long) area->addr, end);

}

//断开线性地址区间所在的pmd的映射

static void unmap_area_pmd(pgd_t *dir, unsigned long address,

                     unsigned long size)

{

     unsigned long end;

     pmd_t *pmd;

 

     if (pgd_none(*dir))

         return;

     if (pgd_bad(*dir)) {

         pgd_ERROR(*dir);

         pgd_clear(dir);

         return;

     }

 

     pmd = pmd_offset(dir, address);

     address &= ~PGDIR_MASK;

     end = address + size;

     if (end > PGDIR_SIZE)

         end = PGDIR_SIZE;

 

     do {

         //断开线性地址所在的pte的映射关系

         unmap_area_pte(pmd, address, end - address);

         address = (address + PMD_SIZE) & PMD_MASK;

         pmd++;

     } while (address < end);

}

static void unmap_area_pte(pmd_t *pmd, unsigned long address,

                     unsigned long size)

{

     unsigned long end;

     pte_t *pte;

 

     if (pmd_none(*pmd))

         return;

     if (pmd_bad(*pmd)) {

         pmd_ERROR(*pmd);

         pmd_clear(pmd);

         return;

     }

 

     pte = pte_offset_kernel(pmd, address);

     address &= ~PMD_MASK;

     end = address + size;

     if (end > PMD_SIZE)

         end = PMD_SIZE;

 

     do {

         pte_t page;

         //清除pte的对应映射关系

page = ptep_get_and_clear(pte);

         address += PAGE_SIZE;

         pte++;

         if (pte_none(page))

              continue;

         if (pte_present(page))

              continue;

         printk(KERN_CRIT "Whee.. Swapped out page in kernel page table\n");

     } while (address < end);

}

经过这几个过程之后,实际上,它只是找到线性地址所对应的pte,然后断开pte的映射.值得注意的是:为了效率起见,这里只是断开了pte的映射,即只是将pte置为none,表示pte末映射内存.并末断开pmdpgd的映射

 

阅读(5816) | 评论(6) | 转发(4) |
给主人留下些什么吧!~~

chinaunix网友2009-06-29 17:58:39

//size+addr < addr ?除非size == 0 if ((size + addr) < addr) goto out; 这里应该是判断是否溢出,就是越界; PS:写的很好,帮助很大

chinaunix网友2009-06-29 17:58:39

//size+addr < addr ?除非size == 0 if ((size + addr) < addr) goto out; 这里应该是判断是否溢出,就是越界; PS:写的很好,帮助很大

chinaunix网友2009-06-29 17:58:39

//size+addr < addr ?除非size == 0 if ((size + addr) < addr) goto out; 这里应该是判断是否溢出,就是越界; PS:写的很好,帮助很大

CUDev2008-05-04 10:24:53

全局变量vmlist用于访问vmlist所使用的信号量 >全局变量vmlist_lock用于访问vmlist所使用的信号量

CUDev2008-05-04 10:24:53

全局变量vmlist用于访问vmlist所使用的信号量 >全局变量vmlist_lock用于访问vmlist所使用的信号量