Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1575394
  • 博文数量: 399
  • 博客积分: 8508
  • 博客等级: 中将
  • 技术积分: 5302
  • 用 户 组: 普通用户
  • 注册时间: 2009-10-14 09:28
个人简介

能力强的人善于解决问题,有智慧的人善于绕过问题。 区别很微妙,小心谨慎做后者。

文章分类

全部博文(399)

文章存档

2018年(3)

2017年(1)

2016年(1)

2015年(69)

2013年(14)

2012年(17)

2011年(12)

2010年(189)

2009年(93)

分类: LINUX

2010-07-07 14:27:11

1.高端内存在线性地址中如何被映射,给出永久映射代码的例子。
    这个问题我想大部分人回答出来个大概应该不成问题,但是给出具体的代码例子,我相信就并不轻松了。
    首先由我开个头:内核可以访问所有的物理页面,也就是说内核页面的映射应该囊括所有的物理内存区,而线性地址映射的情况是内核映射1G大小的空间,另外3G大小的空间为用户地址空间。如果物理内存的大小大于1G内核如何映射呢?
    实际上,“内核映射空间”也达不到 1G, 还得留点线性空间给“内核动态映射空间”。因此,Linux 规定“内核直接映射空间” 最多映射 896M 物理内存。那么如何完成映射呢,大家可以去看linux内核的书,我的描述比较浅薄,所以部分转载,部分自己写:(强调一下,以下内容大部分为转载)
    对于高端内存,可以通过 alloc_page() 或者其它函数获得对应的 page,但是要想访问实际物理内存,还得把 page 转为线性地址才行,也就是说,我们需要为高端内存对应的 page 找一个线性空间,这个过程称为高端内存映射。
    线性地址空间 PAGE_OFFSET + 896M 至4G的最后128M线性地址  <==映射==>  896M以上的物理页框,非直接映射。有3种方法:非连续内存区映射,永久内核映射,临时内核映射(固定映射)
   从 PAGE_OFFSET开始的线性地址区域为:
   PAGE_OFFSET(3G)|物理内存映射 --8M-- vmallot区 --4K-- vmallot区 --8K-- 永久内核映射(4M)--临时内核映射(固定映射4M)|4G 
1、映射到“内核动态映射空间”
这种方式很简单,因为通过 vmalloc() ,在”内核动态映射空间“申请内存的时候,就可能从高端内存获得页面(参看 vmalloc 的实现),因此说高端内存有可能映射到”内核动态映射空间“ 中。

2、永久内核映射
如果是通过 alloc_page() 获得了高端内存对应的 page,如何给它找个线性空间?
内核专门为此留出一块线性空间,从 PKMAP_BASE FIXADDR_START ,用于映射高端内存。在 2.4 内核上,这个地址范围是 4G-8M 4G-4M 之间。这个空间起叫“内核永久映射空间”或者“永久内核映射空间”

这个空间和其它空间使用同样的页目录表,对于内核来说,就是 swapper_pg_dir,对普通进程来说,通过 CR3 寄存器指向。

通常情况下,这个空间是 4M 大小,因此仅仅需要一个页表即可,内核通过来 pkmap_page_table 寻找这个页表。

通过 kmap(), 可以把一个 page 映射到这个空间来

由于这个空间是 4M 大小,最多能同时映射 1024 page。因此,对于不使用的的 page,及应该时从这个空间释放掉(也就是解除映射关系),通过 kunmap() ,可以把一个 page 对应的线性地址从这个空间释放出来。


3、临时映射

内核在 FIXADDR_START FIXADDR_TOP 之间保留了一些线性空间用于特殊需求。这个空间称为“固定映射空间”

在这个空间中,有一部分用于高端内存的临时映射。

这块空间具有如下特点:

1、  每个 CPU 占用一块空间

2、  在每个 CPU 占用的那块空间中,又分为多个小空间,每个小空间大小是 1 page,每个小空间用于一个目的,这些目的定义在 kmap_types.h 中的 km_type 中。

 当要进行一次临时映射的时候,需要指定映射的目的,根据映射目的,可以找到对应的小空间,然后把这个空间的地址作为映射地址。这意味着一次临时映射会导致以前的映射被覆盖。

这里是总结性的描述,下一篇blog是比较详细的代码~

一:永久内存映射

永久内存映射在内核的接口为:kmap()/kunmap().在详细分析代码之前,有必须弄懂几个全局变量的含义:

PKMAP_BASE:永久映射空间的起始地址。永久映射空间为4M。所以它最多能映射4M/4K=1024个页面。

pkmap_page_table:永久映射空间对应的页目录。我们来看一下它的初始化:

pkmap_page_table = pte_offset_kernel(pmd_offset(pgd_offset_k

              (PKMAP_BASE), PKMAP_BASE), PKMAP_BASE);

              实际上它就是PKMAP_BASE所在的PTE

LAST_PKMAP:永久映射空间所能映射的页面数。在没有开启PAE的情况下被定义为1024

highmem_start_page:高端内存的起始页面

pkmap_count[PKMAP]:每一项用来对应映射区域的引用计数。关于引用计数,有以下几种情况:

                   0时:说明映射区域可用。为1时:映射区域不可用,因为自从它最后一次使用以来。TLB还没有将它刷新

              N时,有N-1个对象正在使用这个页面

last_pkmap_nr:在建立永久映射的时候,最后使用的序号

代码如下:

void *kmap(struct page *page)

{

     //可能引起睡眠。在永久映射区没有空闲地址的时候

     might_sleep();

     //如果不是高端页面。那它在直接映射空间已经映射好了,直接计算即可

     if (page < highmem_start_page)

         return page_address(page);

     //如果是高端页面。即在永久映射区为其分配地址

     return kmap_high(page);

}

转到kmap_high():

void fastcall *kmap_high(struct page *page)

{

     unsigned long vaddr;

     spin_lock(&kmap_lock);

     //取页面地址

     vaddr = (unsigned long)page_address(page);

     //如果页面还没有映射到线性地址,为它建立好映射

     if (!vaddr)

         vaddr = map_new_virtual(page);

     //有一个引用了,计数加1

     pkmap_count[PKMAP_NR(vaddr)]++;

     //如果计数小于2,这种情况是无效的。

     if (pkmap_count[PKMAP_NR(vaddr)] < 2)

         BUG();

     spin_unlock(&kmap_lock);

     return (void*) vaddr;

}

map_new_virtual()用于将一个page映射到永久映射区域。它的实现如下:

static inline unsigned long map_new_virtual(struct page *page)

{

     unsigned long vaddr;

     int count;

start:

     count = LAST_PKMAP;

     for (;;) {

         //last_pkmap_nr开始搜索。大于LAST_PKMAP时,又将它从0开始

         //其中LAST_PKMAP_MASK被定义为:(LAST_PKMAP-1)

         last_pkmap_nr = (last_pkmap_nr + 1) & LAST_PKMAP_MASK;

         //如果last_pkmap_nr等于0,也就是从头开始了

if (!last_pkmap_nr) {

     //扫描所有计数为1的项,将它置为零。如果还有映射到页面。断开它的映射关系

              flush_all_zero_pkmaps();

              count = LAST_PKMAP;

         }

         //如果计数为0,可用,就用它了,跳出循环

if (!pkmap_count[last_pkmap_nr])

              break;   /* Found a usable entry */

         if (--count)

              continue;

//遍历了整个区都无可用区间,睡眠

         {

              DECLARE_WAITQUEUE(wait, current);

              __set_current_state(TASK_UNINTERRUPTIBLE);

              add_wait_queue(&pkmap_map_wait, &wait);

              spin_unlock(&kmap_lock);

              schedule();

              remove_wait_queue(&pkmap_map_wait, &wait);

              spin_lock(&kmap_lock);

              /* Somebody else might have mapped it while we slept */

              //可能在睡眠的时候,其它进程已经映射好了,

              if (page_address(page))

                   return (unsigned long)page_address(page);

              //重新开始

              goto start;

         }

     }

     // #define PKMAP_ADDR(nr)  (PKMAP_BASE + ((nr) << PAGE_SHIFT))

     //将序号转化为线性地址

     vaddr = PKMAP_ADDR(last_pkmap_nr);

     //将线性地址映射到page

     set_pte(&(pkmap_page_table[last_pkmap_nr]), mk_pte(page, kmap_prot));

     //将其引用计数置1

     pkmap_count[last_pkmap_nr] = 1;

     //更新page的线性地址

     set_page_address(page, (void *)vaddr);

     return vaddr;

}

Kunmap()的实现如下:

void kunmap(struct page *page)

{

     //不能在中断中

     if (in_interrupt())

         BUG();

     //如果不是高端页面,直接返回

     if (page < highmem_start_page)

         return;

     //清除掉映射关系

     kunmap_high(page);

}

转入kunmap_high():

void fastcall kunmap_high(struct page *page)

{

     unsigned long vaddr;

     unsigned long nr;

     int need_wakeup;

     spin_lock(&kmap_lock);

     //取得页面的虚拟地址

     vaddr = (unsigned long)page_address(page);

     if (!vaddr)

         BUG();

     //将地址转换为序号

     // #define PKMAP_NR(virt)  ((virt-PKMAP_BASE) >> PAGE_SHIFT)

     nr = PKMAP_NR(vaddr);

     need_wakeup = 0;

     //计算引用计数

     switch (--pkmap_count[nr]) {

     case 0:

         BUG();

     case 1:

         //如果只有一个引用了,说明这页面是空闲的。看看是否有进程在等待

         //因为TLB刷新之后,会将其减1

         need_wakeup = waitqueue_active(&pkmap_map_wait);

     }

     spin_unlock(&kmap_lock);

//唤醒等待的进程

     if (need_wakeup)

         wake_up(&pkmap_map_wait);

}

二:临时内存映射

临时内存映射在内核中的接口为:kmap_atomic()/kunmap_atomic()。它映射的地址是从FIXADDR_STARTFIXADDR_TOP的区域。其中,每个cpu都在里面占用了一段空间。

在内核中,enum fixed_addresses表示各种临时映射所占的序号。结构如下:

enum fixed_addresses {

     FIX_HOLE,

     FIX_VSYSCALL,

#ifdef CONFIG_X86_LOCAL_APIC

     FIX_APIC_BASE,     /* local (CPU) APIC) -- required for SMP or not */

#else

     FIX_VSTACK_HOLE_1,

#endif

#ifdef CONFIG_X86_IO_APIC

     FIX_IO_APIC_BASE_0,

     FIX_IO_APIC_BASE_END = FIX_IO_APIC_BASE_0 + MAX_IO_APICS-1,

#endif

#ifdef CONFIG_X86_VISWS_APIC

     FIX_CO_CPU,   /* Cobalt timer */

     FIX_CO_APIC,  /* Cobalt APIC Redirection Table */

     FIX_LI_PCIA,  /* Lithium PCI Bridge A */

     FIX_LI_PCIB,  /* Lithium PCI Bridge B */

#endif

     FIX_IDT,

     FIX_GDT_1,

     FIX_GDT_0,

     FIX_TSS_3,

     FIX_TSS_2,

     FIX_TSS_1,

     FIX_TSS_0,

     FIX_ENTRY_TRAMPOLINE_1,

     FIX_ENTRY_TRAMPOLINE_0,

#ifdef CONFIG_X86_CYCLONE_TIMER

     FIX_CYCLONE_TIMER, /*cyclone timer register*/

     FIX_VSTACK_HOLE_2,

#endif

     FIX_KMAP_BEGIN,    /* reserved pte's for temporary kernel mappings */

     FIX_KMAP_END = FIX_KMAP_BEGIN+(KM_TYPE_NR*NR_CPUS)-1,

#ifdef CONFIG_ACPI_BOOT

     FIX_ACPI_BEGIN,

     FIX_ACPI_END = FIX_ACPI_BEGIN + FIX_ACPI_PAGES - 1,

#endif

#ifdef CONFIG_PCI_MMCONFIG

     FIX_PCIE_MCFG,

#endif

     __end_of_permanent_fixed_addresses,

     /* temporary boot-time mappings, used before ioremap() is functional */

#define NR_FIX_BTMAPS  16

     FIX_BTMAP_END = __end_of_permanent_fixed_addresses,

     FIX_BTMAP_BEGIN = FIX_BTMAP_END + NR_FIX_BTMAPS - 1,

     FIX_WP_TEST,

     __end_of_fixed_addresses

}

每一段序号都有自己的用途,例如APIC用,IDT用。FIX_KMAP_BEGINFIX_KMAP_END是分配给模块或者做做临时用途使用的。内核这样分配是为了保证同一个区不能有两上映射关系。我们在后面可以看到,如果一个区已经映射到了一个物理页面。如果再在这个区上建立映射关系,就会把它以前的映射覆盖掉。所以,内核应该根据具体的用途选择特定的序号,以免产生不可预料的错误。同时使用完临时映射之后应该立即释放当前的映射,这也是个良好的习惯.

FIX_KMAP_END的大小被定义成:FIX_KMAP_BEGIN+(KM_TYPE_NR*NR_CPUS)-1。也就是FIX_KMAP_BEGINFIX_KMAP_END的大小是KM_TYPE_NR*NR_CPUS.

KM_TYPE_NR的定义如下:

enum km_type {

     /*

      * IMPORTANT: don't move these 3 entries, be wary when adding entries,

      * the 4G/4G virtual stack must be THREAD_SIZE aligned on each cpu.

      */

     KM_BOUNCE_READ,

     KM_VSTACK_BASE,

     KM_VSTACK_TOP = KM_VSTACK_BASE + STACK_PAGE_COUNT-1,

     KM_LDT_PAGE15,

     KM_LDT_PAGE0 = KM_LDT_PAGE15 + 16-1,

     KM_USER_COPY,

     KM_VSTACK_HOLE,

     KM_SKB_SUNRPC_DATA,

     KM_SKB_DATA_SOFTIRQ,

     KM_USER0,

     KM_USER1,

     KM_BIO_SRC_IRQ,

     KM_BIO_DST_IRQ,

     KM_PTE0,

     KM_PTE1,

     KM_IRQ0,

     KM_IRQ1,

     KM_SOFTIRQ0,

     KM_SOFTIRQ1,

     KM_CRASHDUMP,

     KM_UNUSED,

     KM_TYPE_NR

}

smp系统中,每个CPU都有这样的一段映射区域

kmap_pteFIX_KMAP_BEGIN项所对应的页表项.它的初始化如下:

#define kmap_get_fixmap_pte(vaddr)                      \

     pte_offset_kernel(pmd_offset(pgd_offset_k(vaddr), (vaddr)), (vaddr))

void __init kmap_init(void)

{

     kmap_pte = kmap_get_fixmap_pte(__fix_to_virt(FIX_KMAP_BEGIN));

}

#define __fix_to_virt(x)    (FIXADDR_TOP - ((x) << PAGE_SHIFT))

了解上述关系之后,可以看具体的代码了:

void *kmap_atomic(struct page *page, enum km_type type)

{

     enum fixed_addresses idx;

     unsigned long vaddr;

     //如果页面不是高端内存

     inc_preempt_count();

     if (page < highmem_start_page)

         return page_address(page);

     //smp中所对应的序号

     idx = type + KM_TYPE_NR*smp_processor_id();

     //在映射断中求取序号所在的虚拟地址

     vaddr = __fix_to_virt(FIX_KMAP_BEGIN + idx);

#ifdef CONFIG_DEBUG_HIGHMEM

     if (!pte_none(*(kmap_pte-idx)))

         BUG();

#endif

     //根据页面属性建立不同的页面项.并根据FIX_KMAP_BEGIN的页表项,求出序号所在的页表项

     if (PageReserved(page))

         set_pte(kmap_pte-idx, mk_pte(page, kmap_prot_nocache));

     else

         set_pte(kmap_pte-idx, mk_pte(page, kmap_prot));

     //TLB中刷新这个地址

     __flush_tlb_one(vaddr);

     return (void*) vaddr;

}

我们在这个过程看中,并没有去判断一个区域有没有被映射。但这样也有一个好处,就是不会造成睡眠,因为它总有一个区域可供其映射。与永久内核映射相比,速度显得稍微要快一点。

临时内核映射的断开接口为:kunmap_atomic()

void kunmap_atomic(void *kvaddr, enum km_type type)

{

//调试用,忽略

#ifdef CONFIG_DEBUG_HIGHMEM

     unsigned long vaddr = (unsigned long) kvaddr & PAGE_MASK;

     enum fixed_addresses idx = type + KM_TYPE_NR*smp_processor_id();

     if (vaddr < FIXADDR_START) { // FIXME

         dec_preempt_count();

         preempt_check_resched();

         return;

     }

     if (vaddr != __fix_to_virt(FIX_KMAP_BEGIN+idx))

         BUG();

     /*

      * force other mappings to Oops if they'll try to access

      * this pte without first remap it

      */

     pte_clear(kmap_pte-idx);

     __flush_tlb_one(vaddr);

#endif

     dec_preempt_count();

     preempt_check_resched();

}


阅读(1476) | 评论(0) | 转发(0) |
0

上一篇:LRU 算法

下一篇:差分约束系统(POJ1201)

给主人留下些什么吧!~~