《LINUX3.0内核源代码分析》第四章：内存管理(5)-xiebaoyou-ChinaUnix博客

not only linux, but also other kernelsxiebaoyou.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

xiebaoyou

博客访问： 1052774
博文数量： 61
博客积分： 958
博客等级：准尉
技术积分： 2486
用户组：普通用户
注册时间： 2011-05-21 13:36

文章分类

全部博文（61）

未分配的博文（61）

文章存档

2020年（2）

2019年（1）

2018年（5）

2017年（7）

2015年（2）

2014年（4）

2012年（10）

2011年（30）

我的朋友

相关博文

《LINUX3.0内核源代码分析》第四章：内存管理(5)

分类： LINUX

2011-12-11 14:36:26

摘要：本文主要讲述linux如何处理ARM cortex A9多核处理器的内存管理部分。主要包括对伙伴系统算法流程的介绍。

法律声明：《LINUX3.0内核源代码分析》系列文章由谢宝友（）发表于http://xiebaoyou.blog.chinaunix.net，文章中的LINUX3.0源代码遵循GPL协议。除此以外，文档中的其他内容由作者保留所有版权。谢绝转载。

1.1.1 伙伴系统 1.1.1.1 从缓存中释放单个页面到伙伴系统

当释放单个页面时，页面首先放回到每CPU的页面缓存中，以减少自旋锁的使用。当页面缓存中的页面数量超过阀值时，再将页面放回到伙伴系统中。相应的函数是free_pcppages_bulk：

/**
* 从每CPU缓存中释放一定数量的页面到伙伴系统中。
*/
static void free_pcppages_bulk(struct zone *zone, int count,
struct per_cpu_pages *pcp)
{
int migratetype = 0;
int batch_free = 0;
int to_free = count;
/**
* 虽然管理区可以按照CPU节点分类，但是也可以跨CPU节点进行内存分配，因此这里需要用自旋锁保护管理区
* 使用每CPU缓存的目的，也是为了减少使用这把锁。
*/
spin_lock(&zone->lock);
/* all_unreclaimable代表了内存紧张程度，释放内存后，将此标志清除 */
zone->all_unreclaimable = 0;
zone->pages_scanned = 0;/* pages_scanned代表最后一次内存紧张以来，页面回收过程已经扫描的页数。目前正在释放内存，将此清0，待回收过程随后回收时重新计数 */
while (to_free) {/* 连续释放指定数量的页面到伙伴系统 */
struct page *page;
struct list_head *list;
/* 这里是从MIGRATE_UNMOVABLE到MIGRATE_MOVABLE三个每CPU缓存链表中依次搜索一个可释放的页面，直到找到一个可以回收的缓存链表。 */
do {
batch_free++;/* batch_free是最后扫描的链表索引 */
if (++migratetype == MIGRATE_PCPTYPES)/* 只从MIGRATE_UNMOVABLE..MIGRATE_MOVABLE三个链表中选择页面。从这三个链表中循环选择回收的页面 */
migratetype = 0;
list = &pcp->lists[migratetype];
} while (list_empty(list));/* 如果当前链表为空，则从下一个缓存链表中释放页面 */
/* This is the only non-empty list. Free them all. */
if (batch_free == MIGRATE_PCPTYPES)/* 只有一个缓存链表中有可回收页面，则从该链表中释放所有页面 */
batch_free = to_free;
do {/* 本循环从最后一个页面缓存链表中释放多个页面到伙伴系统，越靠后的缓存链表，释放的页面数量越多 */
page = list_entry(list->prev, struct page, lru);/* 取缓存链表的最后一个元素，要么是最早放到缓存中的页面(其硬件缓存的热度也最低)，要么就是"冷"页，不需要考虑硬件缓存 */
/* must delete as __free_one_page list manipulates */
list_del(&page->lru);/* 将页面从链表中摘除 */
/* MIGRATE_MOVABLE list may include MIGRATE_RESERVEs */
/* 将页面释放回伙伴系统。注意这里没有用migratetype变量，而是用页面属性中的migratetype。原因请参见英文注释 */
__free_one_page(page, zone, 0, page_private(page));
trace_mm_page_pcpu_drain(page, 0, page_private(page));/* 调试代码 */
} while (--to_free && --batch_free && !list_empty(list));
}
/* 空闲页面计数 */
__mod_zone_page_state(zone, NR_FREE_PAGES, count);
spin_unlock(&zone->lock);
}

1.1.1.2 释放多个页面到伙伴系统

一次性分配和释放多个页面，都不经过每CPU缓存，而是直接从伙伴系统中分配、直接返回给伙伴系统。

向伙伴系统释放页面的函数是free_one_page，这个函数有点名不副实。它并不是指释放一个页面，而是释放多个页面，不知道内核为何取如此奇怪的名字。

/**
* 将多个页面释放到伙伴系统。
*/
static void free_one_page(struct zone *zone, struct page *page, int order,
int migratetype)
{
spin_lock(&zone->lock);/* 获得管理区的自旋锁 */
zone->all_unreclaimable = 0;/* 只要是释放了页面，都需要将此两个标志清0，表明内存不再紧张的事实 */
zone->pages_scanned = 0;
/* 在锁的保护下，调用__free_one_page操作伙伴系统，将页面释放回伙伴系统 */
__free_one_page(page, zone, order, migratetype);
/* 管理区空闲页面计数 */
__mod_zone_page_state(zone, NR_FREE_PAGES, 1 << order);
spin_unlock(&zone->lock);/* 释放管理区自旋锁 */
}

在获得管理区锁的情况下，不管是释放一个页还是多个页到伙伴系统，均使用函数__free_one_page：

/**
* 在获得管理区自旋锁的情况下，将页面归还给伙伴系统。
*/
static inline void __free_one_page(struct page *page,
struct zone *zone, unsigned int order,
int migratetype)
{
unsigned long page_idx;
unsigned long combined_idx;
unsigned long uninitialized_var(buddy_idx);
struct page *buddy;
if (unlikely(PageCompound(page)))/* 要释放的页是巨页的一部分 */
if (unlikely(destroy_compound_page(page, order)))/* 解决巨页标志，如果巨页标志有问题，则退出 */
return;
VM_BUG_ON(migratetype == -1);
page_idx = page_to_pfn(page) & ((1 << MAX_ORDER) - 1);
VM_BUG_ON(page_idx & ((1 << order) - 1));/* 如果被释放的页不是所释放阶的第一个页，则说明参数有误 */
VM_BUG_ON(bad_range(zone, page));/* 检查页面是否处于zone之中 */
while (order < MAX_ORDER-1) {/* 释放页以后，当前页面可能与前后的空闲页组成更大的空闲页面，直到放到最大阶的伙伴系统中 */
buddy_idx = __find_buddy_index(page_idx, order);/* 找到与当前页属于同一个阶的伙伴页面索引 */
buddy = page + (buddy_idx - page_idx);/* 计算伙伴页面的页地址 */
if (!page_is_buddy(page, buddy, order))/* 判断预期的伙伴页面是否与当前页处于同一个管理区，并且是否处于空闲状态。如果不是，则不能与该页合并为大的伙伴，退出 */
break;
/* Our buddy is free, merge with it and move up one order. */
list_del(&buddy->lru);/* 如果能够合并，则将伙伴页从伙伴系统中摘除 */
zone->free_area[order].nr_free--;/* 同时减少当前阶中的空闲页计数 */
rmv_page_order(buddy);/* 清除伙伴页的伙伴标志，因为该页会被合并 */
combined_idx = buddy_idx & page_idx;
/* 将当前页与伙伴页合并后，新的页面起始地址 */
page = page + (combined_idx - page_idx);
page_idx = combined_idx;
order++;
}
/* 设置伙伴页中第一个空闲页的阶 */
set_page_order(page, order);
/**
* 如果当前合并后的页不是最大阶的，那么将当前空闲页放到伙伴链表的最后。
* 这样，它将不会被很快被分配，更有可能与更高阶页面进行合并。
*/
if ((order < MAX_ORDER-2) && pfn_valid_within(page_to_pfn(buddy))) {
struct page *higher_page, *higher_buddy;
/* 计算更高阶的页面索引及页面地址 */
combined_idx = buddy_idx & page_idx;
higher_page = page + (combined_idx - page_idx);
buddy_idx = __find_buddy_index(combined_idx, order + 1);
higher_buddy = page + (buddy_idx - combined_idx);
if (page_is_buddy(higher_page, higher_buddy, order + 1)) {/* 更高阶的页面是空闲的，属于伙伴系统 */
list_add_tail(&page->lru,
&zone->free_area[order].free_list[migratetype]);/* 将当前页面合并到空闲链表的最后，尽量避免将它分配出去 */
goto out;
}
}
/* 更高阶的页面已经分配出去，那么将当前页面放到链表前面 */
list_add(&page->lru, &zone->free_area[order].free_list[migratetype]);
out:
/* 将当前阶的空闲计数加1 */
zone->free_area[order].nr_free++;
}

1.1.1.3 从伙伴系统中获得页面

从伙伴系统中分配页面的函数是buffered_rmqueue：

/**
* 从伙伴系统中分配页面
*/
static inline
struct page *buffered_rmqueue(struct zone *preferred_zone,
struct zone *zone, int order, gfp_t gfp_flags,
int migratetype)
{
unsigned long flags;
struct page *page;
int cold = !!(gfp_flags & __GFP_COLD);/* 如果分配参数指定了__GFP_COLD标志，则设置cold标志 */
again:
if (likely(order == 0)) {/* 分配单页，需要管理每CPU页面缓存 */
struct per_cpu_pages *pcp;
struct list_head *list;
/* 这里需要关中断，因为内存回收过程可能发送核间中断，强制每个核从每CPU缓存中释放页面。而且中断处理函数也会分配单页。 */
local_irq_save(flags);
/* 取得本CPU的页面缓存对象 */
pcp = &this_cpu_ptr(zone->pageset)->pcp;
/* 根据用户指定的迁移类型，从指定的迁移缓存链表中分配 */
list = &pcp->lists[migratetype];
if (list_empty(list)) {/* 缓存为空，需要扩大缓存的大小 */
/* 从伙伴系统中摘除一批页面到缓存中，补充的页面个数由每CPU缓存的batch字段指定 */
pcp->count += rmqueue_bulk(zone, 0,
pcp->batch, list,
migratetype, cold);
/* 如果链表仍然为空，那么说明伙伴系统中页面也没有了，分配失败。 */
if (unlikely(list_empty(list)))
goto failed;
}
if (cold)
/* 如果分配的页面不需要考虑硬件缓存(注意不是每CPU页面缓存)，则取出链表的最后一个节点返回给上层 */
page = list_entry(list->prev, struct page, lru);
else
/* 如果要考虑硬件缓存，则取出链表的第一个页面，这个页面是最近刚释放到每CPU缓存的，缓存热度更高 */
page = list_entry(list->next, struct page, lru);
/* 将页面从每CPU缓存链表中取出，并将每CPU缓存计数减1 */
list_del(&page->lru);
pcp->count--;
} else {/* 分配的是多个页面，不需要考虑每CPU页面缓存，直接从系统中分配 */
if (unlikely(gfp_flags & __GFP_NOFAIL)) {/* __GFP_NOFAIL已经不推荐使用，不再分析 */
/*
* __GFP_NOFAIL is not to be used in new code.
*
* All __GFP_NOFAIL callers should be fixed so that they
* properly detect and handle allocation failures.
*
* We most definitely don't want callers attempting to
* allocate greater than order-1 page units with
* __GFP_NOFAIL.
*/
WARN_ON_ONCE(order > 1);
}
/* 关中断，并获得管理区的锁 */
spin_lock_irqsave(&zone->lock, flags);
/* 调用__rmqueue从伙伴系统中分配页面 */
page = __rmqueue(zone, order, migratetype);
/* 这里仅仅打开自旋锁，待后面统计计数设置完毕后再开中断 */
spin_unlock(&zone->lock);
if (!page)
goto failed;
/* 已经分配了1 << order个页面，这里进行管理区空闲页面统计计数 */
__mod_zone_page_state(zone, NR_FREE_PAGES, -(1 << order));
}
/* 事件统计计数，调试用 */
__count_zone_vm_events(PGALLOC, zone, 1 << order);
zone_statistics(preferred_zone, zone, gfp_flags);
local_irq_restore(flags);/* 恢复中断 */
VM_BUG_ON(bad_range(zone, page));
/**
* 这里进行安全性检查，并进行一些善后工作。
* 如果页面标志破坏，返回的页面出现了问题，则返回试图分配其他页面。
* 内核会有这样的BUG存在吗?除了驱动或者模块有问题外?
*/
if (prep_new_page(page, order, gfp_flags))
goto again;
return page;
failed:
local_irq_restore(flags);
return NULL;
}

这里使用了一个辅助函数rmqueue_bulk：

/**
* 从伙伴系统中批量取出多个页面。
* 用于从伙伴系统中批量取出页面放到每CPU页面缓存中
*/
static int rmqueue_bulk(struct zone *zone, unsigned int order,
unsigned long count, struct list_head *list,
int migratetype, int cold)
{
int i;
spin_lock(&zone->lock);/* 上层函数已经关了中断，这里需要操作管理区，获取管理区的自旋锁 */
for (i = 0; i < count; ++i) {/* 重复指定的次数，从伙伴系统中分配页面 */
/* 从伙伴系统中取出页面 */
struct page *page = __rmqueue(zone, order, migratetype);
/* 伙伴系统中没有空闲页了，退出 */
if (unlikely(page == NULL))
break;
/*
* Split buddy pages returned by expand() are received here
* in physical page order. The page is added to the callers and
* list and the list head then moves forward. From the callers
* perspective, the linked list is ordered by page number in
* some conditions. This is useful for IO devices that can
* merge IO requests if the physical pages are ordered
* properly.
*/
if (likely(cold == 0))/* 根据调用者的要求，将页面放到每CPU缓存链表的头部或者尾部 */
list_add(&page->lru, list);
else
list_add_tail(&page->lru, list);
/* 设置页面的迁移类型 */
set_page_private(page, migratetype);
list = &page->lru;
}
/* 递减管理区的空闲页面计数。 */
__mod_zone_page_state(zone, NR_FREE_PAGES, -(i << order));
spin_unlock(&zone->lock);/* 释放管理区的自旋锁 */
return i;
}

1.1.1.4 __rmqueue函数

伙伴系统分配页面的总入口是__rmqueue函数:

/**
* 从管理区的伙伴系统中取出页面。该函数是分配伙伴页的真正入口。
* zone: 从该管理区的伙伴系统中分配页面.
* order: 要分配的页面阶数.即分配的页面数是2^order
* migratetype: 优先从本参数指定的迁移类型中分配页面.如果失败,再从备用迁移列表中分配.
*/
static struct page *__rmqueue(struct zone *zone, unsigned int order,
int migratetype)
{
struct page *page;
retry_reserve:
/* 优先从指定的迁移类型链表中分配页面 */
page = __rmqueue_smallest(zone, order, migratetype);
/**
* 如果满足以下两个条件,就从备用链表中分配页面:
* 快速流程没有分配到页面,需要从备用迁移链表中分配.
* 当前不是从保留的链表中分配.因为保留的链表是最后可用的链表,不能从该链表分配的话,说明本管理区真的没有可用内存了.
*/
if (unlikely(!page) && migratetype != MIGRATE_RESERVE) {
/* 从备用链表中分配页面. */
page = __rmqueue_fallback(zone, order, migratetype);
/*
* Use MIGRATE_RESERVE rather than fail an allocation. goto
* is used because __rmqueue_smallest is an inline function
* and we want just one call site
*/
if (!page) {/* 备用链表中没有分配到页面,看来得吃老本,从保留链表中分配页面了 */
migratetype = MIGRATE_RESERVE;
goto retry_reserve;/* 跳转到retry_reserve,从保留的链表中分配页面 */
}
}
/* 调试代码,很高兴可以飘过 */
trace_mm_page_alloc_zone_locked(page, order, migratetype);
return page;
}

快速流程的处理函数是__rmqueue_smallest:

/**
* 遍历指定迁移类型的伙伴系统链表,从链表中移动最小数量的页面返回给调用者.这是伙伴系统的快速处理流程.
* zone: 在该管理区的伙伴系统中分配页面
* order: 要分配的页面数量阶.
* migratetype: 在该迁移类型的链表中获取页面
*/
static inline
struct page *__rmqueue_smallest(struct zone *zone, unsigned int order,
int migratetype)
{
unsigned int current_order;
struct free_area * area;
struct page *page;
/* Find a page of the appropriate size in the preferred list */
/* 从指定的阶到最大阶进行遍历,直到找到一个可以分配的链表 */
for (current_order = order; current_order < MAX_ORDER; ++current_order) {
/* 找到该阶对应的空闲页面链表 */
area = &(zone->free_area[current_order]);
/* 指定迁移类型的空闲链表为空,搜索下一阶的链表 */
if (list_empty(&area->free_list[migratetype]))
continue;
/* 取出链表的第一个元素 */
page = list_entry(area->free_list[migratetype].next,
struct page, lru);
/* 将第一个元素从链表中摘除 */
list_del(&page->lru);
/* rmv_page_order将页面的伙伴标志位清0,表示该页不再属于伙伴系统.同时将Private标志清0 */
rmv_page_order(page);
/* 当前阶的空闲计数减1 */
area->nr_free--;
/**
* 如果当前阶没有可用的空闲页,而必须将高阶的空闲页面分割,则expand将高阶的页面分割后放回伙伴系统
* 如:我们将阶为4的页面分割,并向上层返回阶为2的页面,那么,我们需要将其中阶为3,2的页面放回伙伴系统.
*/
expand(zone, page, order, current_order, area, migratetype);
return page;
}
return NULL;
}

辅助函数expand:

/**
* 将高阶的页面分割成低阶的页面,并放回伙伴系统.
* low: 分配出去的低阶
* high: 被分割的高阶
*/
static inline void expand(struct zone *zone, struct page *page,
int low, int high, struct free_area *area,
int migratetype)
{
unsigned long size = 1 << high;/* 要被分割的高阶页面数量 */
/**
* 我们假设将阶为4的页面组分割,并分配出去阶为2的页
* 那么我们需要向伙伴系统中分别加入阶为2,3的页面组.
* 这种情况下,high=4,low=2
*/
while (high > low) {
area--;/* area,high,size分别表示本次要放回伙伴系统的链表指针,阶,当前阶的页面数量 */
high--;
size >>= 1;
/* 检查要加入伙伴系统的第一页是否在管理区的范围内 */
VM_BUG_ON(bad_range(zone, &page[size]));
/* 将第一页链入相应的迁移类型链表中 */
list_add(&page[size].lru, &area->free_list[migratetype]);
/* 该阶的空闲页面计数值加1 */
area->nr_free++;
/* 标记页面的阶 */
set_page_order(&page[size], high);
}
}

伙伴系统的慢速处理流程是:

/**
* 如果管理区的当前迁移链表中没有可分配的页面时,则从备用迁移链表中分配
*/
static inline struct page *
__rmqueue_fallback(struct zone *zone, int order, int start_migratetype)
{
struct free_area * area;
int current_order;
struct page *page;
int migratetype, i;
/* Find the largest possible block of pages in the other list */
/* 从最高阶搜索,这样可以尽量的将其他迁移列表中的大块分割,避免形成过多的碎片 */
for (current_order = MAX_ORDER-1; current_order >= order;
--current_order) {
for (i = 0; i < MIGRATE_TYPES - 1; i++) {/* 遍历备用的迁移链表 */
migratetype = fallbacks[start_migratetype][i];
/* MIGRATE_RESERVE handled later if necessary */
/* 本函数不处理MIGRATE_RESERVE类型的迁移链表,如果本函数返回NULL,则上层函数直接从MIGRATE_RESERVE中分配 */
if (migratetype == MIGRATE_RESERVE)
continue;
area = &(zone->free_area[current_order]);
/* 备用链表没有可用的页面,继续搜索下一链表 */
if (list_empty(&area->free_list[migratetype]))
continue;
/* 取备用链表的第一个元素 */
page = list_entry(area->free_list[migratetype].next,
struct page, lru);
/* 备用链表的当前阶计数减1 */
area->nr_free--;
/*
* If breaking a large block of pages, move all free
* pages to the preferred allocation list. If falling
* back for a reclaimable kernel allocation, be more
* aggressive about taking ownership of free pages
*/
if (unlikely(current_order >= (pageblock_order >> 1)) ||/* 要分割的页面是一个大页面,则将整个页面全部迁移到当前迁移类型的链表中,这样可以避免过多的碎片 */
start_migratetype == MIGRATE_RECLAIMABLE ||/* 目前分配的是可回收页面,这类页面有突发的特点,将页面全部迁移到可回收链表中,可以避免将其他迁移链表分割成太多的碎片 */
page_group_by_mobility_disabled) {/* 指定了迁移策略,总是将被分割的页面迁移 */
unsigned long pages;
/* 将页面从当前迁移链表转换到start_migratetype指定的迁移链表中 */
pages = move_freepages_block(zone, page,
start_migratetype);
/* Claim the whole block if over half of it is free */
/* pages是移动的页面数,如果可移动的页面数量较多,则将整个大内存块的迁移类型修改 */
if (pages >= (1 << (pageblock_order-1)) ||
page_group_by_mobility_disabled)
set_pageblock_migratetype(page,
start_migratetype);
migratetype = start_migratetype;
}
/* Remove the page from the freelists */
/* 将页面从伙伴伙伴系统链表中移除 */
list_del(&page->lru);
rmv_page_order(page);
/* Take ownership for orders >= pageblock_order */
if (current_order >= pageblock_order)
change_pageblock_range(page, current_order,
start_migratetype);
/* 将大阶的页面块中未用的部分还回伙伴系统 */
expand(zone, page, order, current_order, area, migratetype);
trace_mm_page_alloc_extfrag(page, order, current_order,
start_migratetype, migratetype);
return page;
}
}
return NULL;
}

阅读(6763) | 评论(1) | 转发(11) |

上一篇：《LINUX3.0内核源代码分析》第四章：内存管理(4)

下一篇：LFS是好东西

给主人留下些什么吧！~~

edsionte2012-03-12 19:37:02

请问宝哥：
page_idx = page_to_pfn(page) & ((1 << MAX_ORDER) - 1);
这句话中为何要与后面那个？
page_idx和页框号不同吗？

回复 | 举报

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6