首页 > 代码库 > Memory Allocation API In Linux Kernel && Linux Userspace、kmalloc vmalloc Difference、Kernel Large Section Memory Allocation

Memory Allocation API In Linux Kernel && Linux Userspace、kmalloc vmalloc Difference、Kernel Large Section Memory Allocation

目录

1. 内核态(ring0)内存申请和用户态(ring3)内存申请2. 内核态(ring0)内存申请:kmalloc/kfree、vmalloc/vfree3. 用户态(ring3)内存申请:malloc/free4. 内核内存申请原则5. 内核中分配物理地址连续的大段内存

 

1. 内核态(ring0)内存申请和用户态(ring3)内存申请 

0x1: 差异点

在内核中申请内存和在用户空间中申请内存不同,有以下因素引起了复杂性,包括

1. 内核的虚拟和物理地址被限制到1GB 2. 内核的内存不能PAGEABLE3. 内核通常需要连续的物理地址 4. 通常内核申请内存是不能睡眠 5. 内核中的错误比其他地方的错误有更多的代价

内核态的内存申请API和用户态的内存申请API使用方法很类似,所不同的是,因为内核态常驻运行的特殊性,内核的内存申请在可交换型、空间连续性方面会有一些差别,我们接下来深入学习一下它们

Relevant Link:

http://blog.csdn.net/newfeicui/article/details/6437917

 

2. 内核态(ring0)内存申请:kmalloc/kfree、vmalloc/vfree

0x1: kmalloc函数原型

\linux-3.15.5\include\linux\slab.h

void *__kmalloc(size_t size, gfp_t flags);

参数说明,linux-3.15.5\include\linux\gfp.h

1. size_t size: 要分配的块的大小2. gfp_t flags: 分配标志(flags),用于指定kmalloc的行为     1) ___GFP_DMA: #define ___GFP_DMA 0x01u: 要求分配在能够 DMA 的内存区    2) ___GFP_HIGHMEM: #define ___GFP_HIGHMEM 0x02u: 指示分配的内存可以位于高端内存    3) ___GFP_DMA32: #define ___GFP_DMA32 0x04u:     4) ___GFP_MOVABLE: #define ___GFP_MOVABLE 0x08u:     5) ___GFP_WAIT: #define ___GFP_WAIT 0x10u: Allocation will not sleep.    6) ___GFP_HIGH: #define ___GFP_HIGH 0x20u: 标识了一个高优先级请求, 它被允许来消耗甚至被内核保留给紧急状况的最后的内存页    7) ___GFP_IO: #define ___GFP_IO 0x40u: The allocator can start disk I/O.    8) ___GFP_FS: #define ___GFP_FS 0x80u: The allocator can start filesystem I/O.    9) ___GFP_COLD: #define ___GFP_COLD 0x100u: The allocator should use cache cold pages.    10) ___GFP_NOWARN: #define ___GFP_NOWARN 0x200u: 阻止内核来发出警告(使用 printk ),当一个分配无法满足    11) ___GFP_REPEAT: #define ___GFP_REPEAT 0x400u: The allocator will repeat the allocation if it fails, but the allocation can potentially fail.    12) ___GFP_NOFAIL: #define ___GFP_NOFAIL 0x800u: The allocator will indefinitely repeat the allocation. The allocation cannot fail.    13) ___GFP_NORETRY: #define ___GFP_NORETRY 0x1000u: The allocator will never retry if the allocation fails.    14) ___GFP_MEMALLOC: #define ___GFP_MEMALLOC 0x2000u:     15) ___GFP_COMP: #define ___GFP_COMP 0x4000u: Add compound page metadata. Used internally by the hugetlb code.    16) ___GFP_ZERO: #define ___GFP_ZERO 0x8000u:     17) ___GFP_NOMEMALLOC: #define ___GFP_NOMEMALLOC 0x10000u    18) ___GFP_HARDWALL #define ___GFP_HARDWALL 0x20000u    19) ___GFP_THISNODE: #define ___GFP_THISNODE 0x40000u    20) ___GFP_RECLAIMABLE: #define ___GFP_RECLAIMABLE 0x80000u    21) ___GFP_KMEMCG: #define ___GFP_KMEMCG 0x100000u    22) ___GFP_NOTRACK: #define ___GFP_NOTRACK 0x200000u    23) ___GFP_NO_KSWAPD: #define ___GFP_NO_KSWAPD 0x400000u    24) ___GFP_OTHER_NODE: #define ___GFP_OTHER_NODE 0x800000u    25) ___GFP_WRITE: #define ___GFP_WRITE 0x1000000u    /*    除了系统默认的标志位之后,实际编程中最常用的是多个宏定义"异或叠加"的标志位    */    1) GFP_KERNEL: #define GFP_KERNEL (__GFP_WAIT | __GFP_IO | __GFP_FS)    2) GFP_ATOMIC: #define GFP_ATOMIC (__GFP_HIGH): 用来从中断处理和进程上下文之外的其他代码中分配内存. 从不睡眠    3) GFP_USER: #define GFP_USER    (__GFP_WAIT | __GFP_IO | __GFP_FS | __GFP_HARDWALL): 用来为用户空间页来分配内存; 它可能睡眠.

0x2: kmalloc使用方法

1. kmalloc()分配的内存处于3GB~high_memory之间的一段连续内存,这段内核空间与物理内存的映射一一对应2. Linux处理内存分配通过创建一套固定大小的内存对象池。分配请求被这样来处理,进入一个持有足够大的对象的池子并且将整个内存块递交给请求者。驱动开发者应当记住的一件事情是,内核只能分配某些预定义的,固定大小的字节数组3. kmalloc 能够处理的最小分配是 32 或者 64 字节(或者是其整数倍),依赖系统的体系所使用的页大小,所以使用kmalloc申请一个任意数量内存,我们可能得到稍微多于请求的,至多是 2 倍数量4. kmalloc 能够分配的内存块的大小有一个上限。这个限制随着体系和内核配置选项而变化。为了提高我们的LKM代码的兼容性和可移植性,我们可以申请分配的内存最大只能 128 KB5. kmalloc特殊之处在于它分配的内存是"物理上连续"的,这对于要进行DMA的设备十分重要 6. kmalloc最大只能开辟(128k-16)KB,16个字节是被页描述符结构占用了 7. 很多硬件需要一块比较大的连续内存用作DMA传送。这块内存需要一直驻留在内存,不能被交换到文件中去。但是kmalloc最多只能开辟大小为32xPAGE_SIZE的内存,一般的PAGE_SIZE = 4kB,也就是kmalloc最多只能申请128kB的大小的内存 

Relevant Link:

http://oss.org.cn/kernel-book/ldd3/ch08.htmlhttp://people.netfilter.org/rusty/unreliable-guides/kernel-hacking/routines-kmalloc.htmlhttp://www.makelinux.net/books/lkd2/ch11lev1sec4https://www.kernel.org/doc/htmldocs/kernel-api/API-kmalloc.html

0x3: vmalloc函数原型

\linux-3.15.5\include\linux\vmalloc.h

void * vmalloc(unsigned long size)

source/mm/vmalloc.c

*__vmalloc(unsigned long size, gfp_t gfp_mask, pgprot_t prot){    return __vmalloc_node(size, 1, gfp_mask, prot, NUMA_NO_NODE, __builtin_return_address(0));}

__vmalloc_node

static void *__vmalloc_node(unsigned long size, unsigned long align, gfp_t gfp_mask, pgprot_t prot, int node, const void *caller){    return __vmalloc_node_range(size, align, VMALLOC_START, VMALLOC_END, gfp_mask, prot, node, caller);}

__vmalloc_node_range

void *__vmalloc_node_range(unsigned long size, unsigned long align,            unsigned long start, unsigned long end, gfp_t gfp_mask,            pgprot_t prot, int node, const void *caller){    struct vm_struct *area;    void *addr;    unsigned long real_size = size;    size = PAGE_ALIGN(size);    if (!size || (size >> PAGE_SHIFT) > totalram_pages)        goto fail;    area = __get_vm_area_node(size, align, VM_ALLOC | VM_UNINITIALIZED,                  start, end, node, gfp_mask, caller);    if (!area)        goto fail;    addr = __vmalloc_area_node(area, gfp_mask, prot, node);    if (!addr)        return NULL;    /*     * In this function, newly allocated vm_struct has VM_UNINITIALIZED     * flag. It means that vm_struct is not fully initialized.     * Now, it is fully initialized, so remove this flag here.     */    clear_vm_uninitialized_flag(area);    /*     * A ref_count = 2 is needed because vm_struct allocated in     * __get_vm_area_node() contains a reference to the virtual address of     * the vmalloc‘ed block.     */    kmemleak_alloc(addr, real_size, 2, gfp_mask);    return addr;fail:    warn_alloc_failed(gfp_mask, 0,              "vmalloc: allocation failure: %lu bytes\n",              real_size);    return NULL;}

__vmalloc_area_node

static void *__vmalloc_area_node(struct vm_struct *area, gfp_t gfp_mask,                 pgprot_t prot, int node){    const int order = 0;    struct page **pages;    unsigned int nr_pages, array_size, i;    gfp_t nested_gfp = (gfp_mask & GFP_RECLAIM_MASK) | __GFP_ZERO;    nr_pages = get_vm_area_size(area) >> PAGE_SHIFT;    array_size = (nr_pages * sizeof(struct page *));    area->nr_pages = nr_pages;    /* Please note that the recursion is strictly bounded. */    if (array_size > PAGE_SIZE) {        pages = __vmalloc_node(array_size, 1, nested_gfp|__GFP_HIGHMEM,                PAGE_KERNEL, node, area->caller);        area->flags |= VM_VPAGES;    } else {        pages = kmalloc_node(array_size, nested_gfp, node);    }    area->pages = pages;    if (!area->pages) {        remove_vm_area(area->addr);        kfree(area);        return NULL;    }    for (i = 0; i < area->nr_pages; i++) {        struct page *page;        gfp_t tmp_mask = gfp_mask | __GFP_NOWARN;        if (node == NUMA_NO_NODE)            page = alloc_page(tmp_mask);        else            page = alloc_pages_node(node, tmp_mask, order);        if (unlikely(!page)) {            /* Successfully allocated i pages, free them in __vunmap() */            area->nr_pages = i;            goto fail;        }        area->pages[i] = page;    }    if (map_vm_area(area, prot, &pages))        goto fail;    return area->addr;fail:    warn_alloc_failed(gfp_mask, order,              "vmalloc: allocation failure, allocated %ld of %ld bytes\n",              (area->nr_pages*PAGE_SIZE), area->size);    vfree(area->addr);    return NULL;}

从内核源代码中可以看出,vmalloc复用了kmalloc的内存申请的代码

0x4: vmalloc函数使用方法

char *buf;buf = vmalloc(16 * PAGE_SIZE); /* get 16 pages */if (!buf)        /* error! failed to allocate memory *//* * buf now points to at least a 16*PAGE_SIZE bytes * of virtually contiguous block of memory */

Relevant Link:

http://www.makelinux.net/books/lkd2/ch11lev1sec5http://www.kerneltravel.net/journal/v/mem.htm

 

3. 用户态(ring3)内存申请:malloc/free

Relevant Link:

http://www.cnblogs.com/hanyonglu/archive/2011/04/28/2031271.html

 

4. 内核内存申请原则

0x1: kmalloc

1. 要特别注意根据当前"CPU中断上下文",使用正确的标志位申请内存    1) 判断申请内存的时候可否睡眠,也就是调用kmalloc的时候能否被阻塞    2) 如果在一个中断处理,在中断处理的下半部分,或者有一个锁的时候,就不能被阻塞    3) 如果在一个进程上下文,也没有锁,则一般可以睡眠    4) 在kprobe的回调handle中,当前CPU处于"关中断"状态,这个时候就不能使用"GFP_KERNEL"标志位进行kmalloc内存申请,否则可能会因为发生kmalloc暂时申请不到内存而产生睡眠等待,继而继续产生CPU中断,然而在CPU关中断情况下,CPU是无法响应新的中断的,这个时候就会引起内核panic2. 如果可以睡眠(CPU可以响应新的中断),指定GFP_KERNEL 3. 如果不能睡眠(CPU当前无法响应新的中断),就指定GFP_ATOMIC 4. 如果需要DMA可以访问的内存,比如ISA或者有些PCI设备,就需要指定GFP_DMA 5. 需要对kmalloc返回的值检查NULL 6. 为了没有内存泄漏,需要用kfree()来释放内存

0x2: vmalloc

1. vmalloc()分配的内存在 VMALLOC_START~4GB之间的一段非连续内存区域,这段非连续内存区映射到物理内存也可能是非连续的2. 在内核空间中调用kmalloc()分配连续物理空间,而调用vmalloc()分配非物理连续空间 3. 把kmalloc()所分配内核空间中的地址称为"内核逻辑地址"4. 把vmalloc()分配的内核空间中的地址称"内核虚拟地址"5. vmalloc()在分配过程中须更新内核页表

0x3: kmalloc和vmalloc的区别

1. kmalloc保证分配的内存在物理上是连续的,kmalloc()分配的内存在0xBFFFFFFF-0xFFFFFFFF以上的内存中    1) kmalloc分配的是一段"非分页内存(not pageable memory)"    2) vmalloc分配的是一段"可分页内存(pageable memory)"2. vmalloc保证的是    1) 在虚拟地址空间上的连续    2) 物理地址非连续起始位置由VMALLOL_START来决定,一般作为交换区(可被交换到磁盘swap中)、模块的分配3. kmalloc能分配的大小有限,vmalloc和malloc能分配的大小相对较大(因为vmalloc还可以处理交换空间)4. vmalloc使用的正确场合是分配一大块,连续的,只在软件中存在的,用于缓冲的内存区域。不能在微处理器之外使用 5. vmalloc 中调用了 kmalloc(GFP—KERNEL),因此也不能应用于原子上下文 6. kmalloc分配内存是基于slab,因此slab的一些特性包括着色,对齐等都具备,性能较好。物理地址和逻辑地址都是连续的

Relevant Link:

http://blog.csdn.net/newfeicui/article/details/6437917http://blog.csdn.net/tigerjibo/article/details/6412881

 

5. 内核中分配物理地址连续的大段内存

在内核编程中,我们常常需要临时分配一块任意大小的物理地址连续的内存空间,下面介绍可以使用到的方法

0x1: kmalloc

由于采用了SLUB作为默认内存分配器, 所以 kmalloc 工作于 SLUB 分配器之上。内核初始化时,创建一组共 13 个通用对象的缓冲区。值得注意的是,kmalloc() 的底层实现也是基于 __get_free_pages() 来进行的,也正因为如此,kmalloc申请的是一段和物理内存一一对应的连续内存地址

0x2: __get_free_pages

#include <linux/gfp.h>__get_free_pages (unsigned int gfp_mask, unsigned int order);

参数说明

1. gfp_mask 可以直接使用 kmalloc() 函数中使用的参数2. order 第二个变量不是指定大小,而表示 2^order 次方个页,如是 0 就分配一个页,是 3 就分配 8 个页

如果想为分配一块内存空间,但嫌计算所需多少页比较麻烦,那可以使用 get_order() 函数来获取 order 值

char *buff;int order;order = get_order (8192);buff = __get_free_pages (GFP_KERNEL, order);if (buff != NULL) {     ...     free_pages (buff, order);}

使用该函数时,一定要注意 order 最大值,该最大值定义为 MAX_ORDER ,通常为 11 ,也可能是 10 ,这根据平台的不同而不同。如果 order 的值国大,则分配失败的几率就较高,通常使用小于 5 的值,即只分配 32 x PAGE_SIZE 大小的内存

0x3: static/全局变量数组

使用static或全局变量数组, 直接定义变量大小为所需数据大小

static char buffer[ 512 * 1024 * 1024 ]; 

定义512M大小数组. 不过此方法应用到LKM模块中话,会导致加载模块速度奇慢

0x4: alloc_bootmem

alloc_bootmem()是一种内核内存预留的方式,使用alloc_bootmem系列API在start_kernel调用mem_init()之前申请所需的连续大内存。此段内存也就永久保留,除非直接引用所分配的内存地址

code example

unsigned long long pf_buf_len = 0x0;EXPORT_SYMBOL( pf_buf_len );void *pf_buf_addr = NULL;EXPORT_SYMBOL( pf_buf_addr );static int __init pf_buf_len_setup(char *str){    unsigned long long size;    unsigned int       nid = 0;    void              *pbuff = NULL; // 分析参数    size = memparse( str, &str );    if ( *str == @ ){        str ++;        get_option( &str, &nid );    }    //printk( KERN_INFO "pf_buf_len: Allocating %llu bytes/n", size ); // 分配内存    pbuff = alloc_bootmem( size );    if ( likely( NULL != pbuff ) ) {        printk( KERN_INFO "pf_buf_len: Allocated %llu bytes at 0x%p(0x%p) on node %u/n",            size, pbuff, (void *)virt_to_phys(pbuff), nid);        pf_buf_addr = pbuff;        pf_buf_len  = size;        goto out;    }    printk( KERN_ERR "pf_buf_len: Allocated %llu bytes fail./n", size );out:    return 1;}__setup( "pf_buf_len=", pf_buf_len_setup);

Relevant Link:

http://oss.org.cn/kernel-book/ldd3/ch08s03.htmlhttp://www.groad.net/bbs/thread-1113-1-1.htmlhttp://blog.csdn.net/force_eagle/article/details/5275572http://www.linuxidc.com/Linux/2011-10/45459.htm

 

Copyright (c) 2014 LittleHann All rights reserved

 

Memory Allocation API In Linux Kernel && Linux Userspace、kmalloc vmalloc Difference、Kernel Large Section Memory Allocation