内核页表和进程页表

本文转载自：chinaunix

概念

初学内核时，经常被“内核页表”和“进程页表”搞晕，不知道这到底是个啥东东，跟我们平时理解的页表有和关系。

内核页表：即书上说的主内核页表，在内核中其实就是一段内存，存放在主内核页全局目录init_mm.pgd(swapper_pg_dir)中，硬件并不直接使用。
进程页表：每个进程自己的页表，放在进程自身的页目录task_struct.pgd中。

在保护模式下，从硬件角度看，其运行的基本对象为“进程”(或线程)，而寻址则依赖于“进程页表”，在进程调度而进行上下文切换时，会进行页表的切换：即将新进程的pgd(页目录)加载到CR3寄存器中。从这个角度看，其实是完全没有用到“内核页表”的，那么“内核页表”有什么用呢？跟“进程页表”有什么关系呢？

1、内核页表中的内容为所有进程共享，每个进程都有自己的“进程页表”，“进程页表”中映射的线性地址包括两部分：

用户态
内核态

其中，内核态地址对应的相关页表项，对于所有进程来说都是相同的(因为内核空间对所有进程来说都是共享的)，而这部分页表内容其实就来源于“内核页表”，即每个进程的“进程页表”中内核态地址相关的页表项都是“内核页表”的一个拷贝。
2、“内核页表”由内核自己维护并更新，在vmalloc区发生page fault时，将“内核页表”同步到“进程页表”中。以32位系统为例，内核页表主要包含两部分：

线性映射区
vmalloc区

其中，线性映射区即通过TASK_SIZE偏移进行映射的区域，对32系统来说就是0-896M这部分区域，映射对应的虚拟地址区域为TASK_SIZE~TASK_SIZE+896M。这部分区域在内核初始化时就已经完成映射，并创建好相应的页表，即这部分虚拟内存区域不会发生page fault。

vmalloc区，为896M~896M+128M，这部分区域用于映射高端内存，有三种映射方式：vmalloc、固定、临时，这里就不详述了。。
以vmalloc为例(最常使用)，这部分区域对应的线性地址在内核使用vmalloc分配内存时，其实就已经分配了相应的物理内存，并做了相应的映射，建立了相应的页表项，但相关页表项仅写入了“内核页表”，并没有实时更新到“进程页表中”，内核在这里使用了“延迟更新”的策略，将“进程页表”真正更新推迟到第一次访问相关线性地址，发生page fault时，此时在page fault的处理流程中进行“进程页表”的更新：

/*
 * 缺页地址位于内核空间。并不代表异常发生于内核空间，有可能是用户
 * 态访问了内核空间的地址。
 */
if (unlikely(fault_in_kernel_space(address))) {
    if (!(error_code & (PF_RSVD | PF_USER | PF_PROT))) {
        //检查发生缺页的地址是否在vmalloc区，是则进行相应的处理
        if (vmalloc_fault(address) >= 0)
            return;

/*
  * 对于发生缺页异常的指针位于vmalloc区情况的处理，主要是将
  * 主内核页表向当前进程的内核页表同步。
  */
static noinline __kprobes int vmalloc_fault(unsigned long address)
{
    unsigned long pgd_paddr;
    pmd_t *pmd_k;
    pte_t *pte_k;

    /* Make sure we are in vmalloc area: */
    /* 区域检查 */
    if (!(address >= VMALLOC_START && address < VMALLOC_END))
        return -1;

    WARN_ON_ONCE(in_nmi());

    /*
     * Synchronize this task's top level page-table
     * with the 'reference' page table.
     *
     * Do _not_ use "current" here. We might be inside
     * an interrupt in the middle of a task switch..
     */
     /*获取pgd(最顶级页目录)地址，直接从CR3寄存器中读取。
     *不要通过current获取，因为缺页异常可能在上下文切换的过程中发生，
     *此时如果通过current获取，则可能会出问题*/
    pgd_paddr = read_cr3();
    //从主内核页表中，同步vmalloc区发生缺页异常地址对应的页表
    pmd_k = vmalloc_sync_one(__va(pgd_paddr), address);
    if (!pmd_k)
        return -1;
    //如果同步后，相应的PTE还不存在，则说明该地址有问题了
    pte_k = pte_offset_kernel(pmd_k, address);
    if (!pte_present(*pte_k))
        return -1;

    return 0;
}

此时，问题来了，为什么需要内核页表呢？
详情可以参考关于内核页表初始化的问题。

目的

deferred approach

详情参考《Understanding the Linux Kernel》p357

参考资料：

关于内核页表初始化的问题

文章目录

概念

目的