操作系统-fork
本文最后更新于:1 年前
[TOC]
简单概念介绍
逻辑地址
CPU 所生成的地址。CPU 产生的逻辑地址被分为 :p (页号) 它包含每个页在物理内存中的基址,用来作为页表的索引;d (页偏移),同基址相结合,用来确定送入内存设备的物理内存地址。
物理地址
内存单元所看到的地址。用户程序看不见真正的物理地址。用户只生成逻辑地址,且认为进程的地址空间为 0 到 max。物理地址范围从 R+0 到 R+max,R 为基地址,地址映射-将程序地址空间中使用的逻辑地址变换成内存中的物理地址的过程。由内存管理单元(MMU)来完成。
可执行程序在存储(没有调入内存)时分为代码区,数据区,未初始化数据区三部分。
(1)代码区存放 CPU 执行的机器指令。通常代码区是共享的,即其它执行程序可调用它。代码段(code segment/text segment)通常是只读的,有些构架也允许自行修改。
(2)数据区存放已初始化的全局变量,静态变量(包括全局和局部的),常量。static 全局变量和 static 函数只能在当前文件中被调用。
(3)未初始化数据区(Block Started by Symbol,BSS)存放全局未初始化的变量。BSS 的数据在程序开始执行之前被初始化为 0 或 NULL。
可执行程序在运行时又多出了两个区域:栈区和堆区。
(4)栈区。由编译器自动释放,存放函数的参数值,局部变量等。每当一个函数被调用时,该函数的返回类型和一些调用的信息被存储到栈中。然后这个被调用的函数再为它的自动变量和临时变量在栈上分配空间。每调用一个函数一个新的栈就会被使用。栈区是从高地址位向低地址位增长的,是一块连续的内在区域,最大容量是由系统预先定义好的,申请的栈空间超过这个界限时会提示溢出,用户能从栈中获取的空间较小。
(5)堆区。用于动态内存分配,位于 BSS 和栈中间的地址位。由程序员申请分配(malloc)和释放(free)。堆是从低地址位向高地址位增长,采用链式存储结构。频繁地 malloc/free 造成内存空间的不连续,产生碎片。当申请堆空间时库函数按照一定的算法搜索可用的足够大的空间。因此堆的效率比栈要低的多。
fork
fork()会产生一个和父进程完全相同的子进程,但子进程在此后多会 exec系统调用,出于效率考虑,linux 中引入了“写时复制“技术,也就是只有进程空间的各段的内容要发生变化时,才会将父进程的内容复制一份给子进程。在 fork 之后 exec 之前两个进程用的是相同的物理空间(内存区),子进程的代码段、数据段、堆栈都是指向父进程的物理空间,也就是说,两者的虚拟空间不同,但其对应的物理空间是同一个。
当父子进程中有更改相应段的行为发生时,再为子进程相应的段分配物理空间。
如果不是因为 exec,内核会给子进程的数据段、堆栈段分配相应的物理空间(至此两者有各自的进程空间,互不影响),而代码段继续共享父进程的物理空间(两者的代码完全相同)。
如果是因为 exec,由于两者执行的代码不同,子进程的代码段也会分配单独的物理空间。
fork 时子进程获得父进程数据空间、堆和栈的复制,所以变量的地址是一样的。
fork 子进程完全复制父进程的栈空间,也复制了页表,但没有复制物理页面,所以这时虚拟地址相同,物理地址也相同,但是会把父子共享的页面标记为“只读”(类似 mmap 的 private 的方式),如果父子进程一直对这个页面是同一个页面,知道其中任何一个进程要对共享的页面“写操作”,这时内核会复制一个物理页面给这个进程使用,同时修改页表。而把原来的只读页面标记为“可写”,留给另外一个进程使用。
这就是所谓的“写时复制”。正因为 fork 采用了这种写时复制的机制,所以 fork 出来子进程之后,父子进程哪个先调度呢?内核一般会先调度子进程,因为很多情况下子进程是要马上执行 exec,会清空栈、堆。这些和父进程共享的空间,加载新的代码段,这就避免了“写时复制”拷贝共享页面的机会。如果父进程先调度很可能写共享页面,会产生“写时复制”的无用功。
在理解时,你可以认为 fork 后,这两个相同的虚拟地址指向的是不同的物理地址,这样方便理解父子进程之间的独立性
写时复制
但实际上,linux 为了提高 fork 的效率,采用了 copy-on-write 技术,fork 后,这两个虚拟地址实际上指向相同的物理地址(内存页),只有任何一个进程试图修改这个虚拟地址里的内容前,两个虚拟地址才会指向不同的物理地址(新的物理地址的内容从原物理地址中复制得到)。