- 深度探索Linux系统虚拟化:原理与实现
- 王柏生 谢广军
- 3748字
- 2021-03-27 06:30:48
1.4.2 处理器启动过程
对于SMP系统,在正常运转时每个核的地位都是同等的,但是在系统启动时,需要准备环境,包括从BIOS获取系统各种信息,然后解压内核,跳转到解压的内核处并初始化必要的系统资源、数据结构以及各子系统等。这些准备工作如果由多个处理器不加保护地并发执行,将会带来灾难,因此只能由一个处理器执行,其他处理器必须处于停止状态,这就是操作系统的Boostrap过程,因此执行这些操作的处理器被称为Boostrap Processor,简称BSP。
当操作系统的初始化过程完成后,BSP需要通知其他处理器启动。相对于BSP,其他处理器被称为Application Processor,简称AP。AP需要略过解压内核、内核初始化等相关代码,跳转到一段为其准备的特殊代码,进行处理器自身相关的初始化,包括设置相关的寄存器、切换到保护模式等,然后运行0号任务,等待其他就绪任务到来。
MP Spec1.4定义的BSP通知AP启动的逻辑如下:
BSP sends AP an INIT IPI BSP DELAYs (10mSec) If (APIC_VERSION is not an 82489DX) { BSP sends AP a STARTUP IPI BSP DELAYs (200μSEC) BSP sends AP a STARTUP IPI BSP DELAYs (200μSEC) } BSP verifies synchronization with executing AP
不同系列的处理器,其启动逻辑有所不同。对于80486这种使用独立LAPIC(型号为82489DX)的CPU,BSP只需要发送1个INIT IPI即可,独立LAPIC不支持STARTUP IPI。在INIT IPI方式下,BSP不能设置AP的起始运行地址,AP固定从BIOS中开始运行,然后跳转到一个固定位置,操作系统只能将AP起始运行的代码放置在这个固定的位置。
对于比较新的CPU,LAPIC被集成到CPU内部。这些较新的CPU支持STARTUP IPI,可以指定AP的起始运行地址。当处于INIT状态的CPU收到STARTUP IPI后,将从STARTUP IPI指定的位置开始运行。为了防止一些噪音导致STARTUP IPI信号丢失,较早的CPU约定发送两次STARTUP IPI,而对于较新的CPU,发送一次STARTUP IPI足矣。
1.VMM侧多处理器启动
通常多处理器系统都会将0号CPU作为BSP,kvmtool也不例外,其选择虚拟机的0号处理器作为BSP,将0号VCPU的状态设置为可以运行,而其他VCPU,即AP都被设置为未初始化。如果VCPU状态为未初始化,那么在尝试切入Guest时,VCPU对应的线程将被挂起。BSP准备好基础环境后,将向AP先后发送INIT IPI和STARTUP IPI,唤醒VCPU所在的线程。在收到STARTUP IPI后,VCPU的状态变更为VCPU_MP_STATE_SIPI_RECEIVED,处于此状态的VCPU再次尝试进入Guest时,将顺利进入Guest,不会再被挂起。相关代码如下:
commit c5ec153402b6d276fe20029da1059ba42a4b55e5 KVM: enable in-kernel APIC INIT/SIPI handling linux.git/drivers/kvm/kvm_main.c 01 int kvm_vcpu_init(struct kvm_vcpu *vcpu, …, unsigned id) 02 { 03 … 04 if (!irqchip_in_kernel(kvm) || id == 0) 05 vcpu->mp_state = VCPU_MP_STATE_RUNNABLE; 06 else 07 vcpu->mp_state = VCPU_MP_STATE_UNINITIALIZED; 08 … 09 } 10 static int kvm_vcpu_ioctl_run(struct kvm_vcpu *vcpu, …) 11 { 12 … 13 if (unlikely(vcpu->mp_state == 14 VCPU_MP_STATE_UNINITIALIZED)) { 15 kvm_vcpu_block(vcpu); 16 … 17 return -EAGAIN; 18 } 19 … 20 } 21 static void kvm_vcpu_block(struct kvm_vcpu *vcpu) 22 { 23 … 24 while (…&& vcpu->mp_state != VCPU_MP_STATE_SIPI_RECEIVED) { 25 set_current_state(TASK_INTERRUPTIBLE); 26 … 27 schedule(); 28 … 29 } 30 … 31 }
根据第6、7行代码,kvmtool将AP的初始状态设置为VCPU_MP_STATE_UNINI-TIALIZED。那么,当VCPU尝试进入Guest模式时,根据第13~15行代码,其将进入函数kvm_vcpu_block。
函数kvm_vcpu_block将判断VCPU的状态。根据第24行代码,当VCPU尚不是VCPU_MP_STATE_SIPI_RECEIVED状态时,kvm_vcpu_block会将VCPU所在的线程设置为可中断状态,然后主动请求内核进行调度,VCPU所在的线程将被挂起。我们从状态VCPU_MP_STATE_SIPI_RECEIVED的名字就可以看出,这个状态表示VCPU收到SIPI(STARTUP IPI的简写)了,也就是说,只有在VCPU收到BSP发来的STARTUP IPI后,才可以开始运行。
当BSP向AP发送STARTUP IPI后,其他AP所在的线程将被唤醒,线程的状态将会流转为VCPU_MP_STATE_SIPI_RECEIVED,AP线程从上次挂起处,即第15行代码后继续执行。当执行到第17行代码时,将返回用户空间,用户空间通过ioctl发起KVM_RUN命令以再次发起进入虚拟机操作,这次VCPU所在线程将不会再进入第13、14行代码所在的if分支了,而是会顺利进入Guest。
根据第4、5行代码,kvmtool将BSP的状态设置为VCPU_MP_STATE_RUNNABLE,因此当BSP所在的线程首次尝试进入Guest时,不会进入第13、14行代码所在的if分支,而是顺利进入Guest,开启系统Bootstrap过程。
2.Guest侧多处理器启动
BSP准备好环境后,通过向AP发送核间中断的方式启动AP。BSP除了告知LAPIC核间中段的目的CPU等常规信息外,还有两个特殊的字段需要注意。一个是Delivery Mode,对于INIT IPI,Delivery Mode对应的值为INIT;对于STARTUP IPI,Delivery Mode对应的值为start up。AP通过Delivery Mode字段的值判断INIT IPI和STARTUP IPI。另外一个值得注意的字段是STARTUP IPI指定的AP的起始运行地址,其占用的是中断控制寄存器中的vector字段(0~7字节)。LAPIC的中断控制寄存器的具体格式如图1-8所示。
图1-8 中断控制寄存器格式
BSP准备好基础环境后,调用函数smp_boot_cpus启动其他AP:
commit c5ec153402b6d276fe20029da1059ba42a4b55e5 KVM: enable in-kernel APIC INIT/SIPI handling linux.git/arch/x86/kernel/smpboot_32.c static void __init smp_boot_cpus(unsigned int max_cpus) { … for (bit = 0; kicked < NR_CPUS && bit < MAX_APICS; bit++) { apicid = cpu_present_to_apicid(bit); … if (!check_apicid_present(bit)) continue; … if (… || do_boot_cpu(apicid, cpu)) … } … }
在前面讨论MP Table时,我们提到过,在启动时,操作系统会扫描MP Table,在全局变量phys_cpu_present_map中标记存在的CPU,比如如果0号CPU存在,那么phys_cpu_present_map的位0将被置为1。这里函数smp_boot_cpus就是检查phys_cpu_present_map中的每一位,如果置位了,则调用函数do_boot_cpu以启动相应的处理器:
commit c5ec153402b6d276fe20029da1059ba42a4b55e5 KVM: enable in-kernel APIC INIT/SIPI handling linux.git/arch/x86/kernel/smpboot_32.c 01 static int __cpuinit do_boot_cpu(int apicid, int cpu) 02 { 03 … 04 boot_error = wakeup_secondary_cpu(apicid, start_eip); 05 … 06 } 07 static int __devinit 08 wakeup_secondary_cpu(int phys_apicid, unsigned long start_eip) 09 { 10 … 11 apic_write_around(APIC_ICR2, 12 SET_APIC_DEST_FIELD(phys_apicid)); 13 … 14 apic_write_around(APIC_ICR, APIC_INT_LEVELTRIG | 15 APIC_INT_ASSERT | APIC_DM_INIT); 16 … 17 apic_write_around(APIC_ICR2, 18 SET_APIC_DEST_FIELD(phys_apicid)) ; 19 … 20 apic_write_around(APIC_ICR, APIC_INT_LEVELTRIG | 21 APIC_DM_INIT); 22 … 23 if (APIC_INTEGRATED(apic_version[phys_apicid])) 24 num_starts = 2; 25 else 26 num_starts = 0; 27 … 28 for (j = 1; j <= num_starts; j++) { 29 … 30 apic_write_around(APIC_ICR2, 31 SET_APIC_DEST_FIELD(phys_apicid)); 32 … 33 apic_write_around(APIC_ICR, APIC_DM_STARTUP 34 | (start_eip >> 12)); 35 … 36 } 37 … 38 }
MP Spec规定INIT IPI使用水平触发模式,第1次使引脚有效,第2次使引脚无效。第11~15行代码就是发送第1次INIT IPI,即assert INIT,其中第11、12行代码是设置中断控制寄存器的目的CPU字段;第14~15行代码按照MP Spec要求设置LAPIC为水平触发,并设置引脚有效(assert);第15行代码设置了中断控制寄存器的Delivery Mode字段的值APIC_DM_INIT,即设置了这个核间中断是一个INIT IPI。第17~21行代码是发送第2次INIT IPI,即de-assert INIT。
第23行代码判断LAPIC是集成到CPU内部的还是独立的。集成LAPIC支持STARTUP IPI,MP Spec约定需要发送两次STARTUP IPI,所以变量num_starts被赋值为2,即循环两次,发送两次STARTUP IPI。独立的LAPIC不支持STARTUP IPI,所以变量num_starts被赋值为0,即不执行循环,所以不会发送STARTUP IPI。
第30~34行代码是发送STARTUP IPI。第33行代码设置了中断控制寄存器的Delivery Mode字段的值为APIC_DM_STARTUP,即设置了这是STARTUP IPI。STARTUP IPI支持设置AP的起始运行地址,其使用中断控制寄存器中的vector字段(0~7字节)存储AP开始运行的地址。该地址要求4KB页面对齐,即假设字段vector的值为VV,当CPU收到STARTUP IPI后,其从0xVV0000处开始运行。
根据第34行代码,AP启动运行的位置为start_eip,我们看到start_eip按照页面对齐的要求右移了12位。start_eip指向的代码片段是专门为AP启动准备的入口,这段代码被称为trampoline,以32位系统为例,这段代码在文件arch/x86/kernel/trampoline_32.S中。BSP向AP发送核间中断启动AP前,在低端内存申请了一块内存,将trampoline代码片段复制到这块区域,并将start_eip指向这块内存区,相关代码如下:
commit c5ec153402b6d276fe20029da1059ba42a4b55e5 KVM: enable in-kernel APIC INIT/SIPI handling linux.git/arch/x86/kernel/smpboot_32.c 01 static int __cpuinit do_boot_cpu(int apicid, int cpu) 02 { 03 … 04 start_eip = setup_trampoline(); 05 … 06 } 07 static unsigned long __devinit setup_trampoline(void) 08 { 09 memcpy(trampoline_base, trampoline_data, 10 trampoline_end - trampoline_data); 11 return virt_to_phys(trampoline_base); 12 } linux.git/arch/x86/kernel/trampoline_32.S 13 ENTRY(trampoline_data) 14 … 15 ljmpl $__BOOT_CS, $(startup_32_smp-__PAGE_OFFSET) linux.git/arch/x86/kernel/head_32.S 16 ENTRY(startup_32) 17 … 18 ENTRY(startup_32_smp) 19 … 20 movb ready, %cl 21 movb $1, ready 22 cmpb $0,%cl # the first CPU calls start_kernel 23 je 1f 24 … 25 jmp initialize_secondary # all other CPUs call … 26 1: 27 #endif /* CONFIG_SMP */ 28 jmp start_kernel 29 … 30 ready: .byte 0 linux.git/arch/x86/kernel/smpboot_32.c 31 void __devinit initialize_secondary(void) 32 { 33 … 34 asm volatile( 35 "movl %0,%%esp\n\t" 36 "jmp *%1" 37 : 38 :"m" (current->thread.esp),"m" (current->thread.eip)); 39 }
第4行代码就是在启动AP前,BSP调用函数setup_trampoline为AP准备启动代码片段。trampoline这段代码将AP从实模式切换到保护模式后,跳转到了解压后的内核的头部,但是并不是从头部(startup_32)开始执行,而是跳过了需要BSP执行的如复制引导参数、准备内核页表等部分,从标号startup_32_smp处开始执行。
从startup_32_smp开始,AP进行了自身相关必需的初始化。接下来后续又开始分化了,BSP需要跳转到函数start_kernel执行,而AP则跳转到函数initialize_secondary处执行。这个过程通过变量ready来控制,当CPU执行到第23行代码时,如果此时变量ready为0,则跳转到标号1处,即第26行代码处,进而在第28行代码处进入函数start_kernel。根据第30行代码,变量ready的初始值为0,那么当BSP执行第23行代码时,因为BSP是第一个执行这段代码的,所以BSP将跳转到函数start_kernel执行。在BSP使用完变量ready后,其马上会将该变量的值更新为1,见第21行代码,因此,AP在执行第23行代码时不会向前跳转,而是继续执行到第25行代码,进入函数initialize_secondary。
BSP将跳转到init/main.c中的start_kernel函数执行,这个函数初始化内核中各种数据结构以及子系统。显然,这些资源初始化一次即可,无须其他AP继续来初始化,所以要避免AP继续执行start_kernel函数。
而对于AP跳转到的函数initialize_secondary,根据第36、38行代码可见,AP最终将跳转到宏current指向的结构体thread中的字段eip处。thread.eip指向的是BSP为AP准备第1个任务的入口,这个任务就是CPU闲时执行的idle任务,该任务在做了简短的准备后,随即调用cpu_idle将AP暂停,等待执行其他就绪任务:
commit c5ec153402b6d276fe20029da1059ba42a4b55e5 KVM: enable in-kernel APIC INIT/SIPI handling linux.git/arch/x86/kernel/smpboot_32.c static int __cpuinit do_boot_cpu(int apicid, int cpu) { … per_cpu(current_task, cpu) = idle; … idle->thread.eip = (unsigned long) start_secondary; … } static void __cpuinit start_secondary(void *unused) { … cpu_idle(); }
3.LAPIC发送核间中断
在上一节中,我们看到了Guest内核通过写LAPIC的控制寄存器来发送核间中断,但是核间中断终究是需要LAPIC来发送的,因此,在这一节中我们探讨KVM中的虚拟LAPIC是如何发送核间中断的。
LAPIC采用一个页面存放各寄存器的值,中断控制寄存器也在这个页面中,操作系统会将这个页面映射到进程的地址空间,通过MMIO的方式访问这些寄存器。当Guest访问这些寄存器时,将从Guest陷入KVM。后来,为了减少VM退出的次数,Intel从硬件层面对中断进行了支持,如果只是读寄存器的值,那么将不再触发VM退出,只有写寄存器时才会触发VM退出,具体内容我们将在“中断虚拟化”一章中继续讨论。从Guest陷入KVM后,将进入函数apic_mmio_write,该函数读取icr寄存器中的目的CPU字段,向目的CPU发送核间中断:
commit c5ec153402b6d276fe20029da1059ba42a4b55e5 KVM: enable in-kernel APIC INIT/SIPI handling linux.git/drivers/kvm/lapic.c 01 static void apic_mmio_write(struct kvm_io_device *this,…) 02 { 03 … 04 case APIC_ICR: 05 … 06 apic_send_ipi(apic); 07 break; 08 09 case APIC_ICR2: 10 apic_set_reg(apic, APIC_ICR2, val & 0xff000000); 11 break; 12 … 13 } 14 static void apic_send_ipi(struct kvm_lapic *apic) 15 { 16 … 17 for (i = 0; i < KVM_MAX_VCPUS; i++) { 18 vcpu = apic->vcpu->kvm->vcpus[i]; 19 … 20 if (vcpu->apic && 21 apic_match_dest(vcpu, apic, short_hand, dest,…)) { 22 … 23 __apic_accept_irq(vcpu->apic, …, vector, …); 24 } 25 } 26 … 27 } 28 static int __apic_accept_irq(struct kvm_lapic *apic, …) 29 { 30 … 31 case APIC_DM_STARTUP: 32 … 33 vcpu->sipi_vector = vector; 34 … 35 wake_up_interruptible(&vcpu->wq); 36 } 37 break; 38 … 39 }
第9、10行代码是处理Guest写中断控制寄存器高32位的情况,即将Guest设置目的CPU对应的LAPIC的ID记录在虚拟LAPIC中。第4~7行代码处理Guest写中断控制寄存器低32位的情况,其中第6行代码调用函数apic_send_ipi向目的CPU发起了IPI中断。函数apic_send_ipi遍历所有的CPU,调用apic_match_dest尝试匹配目的CPU,一旦匹配成功,则调用__apic_accept_irq以完成向目的CPU发送核间中断。根据第31、35代码,当BSP向AP发送的是STARTUP IPI时,KVM将唤醒AP开始运行Guest。
Guest运行的起始地址记录在数据结构vcpu的变量sipi_vector中,见第33行代码。在AP准备切入Guest前,KVM将使用变量sipi_vector来设置AP对应的VMCS中Guest的cs和rip,见如下代码:
commit c5ec153402b6d276fe20029da1059ba42a4b55e5 KVM: enable in-kernel APIC INIT/SIPI handling linux.git/drivers/kvm/kvm_main.c static int vmx_vcpu_setup(struct vcpu_vmx *vmx) { … if (vmx->vcpu.vcpu_id == 0) { … } else { vmcs_write16(GUEST_CS_SELECTOR, vmx->vcpu.sipi_vector << 8); vmcs_writel(GUEST_CS_BASE, vmx->vcpu.sipi_vector << 12); } … if (vmx->vcpu.vcpu_id == 0) … else vmcs_writel(GUEST_RIP, 0); … }
函数vmx_vcpu_setup是负责切入Guest前初始化VCPU的,其中vcpu_id非0的分支是处理AP的。代码中sipi_vector是BSP向AP发送START IPI时传递的AP的起始运行地址。MP Spec确定AP的起始地址为4KB页面对齐,即假设中断控制寄存器中字段vector的值为VV,那么AP的起始地址为0xVV0000,这就是为什么代码中将sipi_vector左移12位作为代码段cs寄存器的值,同时用于页内偏移的rip寄存器设置为0。