powerpc: Secondary CPUs must set cpu_callin_map after setting active and online
authorAnton Blanchard <anton@samba.org>
Mon, 8 Dec 2014 23:58:19 +0000 (10:58 +1100)
committerMichael Ellerman <mpe@ellerman.id.au>
Tue, 9 Dec 2014 05:36:11 +0000 (16:36 +1100)
I have a busy ppc64le KVM box where guests sometimes hit the infamous
"kernel BUG at kernel/smpboot.c:134!" issue during boot:

  BUG_ON(td->cpu != smp_processor_id());

Basically a per CPU hotplug thread scheduled on the wrong CPU. The oops
output confirms it:

  CPU: 0
  Comm: watchdog/130

The problem is that we aren't ensuring the CPU active and online bits are set
before allowing the master to continue on. The master unparks the secondary
CPUs kthreads and the scheduler looks for a CPU to run on. It calls
select_task_rq and realises the suggested CPU is not in the cpus_allowed
mask. It then ends up in select_fallback_rq, and since the active and
online bits aren't set we choose some other CPU to run on.

Cc: stable@vger.kernel.org
Signed-off-by: Anton Blanchard <anton@samba.org>
Signed-off-by: Michael Ellerman <mpe@ellerman.id.au>
arch/powerpc/kernel/smp.c

index 8b2d2dc8ef106ef780c9a145335e9de17b3879a7..8ec017cb44461943c90ebdb6cdf6e007936efb39 100644 (file)
@@ -700,7 +700,6 @@ void start_secondary(void *unused)
        smp_store_cpu_info(cpu);
        set_dec(tb_ticks_per_jiffy);
        preempt_disable();
-       cpu_callin_map[cpu] = 1;
 
        if (smp_ops->setup_cpu)
                smp_ops->setup_cpu(cpu);
@@ -739,6 +738,14 @@ void start_secondary(void *unused)
        notify_cpu_starting(cpu);
        set_cpu_online(cpu, true);
 
+       /*
+        * CPU must be marked active and online before we signal back to the
+        * master, because the scheduler needs to see the cpu_online and
+        * cpu_active bits set.
+        */
+       smp_wmb();
+       cpu_callin_map[cpu] = 1;
+
        local_irq_enable();
 
        cpu_startup_entry(CPUHP_ONLINE);