drm/i915: Reboot CI if forcewake fails
authorChris Wilson <chris@chris-wilson.co.uk>
Wed, 8 May 2019 11:52:45 +0000 (12:52 +0100)
committerChris Wilson <chris@chris-wilson.co.uk>
Wed, 8 May 2019 12:58:31 +0000 (13:58 +0100)
If the HW fails to ack a change in forcewake status, the machine is as
good as dead -- it may recover, but in reality it missed the mmio
updates and is now in a very inconsistent state. If it happens, we can't
trust the CI results (or at least the fails may be genuine but due to
the HW being dead and not the actual test!) so reboot the machine (CI
checks for a kernel taint in between each test and reboots if the
machine is tainted).

Signed-off-by: Chris Wilson <chris@chris-wilson.co.uk>
Cc: Mika Kuoppala <mika.kuoppala@linux.intel.com>
Cc: Tvrtko Ursulin <tvrtko.ursulin@linux.intel.com>
Reviewed-by: Mika Kuoppala <mika.kuoppala@linux.intel.com>
Link: https://patchwork.freedesktop.org/patch/msgid/20190508115245.27790-1-chris@chris-wilson.co.uk
drivers/gpu/drm/i915/gt/intel_reset.c
drivers/gpu/drm/i915/i915_drv.h
drivers/gpu/drm/i915/intel_uncore.c

index 419b3415370bdab4ce963d6addf81618dc0372ca..464369bc55ad664e5b7f3af07989e074a78eb56f 100644 (file)
@@ -1042,7 +1042,7 @@ taint:
         * rather than continue on into oblivion. For everyone else,
         * the system should still plod along, but they have been warned!
         */
-       add_taint(TAINT_WARN, LOCKDEP_STILL_OK);
+       add_taint_for_CI(TAINT_WARN);
 error:
        __i915_gem_set_wedged(i915);
        goto finish;
index 0a6ec61496f135ef05491fa810bec095e0f1962f..d0257808734c77d654a68285be897f1a26b7e296 100644 (file)
@@ -3375,4 +3375,15 @@ static inline u32 i915_scratch_offset(const struct drm_i915_private *i915)
        return i915_ggtt_offset(i915->gt.scratch);
 }
 
+static inline void add_taint_for_CI(unsigned int taint)
+{
+       /*
+        * The system is "ok", just about surviving for the user, but
+        * CI results are now unreliable as the HW is very suspect.
+        * CI checks the taint state after every test and will reboot
+        * the machine if the kernel is tainted.
+        */
+       add_taint(taint, LOCKDEP_STILL_OK);
+}
+
 #endif
index d1d51e1121e2c56da67aca82adf336d256610f6b..f78668123f025ff45f58ea60507597414bf42ba6 100644 (file)
@@ -111,9 +111,11 @@ wait_ack_set(const struct intel_uncore_forcewake_domain *d,
 static inline void
 fw_domain_wait_ack_clear(const struct intel_uncore_forcewake_domain *d)
 {
-       if (wait_ack_clear(d, FORCEWAKE_KERNEL))
+       if (wait_ack_clear(d, FORCEWAKE_KERNEL)) {
                DRM_ERROR("%s: timed out waiting for forcewake ack to clear.\n",
                          intel_uncore_forcewake_domain_to_str(d->id));
+               add_taint_for_CI(TAINT_WARN); /* CI now unreliable */
+       }
 }
 
 enum ack_type {
@@ -186,9 +188,11 @@ fw_domain_get(const struct intel_uncore_forcewake_domain *d)
 static inline void
 fw_domain_wait_ack_set(const struct intel_uncore_forcewake_domain *d)
 {
-       if (wait_ack_set(d, FORCEWAKE_KERNEL))
+       if (wait_ack_set(d, FORCEWAKE_KERNEL)) {
                DRM_ERROR("%s: timed out waiting for forcewake ack request.\n",
                          intel_uncore_forcewake_domain_to_str(d->id));
+               add_taint_for_CI(TAINT_WARN); /* CI now unreliable */
+       }
 }
 
 static inline void