drm/amdgpu: Avoid HW reset if guilty job already signaled.
authorAndrey Grodzovsky <andrey.grodzovsky@amd.com>
Thu, 18 Apr 2019 15:00:24 +0000 (11:00 -0400)
committerAlex Deucher <alexander.deucher@amd.com>
Thu, 2 May 2019 20:54:32 +0000 (15:54 -0500)
commit1d721ed679db18888f33df8cb238bc25a1d783c1
tree1c2e6d8a5f935c0d6f0811ce6e91f31349b8e95e
parenta5343b8a2ca5799ee6370e3cca77369a4c598221
drm/amdgpu: Avoid HW reset if guilty job already signaled.

Also reject TDRs if another one already running.

v2:
Stop all schedulers across device and entire XGMI hive before
force signaling HW fences.
Avoid passing job_signaled to helper fnctions to keep all the decision
making about skipping HW reset in one place.

v3:
Fix SW sched. hang after non HW reset. sched.hw_rq_count has to be balanced
against it's decrement in drm_sched_stop in non HW reset case.
v4: rebase
v5: Revert v3 as we do it now in sceduler code.

Reviewed-by: Christian König <christian.koenig@amd.com>
Signed-off-by: Andrey Grodzovsky <andrey.grodzovsky@amd.com>
Signed-off-by: Alex Deucher <alexander.deucher@amd.com>
Link: https://patchwork.freedesktop.org/patch/msgid/1555599624-12285-6-git-send-email-andrey.grodzovsky@amd.com
drivers/gpu/drm/amd/amdgpu/amdgpu_device.c