drm/amd/amdgpu: fix bad job hw_fence use after free in advance tdr

author Jingwen Chen <Jingwen.Chen2@amd.com>

Fri, 22 Oct 2021 03:30:01 +0000 (11:30 +0800)

committer Alex Deucher <alexander.deucher@amd.com>

Wed, 3 Nov 2021 16:22:07 +0000 (12:22 -0400)
author Jingwen Chen <Jingwen.Chen2@amd.com>
Fri, 22 Oct 2021 03:30:01 +0000 (11:30 +0800)
committer Alex Deucher <alexander.deucher@amd.com>
Wed, 3 Nov 2021 16:22:07 +0000 (12:22 -0400)
diff --git a/drivers/gpu/drm/amd/amdgpu/amdgpu_device.c b/drivers/gpu/drm/amd/amdgpu/amdgpu_device.c

index 6e40cc1bc6dcf914106fe3d746172dbf03b8cda9..7c3f6ee148534d362b971c5e926a212c9118d44c 100644 (file)
--- a/drivers/gpu/drm/amd/amdgpu/amdgpu_device.c
+++ b/drivers/gpu/drm/amd/amdgpu/amdgpu_device.c
@@ -4850,6 +4850,9 @@ static void amdgpu_device_recheck_guilty_jobs(
  
                 /* clear job's guilty and depend the folowing step to decide the real one */
                 drm_sched_reset_karma(s_job);
+               /* for the real bad job, it will be resubmitted twice, adding a dma_fence_get
+                * to make sure fence is balanced */
+               dma_fence_get(s_job->s_fence->parent);
                 drm_sched_resubmit_jobs_ext(&ring->sched, 1);
  
                 ret = dma_fence_wait_timeout(s_job->s_fence->parent, false, ring->sched.timeout);
@@ -4885,6 +4888,7 @@ retry:
  
                 /* got the hw fence, signal finished fence */
                 atomic_dec(ring->sched.score);
+               dma_fence_put(s_job->s_fence->parent);
                 dma_fence_get(&s_job->s_fence->finished);
                 dma_fence_signal(&s_job->s_fence->finished);
                 dma_fence_put(&s_job->s_fence->finished);
author	Jingwen Chen <Jingwen.Chen2@amd.com>
	Fri, 22 Oct 2021 03:30:01 +0000 (11:30 +0800)
committer	Alex Deucher <alexander.deucher@amd.com>
	Wed, 3 Nov 2021 16:22:07 +0000 (12:22 -0400)