Merge tag 'mm-stable-2025-03-30-16-52' of git://git.kernel.org/pub/scm/linux/kernel...

author Linus Torvalds <torvalds@linux-foundation.org>

Tue, 1 Apr 2025 16:29:18 +0000 (09:29 -0700)

committer Linus Torvalds <torvalds@linux-foundation.org>

Tue, 1 Apr 2025 16:29:18 +0000 (09:29 -0700)
author Linus Torvalds <torvalds@linux-foundation.org>
Tue, 1 Apr 2025 16:29:18 +0000 (09:29 -0700)
committer Linus Torvalds <torvalds@linux-foundation.org>
Tue, 1 Apr 2025 16:29:18 +0000 (09:29 -0700)
diff --cc CREDITS
Simple merge
diff --cc Documentation/admin-guide/cgroup-v1/memory.rst
Simple merge
diff --cc Documentation/admin-guide/cgroup-v2.rst
Simple merge
diff --cc Documentation/admin-guide/kernel-parameters.txt
Simple merge
diff --cc MAINTAINERS
Simple merge
diff --cc arch/arm64/Kconfig
Simple merge
diff --cc arch/arm64/include/asm/tlbflush.h
Simple merge
diff --cc arch/loongarch/configs/loongson3_defconfig
Simple merge
diff --cc arch/mips/include/asm/io.h
Simple merge
diff --cc arch/parisc/include/asm/io.h
Simple merge
diff --cc arch/powerpc/Kconfig

index b5630f8ad436bd1a699d42d1fd09b3c247fcb76d,6f1ae41dcf8501fdb3f607ce2e1e54dccc35f580..b696fe3a325e740d4d4a4ede571e3a94d55dce37
--- 1/arch/powerpc/Kconfig
--- 2/arch/powerpc/Kconfig
+++ b/arch/powerpc/Kconfig
@@@ -207,10 -207,8 +208,9 @@@ config PP
         select GENERIC_IRQ_SHOW
         select GENERIC_IRQ_SHOW_LEVEL
         select GENERIC_PCI_IOMAP                if PCI
-       select GENERIC_PTDUMP
         select GENERIC_SMP_IDLE_THREAD
         select GENERIC_TIME_VSYSCALL
+ +      select GENERIC_VDSO_DATA_STORE
         select GENERIC_VDSO_TIME_NS
         select HAS_IOPORT                       if PCI
         select HAVE_ARCH_AUDITSYSCALL
diff --cc arch/powerpc/configs/mpc885_ads_defconfig
Simple merge
diff --cc arch/powerpc/include/asm/io.h
Simple merge
diff --cc arch/powerpc/mm/ioremap.c
Simple merge
diff --cc arch/powerpc/mm/mem.c
Simple merge
diff --cc arch/riscv/Kconfig

index 10116f68569d594bc4f05bb18c39f9f0c758ab07,353cf41d01f4c5ff80b0221727834bb5091889d7..e776fb35667e6b148aeec9b1e454a41594db7af9
--- 1/arch/riscv/Kconfig
--- 2/arch/riscv/Kconfig
+++ b/arch/riscv/Kconfig
@@@ -113,9 -112,7 +114,8 @@@ config RISC
         select GENERIC_IRQ_SHOW
         select GENERIC_IRQ_SHOW_LEVEL
         select GENERIC_LIB_DEVMEM_IS_ALLOWED
+ +      select GENERIC_PENDING_IRQ if SMP
         select GENERIC_PCI_IOMAP
-       select GENERIC_PTDUMP if MMU
         select GENERIC_SCHED_CLOCK
         select GENERIC_SMP_IDLE_THREAD
         select GENERIC_TIME_VSYSCALL if MMU && 64BIT
diff --cc arch/riscv/include/asm/io.h

index 0257f4aa7ff4509538a8a609acbf56bd690b7adc,0536846db9b63ef08ea82fe76fb98ee40db0b8ea..a0e51840b9db43c8ddf86eebb2b6c00bd54fe878
--- 1/arch/riscv/include/asm/io.h
--- 2/arch/riscv/include/asm/io.h
+++ b/arch/riscv/include/asm/io.h
@@@ -136,8 -136,8 +136,8 @@@ __io_writes_outs(outs, u64, q, __io_pbr
   #include <asm-generic/io.h>
   
   #ifdef CONFIG_MMU
- -#define arch_memremap_wb(addr, size)  \
+ +#define arch_memremap_wb(addr, size, flags)   \
-       ((__force void *)ioremap_prot((addr), (size), _PAGE_KERNEL))
+       ((__force void *)ioremap_prot((addr), (size), __pgprot(_PAGE_KERNEL)))
   #endif
   
   #endif /* _ASM_RISCV_IO_H */
diff --cc arch/s390/Kconfig

index 6412e39a795d63de96ef02ff185273a9482a37b1,dd9dd2f8e673bdadc4bd41fc89826ad294f3ee8b..c809c486d136564b07666f9ab12ebfe83a0ff47a
--- 1/arch/s390/Kconfig
--- 2/arch/s390/Kconfig
+++ b/arch/s390/Kconfig
@@@ -159,10 -164,8 +160,9 @@@ config S39
         select GENERIC_CPU_VULNERABILITIES
         select GENERIC_ENTRY
         select GENERIC_GETTIMEOFDAY
-       select GENERIC_PTDUMP
         select GENERIC_SMP_IDLE_THREAD
         select GENERIC_TIME_VSYSCALL
+ +      select GENERIC_VDSO_DATA_STORE
         select GENERIC_VDSO_TIME_NS
         select GENERIC_IOREMAP if PCI
         select HAVE_ALIGNED_STRUCT_PAGE
diff --cc arch/s390/configs/debug_defconfig
Simple merge
diff --cc arch/s390/configs/defconfig
Simple merge
diff --cc arch/s390/include/asm/io.h

index 251e0372ccbd0a63fb859ebe2540c78d2a42a47b,82f1043a4fc32a57f08203fa511e94eda26caa2e..faddb9aef3b8fb84f4b53de312017d06ec8ce32b
--- 1/arch/s390/include/asm/io.h
--- 2/arch/s390/include/asm/io.h
+++ b/arch/s390/include/asm/io.h
@@@ -33,7 -33,9 +33,7 @@@ void unxlate_dev_mem_ptr(phys_addr_t ph
   #define _PAGE_IOREMAP pgprot_val(PAGE_KERNEL)
   
   #define ioremap_wc(addr, size)  \
-       ioremap_prot((addr), (size), pgprot_val(pgprot_writecombine(PAGE_KERNEL)))
+       ioremap_prot((addr), (size), pgprot_writecombine(PAGE_KERNEL))
- -#define ioremap_wt(addr, size)  \
- -      ioremap_prot((addr), (size), pgprot_writethrough(PAGE_KERNEL))
   
   static inline void __iomem *ioport_map(unsigned long port, unsigned int nr)
   {
diff --cc arch/s390/mm/init.c

index f4ac6950660835896870e046326f764ffe19befd,5b7b7b281334c1a15049f188fb2fb2d86f065f9c..afa085e8186ca761f1815cf86cd012cbf7468532
--- 1/arch/s390/mm/init.c
--- 2/arch/s390/mm/init.c
+++ b/arch/s390/mm/init.c
@@@ -171,13 -159,9 +160,8 @@@ void __init arch_mm_preinit(void
         cpumask_set_cpu(0, &init_mm.context.cpu_attach_mask);
         cpumask_set_cpu(0, mm_cpumask(&init_mm));
   
-       set_max_mapnr(max_low_pfn);
-         high_memory = (void *) __va(max_low_pfn * PAGE_SIZE);
- 
         pv_init();
- -      kfence_split_mapping();
   
-       /* this will put all low memory onto the freelists */
-       memblock_free_all();
         setup_zero_pages();     /* Setup zeroed pages. */
   }
   
diff --cc arch/s390/pci/pci.c
Simple merge
diff --cc arch/sh/include/asm/io.h
Simple merge
diff --cc arch/um/kernel/um_arch.c
Simple merge
diff --cc arch/x86/Kconfig
Simple merge
diff --cc arch/x86/include/asm/io.h
Simple merge
diff --cc arch/x86/include/asm/percpu.h
Simple merge
diff --cc arch/x86/include/asm/tlbflush.h
Simple merge
diff --cc arch/x86/kernel/setup.c
Simple merge
diff --cc arch/x86/mm/init_32.c
Simple merge
diff --cc arch/x86/mm/init_64.c
Simple merge
diff --cc arch/x86/mm/ioremap.c
Simple merge
diff --cc arch/x86/xen/enlighten_pv.c
Simple merge
diff --cc drivers/gpu/drm/drm_gpusvm.c

index 2451c816edd5cec8bdc9953f5ee78099dbbd1611,0000000000000000000000000000000000000000..38431e8360e7839816e994cf6a93f2cbdda123f7

mode 100644,000000..100644
--- 1/drivers/gpu/drm/drm_gpusvm.c
--- /dev/null
+++ b/drivers/gpu/drm/drm_gpusvm.c
@@@ -1,2250 -1,0 +1,2250 @@@
-                       if (pagemap != page->pgmap) {
+ +// SPDX-License-Identifier: GPL-2.0-only OR MIT
+ +/*
+ + * Copyright © 2024 Intel Corporation
+ + *
+ + * Authors:
+ + *     Matthew Brost <matthew.brost@intel.com>
+ + */
+ +
+ +#include <linux/dma-mapping.h>
+ +#include <linux/hmm.h>
+ +#include <linux/memremap.h>
+ +#include <linux/migrate.h>
+ +#include <linux/mm_types.h>
+ +#include <linux/pagemap.h>
+ +#include <linux/slab.h>
+ +
+ +#include <drm/drm_device.h>
+ +#include <drm/drm_gpusvm.h>
+ +#include <drm/drm_pagemap.h>
+ +#include <drm/drm_print.h>
+ +
+ +/**
+ + * DOC: Overview
+ + *
+ + * GPU Shared Virtual Memory (GPU SVM) layer for the Direct Rendering Manager (DRM)
+ + * is a component of the DRM framework designed to manage shared virtual memory
+ + * between the CPU and GPU. It enables efficient data exchange and processing
+ + * for GPU-accelerated applications by allowing memory sharing and
+ + * synchronization between the CPU's and GPU's virtual address spaces.
+ + *
+ + * Key GPU SVM Components:
+ + *
+ + * - Notifiers:
+ + *    Used for tracking memory intervals and notifying the GPU of changes,
+ + *    notifiers are sized based on a GPU SVM initialization parameter, with a
+ + *    recommendation of 512M or larger. They maintain a Red-BlacK tree and a
+ + *    list of ranges that fall within the notifier interval.  Notifiers are
+ + *    tracked within a GPU SVM Red-BlacK tree and list and are dynamically
+ + *    inserted or removed as ranges within the interval are created or
+ + *    destroyed.
+ + * - Ranges:
+ + *    Represent memory ranges mapped in a DRM device and managed by GPU SVM.
+ + *    They are sized based on an array of chunk sizes, which is a GPU SVM
+ + *    initialization parameter, and the CPU address space.  Upon GPU fault,
+ + *    the largest aligned chunk that fits within the faulting CPU address
+ + *    space is chosen for the range size. Ranges are expected to be
+ + *    dynamically allocated on GPU fault and removed on an MMU notifier UNMAP
+ + *    event. As mentioned above, ranges are tracked in a notifier's Red-Black
+ + *    tree.
+ + *
+ + * - Operations:
+ + *    Define the interface for driver-specific GPU SVM operations such as
+ + *    range allocation, notifier allocation, and invalidations.
+ + *
+ + * - Device Memory Allocations:
+ + *    Embedded structure containing enough information for GPU SVM to migrate
+ + *    to / from device memory.
+ + *
+ + * - Device Memory Operations:
+ + *    Define the interface for driver-specific device memory operations
+ + *    release memory, populate pfns, and copy to / from device memory.
+ + *
+ + * This layer provides interfaces for allocating, mapping, migrating, and
+ + * releasing memory ranges between the CPU and GPU. It handles all core memory
+ + * management interactions (DMA mapping, HMM, and migration) and provides
+ + * driver-specific virtual functions (vfuncs). This infrastructure is sufficient
+ + * to build the expected driver components for an SVM implementation as detailed
+ + * below.
+ + *
+ + * Expected Driver Components:
+ + *
+ + * - GPU page fault handler:
+ + *    Used to create ranges and notifiers based on the fault address,
+ + *    optionally migrate the range to device memory, and create GPU bindings.
+ + *
+ + * - Garbage collector:
+ + *    Used to unmap and destroy GPU bindings for ranges.  Ranges are expected
+ + *    to be added to the garbage collector upon a MMU_NOTIFY_UNMAP event in
+ + *    notifier callback.
+ + *
+ + * - Notifier callback:
+ + *    Used to invalidate and DMA unmap GPU bindings for ranges.
+ + */
+ +
+ +/**
+ + * DOC: Locking
+ + *
+ + * GPU SVM handles locking for core MM interactions, i.e., it locks/unlocks the
+ + * mmap lock as needed.
+ + *
+ + * GPU SVM introduces a global notifier lock, which safeguards the notifier's
+ + * range RB tree and list, as well as the range's DMA mappings and sequence
+ + * number. GPU SVM manages all necessary locking and unlocking operations,
+ + * except for the recheck range's pages being valid
+ + * (drm_gpusvm_range_pages_valid) when the driver is committing GPU bindings.
+ + * This lock corresponds to the ``driver->update`` lock mentioned in
+ + * Documentation/mm/hmm.rst. Future revisions may transition from a GPU SVM
+ + * global lock to a per-notifier lock if finer-grained locking is deemed
+ + * necessary.
+ + *
+ + * In addition to the locking mentioned above, the driver should implement a
+ + * lock to safeguard core GPU SVM function calls that modify state, such as
+ + * drm_gpusvm_range_find_or_insert and drm_gpusvm_range_remove. This lock is
+ + * denoted as 'driver_svm_lock' in code examples. Finer grained driver side
+ + * locking should also be possible for concurrent GPU fault processing within a
+ + * single GPU SVM. The 'driver_svm_lock' can be via drm_gpusvm_driver_set_lock
+ + * to add annotations to GPU SVM.
+ + */
+ +
+ +/**
+ + * DOC: Migration
+ + *
+ + * The migration support is quite simple, allowing migration between RAM and
+ + * device memory at the range granularity. For example, GPU SVM currently does
+ + * not support mixing RAM and device memory pages within a range. This means
+ + * that upon GPU fault, the entire range can be migrated to device memory, and
+ + * upon CPU fault, the entire range is migrated to RAM. Mixed RAM and device
+ + * memory storage within a range could be added in the future if required.
+ + *
+ + * The reasoning for only supporting range granularity is as follows: it
+ + * simplifies the implementation, and range sizes are driver-defined and should
+ + * be relatively small.
+ + */
+ +
+ +/**
+ + * DOC: Partial Unmapping of Ranges
+ + *
+ + * Partial unmapping of ranges (e.g., 1M out of 2M is unmapped by CPU resulting
+ + * in MMU_NOTIFY_UNMAP event) presents several challenges, with the main one
+ + * being that a subset of the range still has CPU and GPU mappings. If the
+ + * backing store for the range is in device memory, a subset of the backing
+ + * store has references. One option would be to split the range and device
+ + * memory backing store, but the implementation for this would be quite
+ + * complicated. Given that partial unmappings are rare and driver-defined range
+ + * sizes are relatively small, GPU SVM does not support splitting of ranges.
+ + *
+ + * With no support for range splitting, upon partial unmapping of a range, the
+ + * driver is expected to invalidate and destroy the entire range. If the range
+ + * has device memory as its backing, the driver is also expected to migrate any
+ + * remaining pages back to RAM.
+ + */
+ +
+ +/**
+ + * DOC: Examples
+ + *
+ + * This section provides three examples of how to build the expected driver
+ + * components: the GPU page fault handler, the garbage collector, and the
+ + * notifier callback.
+ + *
+ + * The generic code provided does not include logic for complex migration
+ + * policies, optimized invalidations, fined grained driver locking, or other
+ + * potentially required driver locking (e.g., DMA-resv locks).
+ + *
+ + * 1) GPU page fault handler
+ + *
+ + * .. code-block:: c
+ + *
+ + *    int driver_bind_range(struct drm_gpusvm *gpusvm, struct drm_gpusvm_range *range)
+ + *    {
+ + *            int err = 0;
+ + *
+ + *            driver_alloc_and_setup_memory_for_bind(gpusvm, range);
+ + *
+ + *            drm_gpusvm_notifier_lock(gpusvm);
+ + *            if (drm_gpusvm_range_pages_valid(range))
+ + *                    driver_commit_bind(gpusvm, range);
+ + *            else
+ + *                    err = -EAGAIN;
+ + *            drm_gpusvm_notifier_unlock(gpusvm);
+ + *
+ + *            return err;
+ + *    }
+ + *
+ + *    int driver_gpu_fault(struct drm_gpusvm *gpusvm, unsigned long fault_addr,
+ + *                         unsigned long gpuva_start, unsigned long gpuva_end)
+ + *    {
+ + *            struct drm_gpusvm_ctx ctx = {};
+ + *            int err;
+ + *
+ + *            driver_svm_lock();
+ + *    retry:
+ + *            // Always process UNMAPs first so view of GPU SVM ranges is current
+ + *            driver_garbage_collector(gpusvm);
+ + *
+ + *            range = drm_gpusvm_range_find_or_insert(gpusvm, fault_addr,
+ + *                                                    gpuva_start, gpuva_end,
+ + *                                                    &ctx);
+ + *            if (IS_ERR(range)) {
+ + *                    err = PTR_ERR(range);
+ + *                    goto unlock;
+ + *            }
+ + *
+ + *            if (driver_migration_policy(range)) {
+ + *                    mmap_read_lock(mm);
+ + *                    devmem = driver_alloc_devmem();
+ + *                    err = drm_gpusvm_migrate_to_devmem(gpusvm, range,
+ + *                                                       devmem_allocation,
+ + *                                                       &ctx);
+ + *                    mmap_read_unlock(mm);
+ + *                    if (err)        // CPU mappings may have changed
+ + *                            goto retry;
+ + *            }
+ + *
+ + *            err = drm_gpusvm_range_get_pages(gpusvm, range, &ctx);
+ + *            if (err == -EOPNOTSUPP || err == -EFAULT || err == -EPERM) {    // CPU mappings changed
+ + *                    if (err == -EOPNOTSUPP)
+ + *                            drm_gpusvm_range_evict(gpusvm, range);
+ + *                    goto retry;
+ + *            } else if (err) {
+ + *                    goto unlock;
+ + *            }
+ + *
+ + *            err = driver_bind_range(gpusvm, range);
+ + *            if (err == -EAGAIN)     // CPU mappings changed
+ + *                    goto retry
+ + *
+ + *    unlock:
+ + *            driver_svm_unlock();
+ + *            return err;
+ + *    }
+ + *
+ + * 2) Garbage Collector
+ + *
+ + * .. code-block:: c
+ + *
+ + *    void __driver_garbage_collector(struct drm_gpusvm *gpusvm,
+ + *                                    struct drm_gpusvm_range *range)
+ + *    {
+ + *            assert_driver_svm_locked(gpusvm);
+ + *
+ + *            // Partial unmap, migrate any remaining device memory pages back to RAM
+ + *            if (range->flags.partial_unmap)
+ + *                    drm_gpusvm_range_evict(gpusvm, range);
+ + *
+ + *            driver_unbind_range(range);
+ + *            drm_gpusvm_range_remove(gpusvm, range);
+ + *    }
+ + *
+ + *    void driver_garbage_collector(struct drm_gpusvm *gpusvm)
+ + *    {
+ + *            assert_driver_svm_locked(gpusvm);
+ + *
+ + *            for_each_range_in_garbage_collector(gpusvm, range)
+ + *                    __driver_garbage_collector(gpusvm, range);
+ + *    }
+ + *
+ + * 3) Notifier callback
+ + *
+ + * .. code-block:: c
+ + *
+ + *    void driver_invalidation(struct drm_gpusvm *gpusvm,
+ + *                             struct drm_gpusvm_notifier *notifier,
+ + *                             const struct mmu_notifier_range *mmu_range)
+ + *    {
+ + *            struct drm_gpusvm_ctx ctx = { .in_notifier = true, };
+ + *            struct drm_gpusvm_range *range = NULL;
+ + *
+ + *            driver_invalidate_device_pages(gpusvm, mmu_range->start, mmu_range->end);
+ + *
+ + *            drm_gpusvm_for_each_range(range, notifier, mmu_range->start,
+ + *                                      mmu_range->end) {
+ + *                    drm_gpusvm_range_unmap_pages(gpusvm, range, &ctx);
+ + *
+ + *                    if (mmu_range->event != MMU_NOTIFY_UNMAP)
+ + *                            continue;
+ + *
+ + *                    drm_gpusvm_range_set_unmapped(range, mmu_range);
+ + *                    driver_garbage_collector_add(gpusvm, range);
+ + *            }
+ + *    }
+ + */
+ +
+ +/**
+ + * npages_in_range() - Calculate the number of pages in a given range
+ + * @start: The start address of the range
+ + * @end: The end address of the range
+ + *
+ + * This macro calculates the number of pages in a given memory range,
+ + * specified by the start and end addresses. It divides the difference
+ + * between the end and start addresses by the page size (PAGE_SIZE) to
+ + * determine the number of pages in the range.
+ + *
+ + * Return: The number of pages in the specified range.
+ + */
+ +static unsigned long
+ +npages_in_range(unsigned long start, unsigned long end)
+ +{
+ +      return (end - start) >> PAGE_SHIFT;
+ +}
+ +
+ +/**
+ + * struct drm_gpusvm_zdd - GPU SVM zone device data
+ + *
+ + * @refcount: Reference count for the zdd
+ + * @devmem_allocation: device memory allocation
+ + * @device_private_page_owner: Device private pages owner
+ + *
+ + * This structure serves as a generic wrapper installed in
+ + * page->zone_device_data. It provides infrastructure for looking up a device
+ + * memory allocation upon CPU page fault and asynchronously releasing device
+ + * memory once the CPU has no page references. Asynchronous release is useful
+ + * because CPU page references can be dropped in IRQ contexts, while releasing
+ + * device memory likely requires sleeping locks.
+ + */
+ +struct drm_gpusvm_zdd {
+ +      struct kref refcount;
+ +      struct drm_gpusvm_devmem *devmem_allocation;
+ +      void *device_private_page_owner;
+ +};
+ +
+ +/**
+ + * drm_gpusvm_zdd_alloc() - Allocate a zdd structure.
+ + * @device_private_page_owner: Device private pages owner
+ + *
+ + * This function allocates and initializes a new zdd structure. It sets up the
+ + * reference count and initializes the destroy work.
+ + *
+ + * Return: Pointer to the allocated zdd on success, ERR_PTR() on failure.
+ + */
+ +static struct drm_gpusvm_zdd *
+ +drm_gpusvm_zdd_alloc(void *device_private_page_owner)
+ +{
+ +      struct drm_gpusvm_zdd *zdd;
+ +
+ +      zdd = kmalloc(sizeof(*zdd), GFP_KERNEL);
+ +      if (!zdd)
+ +              return NULL;
+ +
+ +      kref_init(&zdd->refcount);
+ +      zdd->devmem_allocation = NULL;
+ +      zdd->device_private_page_owner = device_private_page_owner;
+ +
+ +      return zdd;
+ +}
+ +
+ +/**
+ + * drm_gpusvm_zdd_get() - Get a reference to a zdd structure.
+ + * @zdd: Pointer to the zdd structure.
+ + *
+ + * This function increments the reference count of the provided zdd structure.
+ + *
+ + * Return: Pointer to the zdd structure.
+ + */
+ +static struct drm_gpusvm_zdd *drm_gpusvm_zdd_get(struct drm_gpusvm_zdd *zdd)
+ +{
+ +      kref_get(&zdd->refcount);
+ +      return zdd;
+ +}
+ +
+ +/**
+ + * drm_gpusvm_zdd_destroy() - Destroy a zdd structure.
+ + * @ref: Pointer to the reference count structure.
+ + *
+ + * This function queues the destroy_work of the zdd for asynchronous destruction.
+ + */
+ +static void drm_gpusvm_zdd_destroy(struct kref *ref)
+ +{
+ +      struct drm_gpusvm_zdd *zdd =
+ +              container_of(ref, struct drm_gpusvm_zdd, refcount);
+ +      struct drm_gpusvm_devmem *devmem = zdd->devmem_allocation;
+ +
+ +      if (devmem) {
+ +              complete_all(&devmem->detached);
+ +              if (devmem->ops->devmem_release)
+ +                      devmem->ops->devmem_release(devmem);
+ +      }
+ +      kfree(zdd);
+ +}
+ +
+ +/**
+ + * drm_gpusvm_zdd_put() - Put a zdd reference.
+ + * @zdd: Pointer to the zdd structure.
+ + *
+ + * This function decrements the reference count of the provided zdd structure
+ + * and schedules its destruction if the count drops to zero.
+ + */
+ +static void drm_gpusvm_zdd_put(struct drm_gpusvm_zdd *zdd)
+ +{
+ +      kref_put(&zdd->refcount, drm_gpusvm_zdd_destroy);
+ +}
+ +
+ +/**
+ + * drm_gpusvm_range_find() - Find GPU SVM range from GPU SVM notifier
+ + * @notifier: Pointer to the GPU SVM notifier structure.
+ + * @start: Start address of the range
+ + * @end: End address of the range
+ + *
+ + * Return: A pointer to the drm_gpusvm_range if found or NULL
+ + */
+ +struct drm_gpusvm_range *
+ +drm_gpusvm_range_find(struct drm_gpusvm_notifier *notifier, unsigned long start,
+ +                    unsigned long end)
+ +{
+ +      struct interval_tree_node *itree;
+ +
+ +      itree = interval_tree_iter_first(&notifier->root, start, end - 1);
+ +
+ +      if (itree)
+ +              return container_of(itree, struct drm_gpusvm_range, itree);
+ +      else
+ +              return NULL;
+ +}
+ +EXPORT_SYMBOL_GPL(drm_gpusvm_range_find);
+ +
+ +/**
+ + * drm_gpusvm_for_each_range_safe() - Safely iterate over GPU SVM ranges in a notifier
+ + * @range__: Iterator variable for the ranges
+ + * @next__: Iterator variable for the ranges temporay storage
+ + * @notifier__: Pointer to the GPU SVM notifier
+ + * @start__: Start address of the range
+ + * @end__: End address of the range
+ + *
+ + * This macro is used to iterate over GPU SVM ranges in a notifier while
+ + * removing ranges from it.
+ + */
+ +#define drm_gpusvm_for_each_range_safe(range__, next__, notifier__, start__, end__)   \
+ +      for ((range__) = drm_gpusvm_range_find((notifier__), (start__), (end__)),       \
+ +           (next__) = __drm_gpusvm_range_next(range__);                               \
+ +           (range__) && (drm_gpusvm_range_start(range__) < (end__));                  \
+ +           (range__) = (next__), (next__) = __drm_gpusvm_range_next(range__))
+ +
+ +/**
+ + * __drm_gpusvm_notifier_next() - get the next drm_gpusvm_notifier in the list
+ + * @notifier: a pointer to the current drm_gpusvm_notifier
+ + *
+ + * Return: A pointer to the next drm_gpusvm_notifier if available, or NULL if
+ + *         the current notifier is the last one or if the input notifier is
+ + *         NULL.
+ + */
+ +static struct drm_gpusvm_notifier *
+ +__drm_gpusvm_notifier_next(struct drm_gpusvm_notifier *notifier)
+ +{
+ +      if (notifier && !list_is_last(&notifier->entry,
+ +                                    &notifier->gpusvm->notifier_list))
+ +              return list_next_entry(notifier, entry);
+ +
+ +      return NULL;
+ +}
+ +
+ +static struct drm_gpusvm_notifier *
+ +notifier_iter_first(struct rb_root_cached *root, unsigned long start,
+ +                  unsigned long last)
+ +{
+ +      struct interval_tree_node *itree;
+ +
+ +      itree = interval_tree_iter_first(root, start, last);
+ +
+ +      if (itree)
+ +              return container_of(itree, struct drm_gpusvm_notifier, itree);
+ +      else
+ +              return NULL;
+ +}
+ +
+ +/**
+ + * drm_gpusvm_for_each_notifier() - Iterate over GPU SVM notifiers in a gpusvm
+ + * @notifier__: Iterator variable for the notifiers
+ + * @notifier__: Pointer to the GPU SVM notifier
+ + * @start__: Start address of the notifier
+ + * @end__: End address of the notifier
+ + *
+ + * This macro is used to iterate over GPU SVM notifiers in a gpusvm.
+ + */
+ +#define drm_gpusvm_for_each_notifier(notifier__, gpusvm__, start__, end__)            \
+ +      for ((notifier__) = notifier_iter_first(&(gpusvm__)->root, (start__), (end__) - 1);     \
+ +           (notifier__) && (drm_gpusvm_notifier_start(notifier__) < (end__));         \
+ +           (notifier__) = __drm_gpusvm_notifier_next(notifier__))
+ +
+ +/**
+ + * drm_gpusvm_for_each_notifier_safe() - Safely iterate over GPU SVM notifiers in a gpusvm
+ + * @notifier__: Iterator variable for the notifiers
+ + * @next__: Iterator variable for the notifiers temporay storage
+ + * @notifier__: Pointer to the GPU SVM notifier
+ + * @start__: Start address of the notifier
+ + * @end__: End address of the notifier
+ + *
+ + * This macro is used to iterate over GPU SVM notifiers in a gpusvm while
+ + * removing notifiers from it.
+ + */
+ +#define drm_gpusvm_for_each_notifier_safe(notifier__, next__, gpusvm__, start__, end__)       \
+ +      for ((notifier__) = notifier_iter_first(&(gpusvm__)->root, (start__), (end__) - 1),     \
+ +           (next__) = __drm_gpusvm_notifier_next(notifier__);                         \
+ +           (notifier__) && (drm_gpusvm_notifier_start(notifier__) < (end__));         \
+ +           (notifier__) = (next__), (next__) = __drm_gpusvm_notifier_next(notifier__))
+ +
+ +/**
+ + * drm_gpusvm_notifier_invalidate() - Invalidate a GPU SVM notifier.
+ + * @mni: Pointer to the mmu_interval_notifier structure.
+ + * @mmu_range: Pointer to the mmu_notifier_range structure.
+ + * @cur_seq: Current sequence number.
+ + *
+ + * This function serves as a generic MMU notifier for GPU SVM. It sets the MMU
+ + * notifier sequence number and calls the driver invalidate vfunc under
+ + * gpusvm->notifier_lock.
+ + *
+ + * Return: true if the operation succeeds, false otherwise.
+ + */
+ +static bool
+ +drm_gpusvm_notifier_invalidate(struct mmu_interval_notifier *mni,
+ +                             const struct mmu_notifier_range *mmu_range,
+ +                             unsigned long cur_seq)
+ +{
+ +      struct drm_gpusvm_notifier *notifier =
+ +              container_of(mni, typeof(*notifier), notifier);
+ +      struct drm_gpusvm *gpusvm = notifier->gpusvm;
+ +
+ +      if (!mmu_notifier_range_blockable(mmu_range))
+ +              return false;
+ +
+ +      down_write(&gpusvm->notifier_lock);
+ +      mmu_interval_set_seq(mni, cur_seq);
+ +      gpusvm->ops->invalidate(gpusvm, notifier, mmu_range);
+ +      up_write(&gpusvm->notifier_lock);
+ +
+ +      return true;
+ +}
+ +
+ +/*
+ + * drm_gpusvm_notifier_ops - MMU interval notifier operations for GPU SVM
+ + */
+ +static const struct mmu_interval_notifier_ops drm_gpusvm_notifier_ops = {
+ +      .invalidate = drm_gpusvm_notifier_invalidate,
+ +};
+ +
+ +/**
+ + * drm_gpusvm_init() - Initialize the GPU SVM.
+ + * @gpusvm: Pointer to the GPU SVM structure.
+ + * @name: Name of the GPU SVM.
+ + * @drm: Pointer to the DRM device structure.
+ + * @mm: Pointer to the mm_struct for the address space.
+ + * @device_private_page_owner: Device private pages owner.
+ + * @mm_start: Start address of GPU SVM.
+ + * @mm_range: Range of the GPU SVM.
+ + * @notifier_size: Size of individual notifiers.
+ + * @ops: Pointer to the operations structure for GPU SVM.
+ + * @chunk_sizes: Pointer to the array of chunk sizes used in range allocation.
+ + *               Entries should be powers of 2 in descending order with last
+ + *               entry being SZ_4K.
+ + * @num_chunks: Number of chunks.
+ + *
+ + * This function initializes the GPU SVM.
+ + *
+ + * Return: 0 on success, a negative error code on failure.
+ + */
+ +int drm_gpusvm_init(struct drm_gpusvm *gpusvm,
+ +                  const char *name, struct drm_device *drm,
+ +                  struct mm_struct *mm, void *device_private_page_owner,
+ +                  unsigned long mm_start, unsigned long mm_range,
+ +                  unsigned long notifier_size,
+ +                  const struct drm_gpusvm_ops *ops,
+ +                  const unsigned long *chunk_sizes, int num_chunks)
+ +{
+ +      if (!ops->invalidate || !num_chunks)
+ +              return -EINVAL;
+ +
+ +      gpusvm->name = name;
+ +      gpusvm->drm = drm;
+ +      gpusvm->mm = mm;
+ +      gpusvm->device_private_page_owner = device_private_page_owner;
+ +      gpusvm->mm_start = mm_start;
+ +      gpusvm->mm_range = mm_range;
+ +      gpusvm->notifier_size = notifier_size;
+ +      gpusvm->ops = ops;
+ +      gpusvm->chunk_sizes = chunk_sizes;
+ +      gpusvm->num_chunks = num_chunks;
+ +
+ +      mmgrab(mm);
+ +      gpusvm->root = RB_ROOT_CACHED;
+ +      INIT_LIST_HEAD(&gpusvm->notifier_list);
+ +
+ +      init_rwsem(&gpusvm->notifier_lock);
+ +
+ +      fs_reclaim_acquire(GFP_KERNEL);
+ +      might_lock(&gpusvm->notifier_lock);
+ +      fs_reclaim_release(GFP_KERNEL);
+ +
+ +#ifdef CONFIG_LOCKDEP
+ +      gpusvm->lock_dep_map = NULL;
+ +#endif
+ +
+ +      return 0;
+ +}
+ +EXPORT_SYMBOL_GPL(drm_gpusvm_init);
+ +
+ +/**
+ + * drm_gpusvm_notifier_find() - Find GPU SVM notifier
+ + * @gpusvm: Pointer to the GPU SVM structure
+ + * @fault_addr: Fault address
+ + *
+ + * This function finds the GPU SVM notifier associated with the fault address.
+ + *
+ + * Return: Pointer to the GPU SVM notifier on success, NULL otherwise.
+ + */
+ +static struct drm_gpusvm_notifier *
+ +drm_gpusvm_notifier_find(struct drm_gpusvm *gpusvm,
+ +                       unsigned long fault_addr)
+ +{
+ +      return notifier_iter_first(&gpusvm->root, fault_addr, fault_addr + 1);
+ +}
+ +
+ +/**
+ + * to_drm_gpusvm_notifier() - retrieve the container struct for a given rbtree node
+ + * @node: a pointer to the rbtree node embedded within a drm_gpusvm_notifier struct
+ + *
+ + * Return: A pointer to the containing drm_gpusvm_notifier structure.
+ + */
+ +static struct drm_gpusvm_notifier *to_drm_gpusvm_notifier(struct rb_node *node)
+ +{
+ +      return container_of(node, struct drm_gpusvm_notifier, itree.rb);
+ +}
+ +
+ +/**
+ + * drm_gpusvm_notifier_insert() - Insert GPU SVM notifier
+ + * @gpusvm: Pointer to the GPU SVM structure
+ + * @notifier: Pointer to the GPU SVM notifier structure
+ + *
+ + * This function inserts the GPU SVM notifier into the GPU SVM RB tree and list.
+ + */
+ +static void drm_gpusvm_notifier_insert(struct drm_gpusvm *gpusvm,
+ +                                     struct drm_gpusvm_notifier *notifier)
+ +{
+ +      struct rb_node *node;
+ +      struct list_head *head;
+ +
+ +      interval_tree_insert(&notifier->itree, &gpusvm->root);
+ +
+ +      node = rb_prev(&notifier->itree.rb);
+ +      if (node)
+ +              head = &(to_drm_gpusvm_notifier(node))->entry;
+ +      else
+ +              head = &gpusvm->notifier_list;
+ +
+ +      list_add(&notifier->entry, head);
+ +}
+ +
+ +/**
+ + * drm_gpusvm_notifier_remove() - Remove GPU SVM notifier
+ + * @gpusvm: Pointer to the GPU SVM tructure
+ + * @notifier: Pointer to the GPU SVM notifier structure
+ + *
+ + * This function removes the GPU SVM notifier from the GPU SVM RB tree and list.
+ + */
+ +static void drm_gpusvm_notifier_remove(struct drm_gpusvm *gpusvm,
+ +                                     struct drm_gpusvm_notifier *notifier)
+ +{
+ +      interval_tree_remove(&notifier->itree, &gpusvm->root);
+ +      list_del(&notifier->entry);
+ +}
+ +
+ +/**
+ + * drm_gpusvm_fini() - Finalize the GPU SVM.
+ + * @gpusvm: Pointer to the GPU SVM structure.
+ + *
+ + * This function finalizes the GPU SVM by cleaning up any remaining ranges and
+ + * notifiers, and dropping a reference to struct MM.
+ + */
+ +void drm_gpusvm_fini(struct drm_gpusvm *gpusvm)
+ +{
+ +      struct drm_gpusvm_notifier *notifier, *next;
+ +
+ +      drm_gpusvm_for_each_notifier_safe(notifier, next, gpusvm, 0, LONG_MAX) {
+ +              struct drm_gpusvm_range *range, *__next;
+ +
+ +              /*
+ +               * Remove notifier first to avoid racing with any invalidation
+ +               */
+ +              mmu_interval_notifier_remove(&notifier->notifier);
+ +              notifier->flags.removed = true;
+ +
+ +              drm_gpusvm_for_each_range_safe(range, __next, notifier, 0,
+ +                                             LONG_MAX)
+ +                      drm_gpusvm_range_remove(gpusvm, range);
+ +      }
+ +
+ +      mmdrop(gpusvm->mm);
+ +      WARN_ON(!RB_EMPTY_ROOT(&gpusvm->root.rb_root));
+ +}
+ +EXPORT_SYMBOL_GPL(drm_gpusvm_fini);
+ +
+ +/**
+ + * drm_gpusvm_notifier_alloc() - Allocate GPU SVM notifier
+ + * @gpusvm: Pointer to the GPU SVM structure
+ + * @fault_addr: Fault address
+ + *
+ + * This function allocates and initializes the GPU SVM notifier structure.
+ + *
+ + * Return: Pointer to the allocated GPU SVM notifier on success, ERR_PTR() on failure.
+ + */
+ +static struct drm_gpusvm_notifier *
+ +drm_gpusvm_notifier_alloc(struct drm_gpusvm *gpusvm, unsigned long fault_addr)
+ +{
+ +      struct drm_gpusvm_notifier *notifier;
+ +
+ +      if (gpusvm->ops->notifier_alloc)
+ +              notifier = gpusvm->ops->notifier_alloc();
+ +      else
+ +              notifier = kzalloc(sizeof(*notifier), GFP_KERNEL);
+ +
+ +      if (!notifier)
+ +              return ERR_PTR(-ENOMEM);
+ +
+ +      notifier->gpusvm = gpusvm;
+ +      notifier->itree.start = ALIGN_DOWN(fault_addr, gpusvm->notifier_size);
+ +      notifier->itree.last = ALIGN(fault_addr + 1, gpusvm->notifier_size) - 1;
+ +      INIT_LIST_HEAD(&notifier->entry);
+ +      notifier->root = RB_ROOT_CACHED;
+ +      INIT_LIST_HEAD(&notifier->range_list);
+ +
+ +      return notifier;
+ +}
+ +
+ +/**
+ + * drm_gpusvm_notifier_free() - Free GPU SVM notifier
+ + * @gpusvm: Pointer to the GPU SVM structure
+ + * @notifier: Pointer to the GPU SVM notifier structure
+ + *
+ + * This function frees the GPU SVM notifier structure.
+ + */
+ +static void drm_gpusvm_notifier_free(struct drm_gpusvm *gpusvm,
+ +                                   struct drm_gpusvm_notifier *notifier)
+ +{
+ +      WARN_ON(!RB_EMPTY_ROOT(&notifier->root.rb_root));
+ +
+ +      if (gpusvm->ops->notifier_free)
+ +              gpusvm->ops->notifier_free(notifier);
+ +      else
+ +              kfree(notifier);
+ +}
+ +
+ +/**
+ + * to_drm_gpusvm_range() - retrieve the container struct for a given rbtree node
+ + * @node: a pointer to the rbtree node embedded within a drm_gpusvm_range struct
+ + *
+ + * Return: A pointer to the containing drm_gpusvm_range structure.
+ + */
+ +static struct drm_gpusvm_range *to_drm_gpusvm_range(struct rb_node *node)
+ +{
+ +      return container_of(node, struct drm_gpusvm_range, itree.rb);
+ +}
+ +
+ +/**
+ + * drm_gpusvm_range_insert() - Insert GPU SVM range
+ + * @notifier: Pointer to the GPU SVM notifier structure
+ + * @range: Pointer to the GPU SVM range structure
+ + *
+ + * This function inserts the GPU SVM range into the notifier RB tree and list.
+ + */
+ +static void drm_gpusvm_range_insert(struct drm_gpusvm_notifier *notifier,
+ +                                  struct drm_gpusvm_range *range)
+ +{
+ +      struct rb_node *node;
+ +      struct list_head *head;
+ +
+ +      drm_gpusvm_notifier_lock(notifier->gpusvm);
+ +      interval_tree_insert(&range->itree, &notifier->root);
+ +
+ +      node = rb_prev(&range->itree.rb);
+ +      if (node)
+ +              head = &(to_drm_gpusvm_range(node))->entry;
+ +      else
+ +              head = &notifier->range_list;
+ +
+ +      list_add(&range->entry, head);
+ +      drm_gpusvm_notifier_unlock(notifier->gpusvm);
+ +}
+ +
+ +/**
+ + * __drm_gpusvm_range_remove() - Remove GPU SVM range
+ + * @notifier: Pointer to the GPU SVM notifier structure
+ + * @range: Pointer to the GPU SVM range structure
+ + *
+ + * This macro removes the GPU SVM range from the notifier RB tree and list.
+ + */
+ +static void __drm_gpusvm_range_remove(struct drm_gpusvm_notifier *notifier,
+ +                                    struct drm_gpusvm_range *range)
+ +{
+ +      interval_tree_remove(&range->itree, &notifier->root);
+ +      list_del(&range->entry);
+ +}
+ +
+ +/**
+ + * drm_gpusvm_range_alloc() - Allocate GPU SVM range
+ + * @gpusvm: Pointer to the GPU SVM structure
+ + * @notifier: Pointer to the GPU SVM notifier structure
+ + * @fault_addr: Fault address
+ + * @chunk_size: Chunk size
+ + * @migrate_devmem: Flag indicating whether to migrate device memory
+ + *
+ + * This function allocates and initializes the GPU SVM range structure.
+ + *
+ + * Return: Pointer to the allocated GPU SVM range on success, ERR_PTR() on failure.
+ + */
+ +static struct drm_gpusvm_range *
+ +drm_gpusvm_range_alloc(struct drm_gpusvm *gpusvm,
+ +                     struct drm_gpusvm_notifier *notifier,
+ +                     unsigned long fault_addr, unsigned long chunk_size,
+ +                     bool migrate_devmem)
+ +{
+ +      struct drm_gpusvm_range *range;
+ +
+ +      if (gpusvm->ops->range_alloc)
+ +              range = gpusvm->ops->range_alloc(gpusvm);
+ +      else
+ +              range = kzalloc(sizeof(*range), GFP_KERNEL);
+ +
+ +      if (!range)
+ +              return ERR_PTR(-ENOMEM);
+ +
+ +      kref_init(&range->refcount);
+ +      range->gpusvm = gpusvm;
+ +      range->notifier = notifier;
+ +      range->itree.start = ALIGN_DOWN(fault_addr, chunk_size);
+ +      range->itree.last = ALIGN(fault_addr + 1, chunk_size) - 1;
+ +      INIT_LIST_HEAD(&range->entry);
+ +      range->notifier_seq = LONG_MAX;
+ +      range->flags.migrate_devmem = migrate_devmem ? 1 : 0;
+ +
+ +      return range;
+ +}
+ +
+ +/**
+ + * drm_gpusvm_check_pages() - Check pages
+ + * @gpusvm: Pointer to the GPU SVM structure
+ + * @notifier: Pointer to the GPU SVM notifier structure
+ + * @start: Start address
+ + * @end: End address
+ + *
+ + * Check if pages between start and end have been faulted in on the CPU. Use to
+ + * prevent migration of pages without CPU backing store.
+ + *
+ + * Return: True if pages have been faulted into CPU, False otherwise
+ + */
+ +static bool drm_gpusvm_check_pages(struct drm_gpusvm *gpusvm,
+ +                                 struct drm_gpusvm_notifier *notifier,
+ +                                 unsigned long start, unsigned long end)
+ +{
+ +      struct hmm_range hmm_range = {
+ +              .default_flags = 0,
+ +              .notifier = &notifier->notifier,
+ +              .start = start,
+ +              .end = end,
+ +              .dev_private_owner = gpusvm->device_private_page_owner,
+ +      };
+ +      unsigned long timeout =
+ +              jiffies + msecs_to_jiffies(HMM_RANGE_DEFAULT_TIMEOUT);
+ +      unsigned long *pfns;
+ +      unsigned long npages = npages_in_range(start, end);
+ +      int err, i;
+ +
+ +      mmap_assert_locked(gpusvm->mm);
+ +
+ +      pfns = kvmalloc_array(npages, sizeof(*pfns), GFP_KERNEL);
+ +      if (!pfns)
+ +              return false;
+ +
+ +      hmm_range.notifier_seq = mmu_interval_read_begin(&notifier->notifier);
+ +      hmm_range.hmm_pfns = pfns;
+ +
+ +      while (true) {
+ +              err = hmm_range_fault(&hmm_range);
+ +              if (err == -EBUSY) {
+ +                      if (time_after(jiffies, timeout))
+ +                              break;
+ +
+ +                      hmm_range.notifier_seq =
+ +                              mmu_interval_read_begin(&notifier->notifier);
+ +                      continue;
+ +              }
+ +              break;
+ +      }
+ +      if (err)
+ +              goto err_free;
+ +
+ +      for (i = 0; i < npages;) {
+ +              if (!(pfns[i] & HMM_PFN_VALID)) {
+ +                      err = -EFAULT;
+ +                      goto err_free;
+ +              }
+ +              i += 0x1 << hmm_pfn_to_map_order(pfns[i]);
+ +      }
+ +
+ +err_free:
+ +      kvfree(pfns);
+ +      return err ? false : true;
+ +}
+ +
+ +/**
+ + * drm_gpusvm_range_chunk_size() - Determine chunk size for GPU SVM range
+ + * @gpusvm: Pointer to the GPU SVM structure
+ + * @notifier: Pointer to the GPU SVM notifier structure
+ + * @vas: Pointer to the virtual memory area structure
+ + * @fault_addr: Fault address
+ + * @gpuva_start: Start address of GPUVA which mirrors CPU
+ + * @gpuva_end: End address of GPUVA which mirrors CPU
+ + * @check_pages_threshold: Check CPU pages for present threshold
+ + *
+ + * This function determines the chunk size for the GPU SVM range based on the
+ + * fault address, GPU SVM chunk sizes, existing GPU SVM ranges, and the virtual
+ + * memory area boundaries.
+ + *
+ + * Return: Chunk size on success, LONG_MAX on failure.
+ + */
+ +static unsigned long
+ +drm_gpusvm_range_chunk_size(struct drm_gpusvm *gpusvm,
+ +                          struct drm_gpusvm_notifier *notifier,
+ +                          struct vm_area_struct *vas,
+ +                          unsigned long fault_addr,
+ +                          unsigned long gpuva_start,
+ +                          unsigned long gpuva_end,
+ +                          unsigned long check_pages_threshold)
+ +{
+ +      unsigned long start, end;
+ +      int i = 0;
+ +
+ +retry:
+ +      for (; i < gpusvm->num_chunks; ++i) {
+ +              start = ALIGN_DOWN(fault_addr, gpusvm->chunk_sizes[i]);
+ +              end = ALIGN(fault_addr + 1, gpusvm->chunk_sizes[i]);
+ +
+ +              if (start >= vas->vm_start && end <= vas->vm_end &&
+ +                  start >= drm_gpusvm_notifier_start(notifier) &&
+ +                  end <= drm_gpusvm_notifier_end(notifier) &&
+ +                  start >= gpuva_start && end <= gpuva_end)
+ +                      break;
+ +      }
+ +
+ +      if (i == gpusvm->num_chunks)
+ +              return LONG_MAX;
+ +
+ +      /*
+ +       * If allocation more than page, ensure not to overlap with existing
+ +       * ranges.
+ +       */
+ +      if (end - start != SZ_4K) {
+ +              struct drm_gpusvm_range *range;
+ +
+ +              range = drm_gpusvm_range_find(notifier, start, end);
+ +              if (range) {
+ +                      ++i;
+ +                      goto retry;
+ +              }
+ +
+ +              /*
+ +               * XXX: Only create range on pages CPU has faulted in. Without
+ +               * this check, or prefault, on BMG 'xe_exec_system_allocator --r
+ +               * process-many-malloc' fails. In the failure case, each process
+ +               * mallocs 16k but the CPU VMA is ~128k which results in 64k SVM
+ +               * ranges. When migrating the SVM ranges, some processes fail in
+ +               * drm_gpusvm_migrate_to_devmem with 'migrate.cpages != npages'
+ +               * and then upon drm_gpusvm_range_get_pages device pages from
+ +               * other processes are collected + faulted in which creates all
+ +               * sorts of problems. Unsure exactly how this happening, also
+ +               * problem goes away if 'xe_exec_system_allocator --r
+ +               * process-many-malloc' mallocs at least 64k at a time.
+ +               */
+ +              if (end - start <= check_pages_threshold &&
+ +                  !drm_gpusvm_check_pages(gpusvm, notifier, start, end)) {
+ +                      ++i;
+ +                      goto retry;
+ +              }
+ +      }
+ +
+ +      return end - start;
+ +}
+ +
+ +#ifdef CONFIG_LOCKDEP
+ +/**
+ + * drm_gpusvm_driver_lock_held() - Assert GPU SVM driver lock is held
+ + * @gpusvm: Pointer to the GPU SVM structure.
+ + *
+ + * Ensure driver lock is held.
+ + */
+ +static void drm_gpusvm_driver_lock_held(struct drm_gpusvm *gpusvm)
+ +{
+ +      if ((gpusvm)->lock_dep_map)
+ +              lockdep_assert(lock_is_held_type((gpusvm)->lock_dep_map, 0));
+ +}
+ +#else
+ +static void drm_gpusvm_driver_lock_held(struct drm_gpusvm *gpusvm)
+ +{
+ +}
+ +#endif
+ +
+ +/**
+ + * drm_gpusvm_range_find_or_insert() - Find or insert GPU SVM range
+ + * @gpusvm: Pointer to the GPU SVM structure
+ + * @fault_addr: Fault address
+ + * @gpuva_start: Start address of GPUVA which mirrors CPU
+ + * @gpuva_end: End address of GPUVA which mirrors CPU
+ + * @ctx: GPU SVM context
+ + *
+ + * This function finds or inserts a newly allocated a GPU SVM range based on the
+ + * fault address. Caller must hold a lock to protect range lookup and insertion.
+ + *
+ + * Return: Pointer to the GPU SVM range on success, ERR_PTR() on failure.
+ + */
+ +struct drm_gpusvm_range *
+ +drm_gpusvm_range_find_or_insert(struct drm_gpusvm *gpusvm,
+ +                              unsigned long fault_addr,
+ +                              unsigned long gpuva_start,
+ +                              unsigned long gpuva_end,
+ +                              const struct drm_gpusvm_ctx *ctx)
+ +{
+ +      struct drm_gpusvm_notifier *notifier;
+ +      struct drm_gpusvm_range *range;
+ +      struct mm_struct *mm = gpusvm->mm;
+ +      struct vm_area_struct *vas;
+ +      bool notifier_alloc = false;
+ +      unsigned long chunk_size;
+ +      int err;
+ +      bool migrate_devmem;
+ +
+ +      drm_gpusvm_driver_lock_held(gpusvm);
+ +
+ +      if (fault_addr < gpusvm->mm_start ||
+ +          fault_addr > gpusvm->mm_start + gpusvm->mm_range)
+ +              return ERR_PTR(-EINVAL);
+ +
+ +      if (!mmget_not_zero(mm))
+ +              return ERR_PTR(-EFAULT);
+ +
+ +      notifier = drm_gpusvm_notifier_find(gpusvm, fault_addr);
+ +      if (!notifier) {
+ +              notifier = drm_gpusvm_notifier_alloc(gpusvm, fault_addr);
+ +              if (IS_ERR(notifier)) {
+ +                      err = PTR_ERR(notifier);
+ +                      goto err_mmunlock;
+ +              }
+ +              notifier_alloc = true;
+ +              err = mmu_interval_notifier_insert(&notifier->notifier,
+ +                                                 mm,
+ +                                                 drm_gpusvm_notifier_start(notifier),
+ +                                                 drm_gpusvm_notifier_size(notifier),
+ +                                                 &drm_gpusvm_notifier_ops);
+ +              if (err)
+ +                      goto err_notifier;
+ +      }
+ +
+ +      mmap_read_lock(mm);
+ +
+ +      vas = vma_lookup(mm, fault_addr);
+ +      if (!vas) {
+ +              err = -ENOENT;
+ +              goto err_notifier_remove;
+ +      }
+ +
+ +      if (!ctx->read_only && !(vas->vm_flags & VM_WRITE)) {
+ +              err = -EPERM;
+ +              goto err_notifier_remove;
+ +      }
+ +
+ +      range = drm_gpusvm_range_find(notifier, fault_addr, fault_addr + 1);
+ +      if (range)
+ +              goto out_mmunlock;
+ +      /*
+ +       * XXX: Short-circuiting migration based on migrate_vma_* current
+ +       * limitations. If/when migrate_vma_* add more support, this logic will
+ +       * have to change.
+ +       */
+ +      migrate_devmem = ctx->devmem_possible &&
+ +              vma_is_anonymous(vas) && !is_vm_hugetlb_page(vas);
+ +
+ +      chunk_size = drm_gpusvm_range_chunk_size(gpusvm, notifier, vas,
+ +                                               fault_addr, gpuva_start,
+ +                                               gpuva_end,
+ +                                               ctx->check_pages_threshold);
+ +      if (chunk_size == LONG_MAX) {
+ +              err = -EINVAL;
+ +              goto err_notifier_remove;
+ +      }
+ +
+ +      range = drm_gpusvm_range_alloc(gpusvm, notifier, fault_addr, chunk_size,
+ +                                     migrate_devmem);
+ +      if (IS_ERR(range)) {
+ +              err = PTR_ERR(range);
+ +              goto err_notifier_remove;
+ +      }
+ +
+ +      drm_gpusvm_range_insert(notifier, range);
+ +      if (notifier_alloc)
+ +              drm_gpusvm_notifier_insert(gpusvm, notifier);
+ +
+ +out_mmunlock:
+ +      mmap_read_unlock(mm);
+ +      mmput(mm);
+ +
+ +      return range;
+ +
+ +err_notifier_remove:
+ +      mmap_read_unlock(mm);
+ +      if (notifier_alloc)
+ +              mmu_interval_notifier_remove(&notifier->notifier);
+ +err_notifier:
+ +      if (notifier_alloc)
+ +              drm_gpusvm_notifier_free(gpusvm, notifier);
+ +err_mmunlock:
+ +      mmput(mm);
+ +      return ERR_PTR(err);
+ +}
+ +EXPORT_SYMBOL_GPL(drm_gpusvm_range_find_or_insert);
+ +
+ +/**
+ + * __drm_gpusvm_range_unmap_pages() - Unmap pages associated with a GPU SVM range (internal)
+ + * @gpusvm: Pointer to the GPU SVM structure
+ + * @range: Pointer to the GPU SVM range structure
+ + * @npages: Number of pages to unmap
+ + *
+ + * This function unmap pages associated with a GPU SVM range. Assumes and
+ + * asserts correct locking is in place when called.
+ + */
+ +static void __drm_gpusvm_range_unmap_pages(struct drm_gpusvm *gpusvm,
+ +                                         struct drm_gpusvm_range *range,
+ +                                         unsigned long npages)
+ +{
+ +      unsigned long i, j;
+ +      struct drm_pagemap *dpagemap = range->dpagemap;
+ +      struct device *dev = gpusvm->drm->dev;
+ +
+ +      lockdep_assert_held(&gpusvm->notifier_lock);
+ +
+ +      if (range->flags.has_dma_mapping) {
+ +              for (i = 0, j = 0; i < npages; j++) {
+ +                      struct drm_pagemap_device_addr *addr = &range->dma_addr[j];
+ +
+ +                      if (addr->proto == DRM_INTERCONNECT_SYSTEM)
+ +                              dma_unmap_page(dev,
+ +                                             addr->addr,
+ +                                             PAGE_SIZE << addr->order,
+ +                                             addr->dir);
+ +                      else if (dpagemap && dpagemap->ops->device_unmap)
+ +                              dpagemap->ops->device_unmap(dpagemap,
+ +                                                          dev, *addr);
+ +                      i += 1 << addr->order;
+ +              }
+ +              range->flags.has_devmem_pages = false;
+ +              range->flags.has_dma_mapping = false;
+ +              range->dpagemap = NULL;
+ +      }
+ +}
+ +
+ +/**
+ + * drm_gpusvm_range_free_pages() - Free pages associated with a GPU SVM range
+ + * @gpusvm: Pointer to the GPU SVM structure
+ + * @range: Pointer to the GPU SVM range structure
+ + *
+ + * This function frees the dma address array associated with a GPU SVM range.
+ + */
+ +static void drm_gpusvm_range_free_pages(struct drm_gpusvm *gpusvm,
+ +                                      struct drm_gpusvm_range *range)
+ +{
+ +      lockdep_assert_held(&gpusvm->notifier_lock);
+ +
+ +      if (range->dma_addr) {
+ +              kvfree(range->dma_addr);
+ +              range->dma_addr = NULL;
+ +      }
+ +}
+ +
+ +/**
+ + * drm_gpusvm_range_remove() - Remove GPU SVM range
+ + * @gpusvm: Pointer to the GPU SVM structure
+ + * @range: Pointer to the GPU SVM range to be removed
+ + *
+ + * This function removes the specified GPU SVM range and also removes the parent
+ + * GPU SVM notifier if no more ranges remain in the notifier. The caller must
+ + * hold a lock to protect range and notifier removal.
+ + */
+ +void drm_gpusvm_range_remove(struct drm_gpusvm *gpusvm,
+ +                           struct drm_gpusvm_range *range)
+ +{
+ +      unsigned long npages = npages_in_range(drm_gpusvm_range_start(range),
+ +                                             drm_gpusvm_range_end(range));
+ +      struct drm_gpusvm_notifier *notifier;
+ +
+ +      drm_gpusvm_driver_lock_held(gpusvm);
+ +
+ +      notifier = drm_gpusvm_notifier_find(gpusvm,
+ +                                          drm_gpusvm_range_start(range));
+ +      if (WARN_ON_ONCE(!notifier))
+ +              return;
+ +
+ +      drm_gpusvm_notifier_lock(gpusvm);
+ +      __drm_gpusvm_range_unmap_pages(gpusvm, range, npages);
+ +      drm_gpusvm_range_free_pages(gpusvm, range);
+ +      __drm_gpusvm_range_remove(notifier, range);
+ +      drm_gpusvm_notifier_unlock(gpusvm);
+ +
+ +      drm_gpusvm_range_put(range);
+ +
+ +      if (RB_EMPTY_ROOT(&notifier->root.rb_root)) {
+ +              if (!notifier->flags.removed)
+ +                      mmu_interval_notifier_remove(&notifier->notifier);
+ +              drm_gpusvm_notifier_remove(gpusvm, notifier);
+ +              drm_gpusvm_notifier_free(gpusvm, notifier);
+ +      }
+ +}
+ +EXPORT_SYMBOL_GPL(drm_gpusvm_range_remove);
+ +
+ +/**
+ + * drm_gpusvm_range_get() - Get a reference to GPU SVM range
+ + * @range: Pointer to the GPU SVM range
+ + *
+ + * This function increments the reference count of the specified GPU SVM range.
+ + *
+ + * Return: Pointer to the GPU SVM range.
+ + */
+ +struct drm_gpusvm_range *
+ +drm_gpusvm_range_get(struct drm_gpusvm_range *range)
+ +{
+ +      kref_get(&range->refcount);
+ +
+ +      return range;
+ +}
+ +EXPORT_SYMBOL_GPL(drm_gpusvm_range_get);
+ +
+ +/**
+ + * drm_gpusvm_range_destroy() - Destroy GPU SVM range
+ + * @refcount: Pointer to the reference counter embedded in the GPU SVM range
+ + *
+ + * This function destroys the specified GPU SVM range when its reference count
+ + * reaches zero. If a custom range-free function is provided, it is invoked to
+ + * free the range; otherwise, the range is deallocated using kfree().
+ + */
+ +static void drm_gpusvm_range_destroy(struct kref *refcount)
+ +{
+ +      struct drm_gpusvm_range *range =
+ +              container_of(refcount, struct drm_gpusvm_range, refcount);
+ +      struct drm_gpusvm *gpusvm = range->gpusvm;
+ +
+ +      if (gpusvm->ops->range_free)
+ +              gpusvm->ops->range_free(range);
+ +      else
+ +              kfree(range);
+ +}
+ +
+ +/**
+ + * drm_gpusvm_range_put() - Put a reference to GPU SVM range
+ + * @range: Pointer to the GPU SVM range
+ + *
+ + * This function decrements the reference count of the specified GPU SVM range
+ + * and frees it when the count reaches zero.
+ + */
+ +void drm_gpusvm_range_put(struct drm_gpusvm_range *range)
+ +{
+ +      kref_put(&range->refcount, drm_gpusvm_range_destroy);
+ +}
+ +EXPORT_SYMBOL_GPL(drm_gpusvm_range_put);
+ +
+ +/**
+ + * drm_gpusvm_range_pages_valid() - GPU SVM range pages valid
+ + * @gpusvm: Pointer to the GPU SVM structure
+ + * @range: Pointer to the GPU SVM range structure
+ + *
+ + * This function determines if a GPU SVM range pages are valid. Expected be
+ + * called holding gpusvm->notifier_lock and as the last step before committing a
+ + * GPU binding. This is akin to a notifier seqno check in the HMM documentation
+ + * but due to wider notifiers (i.e., notifiers which span multiple ranges) this
+ + * function is required for finer grained checking (i.e., per range) if pages
+ + * are valid.
+ + *
+ + * Return: True if GPU SVM range has valid pages, False otherwise
+ + */
+ +bool drm_gpusvm_range_pages_valid(struct drm_gpusvm *gpusvm,
+ +                                struct drm_gpusvm_range *range)
+ +{
+ +      lockdep_assert_held(&gpusvm->notifier_lock);
+ +
+ +      return range->flags.has_devmem_pages || range->flags.has_dma_mapping;
+ +}
+ +EXPORT_SYMBOL_GPL(drm_gpusvm_range_pages_valid);
+ +
+ +/**
+ + * drm_gpusvm_range_pages_valid_unlocked() - GPU SVM range pages valid unlocked
+ + * @gpusvm: Pointer to the GPU SVM structure
+ + * @range: Pointer to the GPU SVM range structure
+ + *
+ + * This function determines if a GPU SVM range pages are valid. Expected be
+ + * called without holding gpusvm->notifier_lock.
+ + *
+ + * Return: True if GPU SVM range has valid pages, False otherwise
+ + */
+ +static bool
+ +drm_gpusvm_range_pages_valid_unlocked(struct drm_gpusvm *gpusvm,
+ +                                    struct drm_gpusvm_range *range)
+ +{
+ +      bool pages_valid;
+ +
+ +      if (!range->dma_addr)
+ +              return false;
+ +
+ +      drm_gpusvm_notifier_lock(gpusvm);
+ +      pages_valid = drm_gpusvm_range_pages_valid(gpusvm, range);
+ +      if (!pages_valid)
+ +              drm_gpusvm_range_free_pages(gpusvm, range);
+ +      drm_gpusvm_notifier_unlock(gpusvm);
+ +
+ +      return pages_valid;
+ +}
+ +
+ +/**
+ + * drm_gpusvm_range_get_pages() - Get pages for a GPU SVM range
+ + * @gpusvm: Pointer to the GPU SVM structure
+ + * @range: Pointer to the GPU SVM range structure
+ + * @ctx: GPU SVM context
+ + *
+ + * This function gets pages for a GPU SVM range and ensures they are mapped for
+ + * DMA access.
+ + *
+ + * Return: 0 on success, negative error code on failure.
+ + */
+ +int drm_gpusvm_range_get_pages(struct drm_gpusvm *gpusvm,
+ +                             struct drm_gpusvm_range *range,
+ +                             const struct drm_gpusvm_ctx *ctx)
+ +{
+ +      struct mmu_interval_notifier *notifier = &range->notifier->notifier;
+ +      struct hmm_range hmm_range = {
+ +              .default_flags = HMM_PFN_REQ_FAULT | (ctx->read_only ? 0 :
+ +                      HMM_PFN_REQ_WRITE),
+ +              .notifier = notifier,
+ +              .start = drm_gpusvm_range_start(range),
+ +              .end = drm_gpusvm_range_end(range),
+ +              .dev_private_owner = gpusvm->device_private_page_owner,
+ +      };
+ +      struct mm_struct *mm = gpusvm->mm;
+ +      struct drm_gpusvm_zdd *zdd;
+ +      unsigned long timeout =
+ +              jiffies + msecs_to_jiffies(HMM_RANGE_DEFAULT_TIMEOUT);
+ +      unsigned long i, j;
+ +      unsigned long npages = npages_in_range(drm_gpusvm_range_start(range),
+ +                                             drm_gpusvm_range_end(range));
+ +      unsigned long num_dma_mapped;
+ +      unsigned int order = 0;
+ +      unsigned long *pfns;
+ +      struct page **pages;
+ +      int err = 0;
+ +      struct dev_pagemap *pagemap;
+ +      struct drm_pagemap *dpagemap;
+ +
+ +retry:
+ +      hmm_range.notifier_seq = mmu_interval_read_begin(notifier);
+ +      if (drm_gpusvm_range_pages_valid_unlocked(gpusvm, range))
+ +              goto set_seqno;
+ +
+ +      pfns = kvmalloc_array(npages, sizeof(*pfns), GFP_KERNEL);
+ +      if (!pfns)
+ +              return -ENOMEM;
+ +
+ +      if (!mmget_not_zero(mm)) {
+ +              err = -EFAULT;
+ +              goto err_free;
+ +      }
+ +
+ +      hmm_range.hmm_pfns = pfns;
+ +      while (true) {
+ +              mmap_read_lock(mm);
+ +              err = hmm_range_fault(&hmm_range);
+ +              mmap_read_unlock(mm);
+ +
+ +              if (err == -EBUSY) {
+ +                      if (time_after(jiffies, timeout))
+ +                              break;
+ +
+ +                      hmm_range.notifier_seq =
+ +                              mmu_interval_read_begin(notifier);
+ +                      continue;
+ +              }
+ +              break;
+ +      }
+ +      mmput(mm);
+ +      if (err)
+ +              goto err_free;
+ +
+ +      pages = (struct page **)pfns;
+ +map_pages:
+ +      /*
+ +       * Perform all dma mappings under the notifier lock to not
+ +       * access freed pages. A notifier will either block on
+ +       * the notifier lock or unmap dma.
+ +       */
+ +      drm_gpusvm_notifier_lock(gpusvm);
+ +
+ +      if (range->flags.unmapped) {
+ +              drm_gpusvm_notifier_unlock(gpusvm);
+ +              err = -EFAULT;
+ +              goto err_free;
+ +      }
+ +
+ +      if (mmu_interval_read_retry(notifier, hmm_range.notifier_seq)) {
+ +              drm_gpusvm_notifier_unlock(gpusvm);
+ +              kvfree(pfns);
+ +              goto retry;
+ +      }
+ +
+ +      if (!range->dma_addr) {
+ +              /* Unlock and restart mapping to allocate memory. */
+ +              drm_gpusvm_notifier_unlock(gpusvm);
+ +              range->dma_addr = kvmalloc_array(npages,
+ +                                               sizeof(*range->dma_addr),
+ +                                               GFP_KERNEL);
+ +              if (!range->dma_addr) {
+ +                      err = -ENOMEM;
+ +                      goto err_free;
+ +              }
+ +              goto map_pages;
+ +      }
+ +
+ +      zdd = NULL;
+ +      num_dma_mapped = 0;
+ +      for (i = 0, j = 0; i < npages; ++j) {
+ +              struct page *page = hmm_pfn_to_page(pfns[i]);
+ +
+ +              order = hmm_pfn_to_map_order(pfns[i]);
+ +              if (is_device_private_page(page) ||
+ +                  is_device_coherent_page(page)) {
+ +                      if (zdd != page->zone_device_data && i > 0) {
+ +                              err = -EOPNOTSUPP;
+ +                              goto err_unmap;
+ +                      }
+ +                      zdd = page->zone_device_data;
-                               pagemap = page->pgmap;
++                      if (pagemap != page_pgmap(page)) {
+ +                              if (i > 0) {
+ +                                      err = -EOPNOTSUPP;
+ +                                      goto err_unmap;
+ +                              }
+ +
++                              pagemap = page_pgmap(page);
+ +                              dpagemap = zdd->devmem_allocation->dpagemap;
+ +                              if (drm_WARN_ON(gpusvm->drm, !dpagemap)) {
+ +                                      /*
+ +                                       * Raced. This is not supposed to happen
+ +                                       * since hmm_range_fault() should've migrated
+ +                                       * this page to system.
+ +                                       */
+ +                                      err = -EAGAIN;
+ +                                      goto err_unmap;
+ +                              }
+ +                      }
+ +                      range->dma_addr[j] =
+ +                              dpagemap->ops->device_map(dpagemap,
+ +                                                        gpusvm->drm->dev,
+ +                                                        page, order,
+ +                                                        DMA_BIDIRECTIONAL);
+ +                      if (dma_mapping_error(gpusvm->drm->dev,
+ +                                            range->dma_addr[j].addr)) {
+ +                              err = -EFAULT;
+ +                              goto err_unmap;
+ +                      }
+ +
+ +                      pages[i] = page;
+ +              } else {
+ +                      dma_addr_t addr;
+ +
+ +                      if (is_zone_device_page(page) || zdd) {
+ +                              err = -EOPNOTSUPP;
+ +                              goto err_unmap;
+ +                      }
+ +
+ +                      addr = dma_map_page(gpusvm->drm->dev,
+ +                                          page, 0,
+ +                                          PAGE_SIZE << order,
+ +                                          DMA_BIDIRECTIONAL);
+ +                      if (dma_mapping_error(gpusvm->drm->dev, addr)) {
+ +                              err = -EFAULT;
+ +                              goto err_unmap;
+ +                      }
+ +
+ +                      range->dma_addr[j] = drm_pagemap_device_addr_encode
+ +                              (addr, DRM_INTERCONNECT_SYSTEM, order,
+ +                               DMA_BIDIRECTIONAL);
+ +              }
+ +              i += 1 << order;
+ +              num_dma_mapped = i;
+ +      }
+ +
+ +      range->flags.has_dma_mapping = true;
+ +      if (zdd) {
+ +              range->flags.has_devmem_pages = true;
+ +              range->dpagemap = dpagemap;
+ +      }
+ +
+ +      drm_gpusvm_notifier_unlock(gpusvm);
+ +      kvfree(pfns);
+ +set_seqno:
+ +      range->notifier_seq = hmm_range.notifier_seq;
+ +
+ +      return 0;
+ +
+ +err_unmap:
+ +      __drm_gpusvm_range_unmap_pages(gpusvm, range, num_dma_mapped);
+ +      drm_gpusvm_notifier_unlock(gpusvm);
+ +err_free:
+ +      kvfree(pfns);
+ +      if (err == -EAGAIN)
+ +              goto retry;
+ +      return err;
+ +}
+ +EXPORT_SYMBOL_GPL(drm_gpusvm_range_get_pages);
+ +
+ +/**
+ + * drm_gpusvm_range_unmap_pages() - Unmap pages associated with a GPU SVM range
+ + * @gpusvm: Pointer to the GPU SVM structure
+ + * @range: Pointer to the GPU SVM range structure
+ + * @ctx: GPU SVM context
+ + *
+ + * This function unmaps pages associated with a GPU SVM range. If @in_notifier
+ + * is set, it is assumed that gpusvm->notifier_lock is held in write mode; if it
+ + * is clear, it acquires gpusvm->notifier_lock in read mode. Must be called on
+ + * each GPU SVM range attached to notifier in gpusvm->ops->invalidate for IOMMU
+ + * security model.
+ + */
+ +void drm_gpusvm_range_unmap_pages(struct drm_gpusvm *gpusvm,
+ +                                struct drm_gpusvm_range *range,
+ +                                const struct drm_gpusvm_ctx *ctx)
+ +{
+ +      unsigned long npages = npages_in_range(drm_gpusvm_range_start(range),
+ +                                             drm_gpusvm_range_end(range));
+ +
+ +      if (ctx->in_notifier)
+ +              lockdep_assert_held_write(&gpusvm->notifier_lock);
+ +      else
+ +              drm_gpusvm_notifier_lock(gpusvm);
+ +
+ +      __drm_gpusvm_range_unmap_pages(gpusvm, range, npages);
+ +
+ +      if (!ctx->in_notifier)
+ +              drm_gpusvm_notifier_unlock(gpusvm);
+ +}
+ +EXPORT_SYMBOL_GPL(drm_gpusvm_range_unmap_pages);
+ +
+ +/**
+ + * drm_gpusvm_migration_unlock_put_page() - Put a migration page
+ + * @page: Pointer to the page to put
+ + *
+ + * This function unlocks and puts a page.
+ + */
+ +static void drm_gpusvm_migration_unlock_put_page(struct page *page)
+ +{
+ +      unlock_page(page);
+ +      put_page(page);
+ +}
+ +
+ +/**
+ + * drm_gpusvm_migration_unlock_put_pages() - Put migration pages
+ + * @npages: Number of pages
+ + * @migrate_pfn: Array of migrate page frame numbers
+ + *
+ + * This function unlocks and puts an array of pages.
+ + */
+ +static void drm_gpusvm_migration_unlock_put_pages(unsigned long npages,
+ +                                                unsigned long *migrate_pfn)
+ +{
+ +      unsigned long i;
+ +
+ +      for (i = 0; i < npages; ++i) {
+ +              struct page *page;
+ +
+ +              if (!migrate_pfn[i])
+ +                      continue;
+ +
+ +              page = migrate_pfn_to_page(migrate_pfn[i]);
+ +              drm_gpusvm_migration_unlock_put_page(page);
+ +              migrate_pfn[i] = 0;
+ +      }
+ +}
+ +
+ +/**
+ + * drm_gpusvm_get_devmem_page() - Get a reference to a device memory page
+ + * @page: Pointer to the page
+ + * @zdd: Pointer to the GPU SVM zone device data
+ + *
+ + * This function associates the given page with the specified GPU SVM zone
+ + * device data and initializes it for zone device usage.
+ + */
+ +static void drm_gpusvm_get_devmem_page(struct page *page,
+ +                                     struct drm_gpusvm_zdd *zdd)
+ +{
+ +      page->zone_device_data = drm_gpusvm_zdd_get(zdd);
+ +      zone_device_page_init(page);
+ +}
+ +
+ +/**
+ + * drm_gpusvm_migrate_map_pages() - Map migration pages for GPU SVM migration
+ + * @dev: The device for which the pages are being mapped
+ + * @dma_addr: Array to store DMA addresses corresponding to mapped pages
+ + * @migrate_pfn: Array of migrate page frame numbers to map
+ + * @npages: Number of pages to map
+ + * @dir: Direction of data transfer (e.g., DMA_BIDIRECTIONAL)
+ + *
+ + * This function maps pages of memory for migration usage in GPU SVM. It
+ + * iterates over each page frame number provided in @migrate_pfn, maps the
+ + * corresponding page, and stores the DMA address in the provided @dma_addr
+ + * array.
+ + *
+ + * Return: 0 on success, -EFAULT if an error occurs during mapping.
+ + */
+ +static int drm_gpusvm_migrate_map_pages(struct device *dev,
+ +                                      dma_addr_t *dma_addr,
+ +                                      unsigned long *migrate_pfn,
+ +                                      unsigned long npages,
+ +                                      enum dma_data_direction dir)
+ +{
+ +      unsigned long i;
+ +
+ +      for (i = 0; i < npages; ++i) {
+ +              struct page *page = migrate_pfn_to_page(migrate_pfn[i]);
+ +
+ +              if (!page)
+ +                      continue;
+ +
+ +              if (WARN_ON_ONCE(is_zone_device_page(page)))
+ +                      return -EFAULT;
+ +
+ +              dma_addr[i] = dma_map_page(dev, page, 0, PAGE_SIZE, dir);
+ +              if (dma_mapping_error(dev, dma_addr[i]))
+ +                      return -EFAULT;
+ +      }
+ +
+ +      return 0;
+ +}
+ +
+ +/**
+ + * drm_gpusvm_migrate_unmap_pages() - Unmap pages previously mapped for GPU SVM migration
+ + * @dev: The device for which the pages were mapped
+ + * @dma_addr: Array of DMA addresses corresponding to mapped pages
+ + * @npages: Number of pages to unmap
+ + * @dir: Direction of data transfer (e.g., DMA_BIDIRECTIONAL)
+ + *
+ + * This function unmaps previously mapped pages of memory for GPU Shared Virtual
+ + * Memory (SVM). It iterates over each DMA address provided in @dma_addr, checks
+ + * if it's valid and not already unmapped, and unmaps the corresponding page.
+ + */
+ +static void drm_gpusvm_migrate_unmap_pages(struct device *dev,
+ +                                         dma_addr_t *dma_addr,
+ +                                         unsigned long npages,
+ +                                         enum dma_data_direction dir)
+ +{
+ +      unsigned long i;
+ +
+ +      for (i = 0; i < npages; ++i) {
+ +              if (!dma_addr[i] || dma_mapping_error(dev, dma_addr[i]))
+ +                      continue;
+ +
+ +              dma_unmap_page(dev, dma_addr[i], PAGE_SIZE, dir);
+ +      }
+ +}
+ +
+ +/**
+ + * drm_gpusvm_migrate_to_devmem() - Migrate GPU SVM range to device memory
+ + * @gpusvm: Pointer to the GPU SVM structure
+ + * @range: Pointer to the GPU SVM range structure
+ + * @devmem_allocation: Pointer to the device memory allocation. The caller
+ + *                     should hold a reference to the device memory allocation,
+ + *                     which should be dropped via ops->devmem_release or upon
+ + *                     the failure of this function.
+ + * @ctx: GPU SVM context
+ + *
+ + * This function migrates the specified GPU SVM range to device memory. It
+ + * performs the necessary setup and invokes the driver-specific operations for
+ + * migration to device memory. Upon successful return, @devmem_allocation can
+ + * safely reference @range until ops->devmem_release is called which only upon
+ + * successful return. Expected to be called while holding the mmap lock in read
+ + * mode.
+ + *
+ + * Return: 0 on success, negative error code on failure.
+ + */
+ +int drm_gpusvm_migrate_to_devmem(struct drm_gpusvm *gpusvm,
+ +                               struct drm_gpusvm_range *range,
+ +                               struct drm_gpusvm_devmem *devmem_allocation,
+ +                               const struct drm_gpusvm_ctx *ctx)
+ +{
+ +      const struct drm_gpusvm_devmem_ops *ops = devmem_allocation->ops;
+ +      unsigned long start = drm_gpusvm_range_start(range),
+ +                    end = drm_gpusvm_range_end(range);
+ +      struct migrate_vma migrate = {
+ +              .start          = start,
+ +              .end            = end,
+ +              .pgmap_owner    = gpusvm->device_private_page_owner,
+ +              .flags          = MIGRATE_VMA_SELECT_SYSTEM,
+ +      };
+ +      struct mm_struct *mm = gpusvm->mm;
+ +      unsigned long i, npages = npages_in_range(start, end);
+ +      struct vm_area_struct *vas;
+ +      struct drm_gpusvm_zdd *zdd = NULL;
+ +      struct page **pages;
+ +      dma_addr_t *dma_addr;
+ +      void *buf;
+ +      int err;
+ +
+ +      mmap_assert_locked(gpusvm->mm);
+ +
+ +      if (!range->flags.migrate_devmem)
+ +              return -EINVAL;
+ +
+ +      if (!ops->populate_devmem_pfn || !ops->copy_to_devmem ||
+ +          !ops->copy_to_ram)
+ +              return -EOPNOTSUPP;
+ +
+ +      vas = vma_lookup(mm, start);
+ +      if (!vas) {
+ +              err = -ENOENT;
+ +              goto err_out;
+ +      }
+ +
+ +      if (end > vas->vm_end || start < vas->vm_start) {
+ +              err = -EINVAL;
+ +              goto err_out;
+ +      }
+ +
+ +      if (!vma_is_anonymous(vas)) {
+ +              err = -EBUSY;
+ +              goto err_out;
+ +      }
+ +
+ +      buf = kvcalloc(npages, 2 * sizeof(*migrate.src) + sizeof(*dma_addr) +
+ +                     sizeof(*pages), GFP_KERNEL);
+ +      if (!buf) {
+ +              err = -ENOMEM;
+ +              goto err_out;
+ +      }
+ +      dma_addr = buf + (2 * sizeof(*migrate.src) * npages);
+ +      pages = buf + (2 * sizeof(*migrate.src) + sizeof(*dma_addr)) * npages;
+ +
+ +      zdd = drm_gpusvm_zdd_alloc(gpusvm->device_private_page_owner);
+ +      if (!zdd) {
+ +              err = -ENOMEM;
+ +              goto err_free;
+ +      }
+ +
+ +      migrate.vma = vas;
+ +      migrate.src = buf;
+ +      migrate.dst = migrate.src + npages;
+ +
+ +      err = migrate_vma_setup(&migrate);
+ +      if (err)
+ +              goto err_free;
+ +
+ +      if (!migrate.cpages) {
+ +              err = -EFAULT;
+ +              goto err_free;
+ +      }
+ +
+ +      if (migrate.cpages != npages) {
+ +              err = -EBUSY;
+ +              goto err_finalize;
+ +      }
+ +
+ +      err = ops->populate_devmem_pfn(devmem_allocation, npages, migrate.dst);
+ +      if (err)
+ +              goto err_finalize;
+ +
+ +      err = drm_gpusvm_migrate_map_pages(devmem_allocation->dev, dma_addr,
+ +                                         migrate.src, npages, DMA_TO_DEVICE);
+ +      if (err)
+ +              goto err_finalize;
+ +
+ +      for (i = 0; i < npages; ++i) {
+ +              struct page *page = pfn_to_page(migrate.dst[i]);
+ +
+ +              pages[i] = page;
+ +              migrate.dst[i] = migrate_pfn(migrate.dst[i]);
+ +              drm_gpusvm_get_devmem_page(page, zdd);
+ +      }
+ +
+ +      err = ops->copy_to_devmem(pages, dma_addr, npages);
+ +      if (err)
+ +              goto err_finalize;
+ +
+ +      /* Upon success bind devmem allocation to range and zdd */
+ +      zdd->devmem_allocation = devmem_allocation;     /* Owns ref */
+ +
+ +err_finalize:
+ +      if (err)
+ +              drm_gpusvm_migration_unlock_put_pages(npages, migrate.dst);
+ +      migrate_vma_pages(&migrate);
+ +      migrate_vma_finalize(&migrate);
+ +      drm_gpusvm_migrate_unmap_pages(devmem_allocation->dev, dma_addr, npages,
+ +                                     DMA_TO_DEVICE);
+ +err_free:
+ +      if (zdd)
+ +              drm_gpusvm_zdd_put(zdd);
+ +      kvfree(buf);
+ +err_out:
+ +      return err;
+ +}
+ +EXPORT_SYMBOL_GPL(drm_gpusvm_migrate_to_devmem);
+ +
+ +/**
+ + * drm_gpusvm_migrate_populate_ram_pfn() - Populate RAM PFNs for a VM area
+ + * @vas: Pointer to the VM area structure, can be NULL
+ + * @fault_page: Fault page
+ + * @npages: Number of pages to populate
+ + * @mpages: Number of pages to migrate
+ + * @src_mpfn: Source array of migrate PFNs
+ + * @mpfn: Array of migrate PFNs to populate
+ + * @addr: Start address for PFN allocation
+ + *
+ + * This function populates the RAM migrate page frame numbers (PFNs) for the
+ + * specified VM area structure. It allocates and locks pages in the VM area for
+ + * RAM usage. If vas is non-NULL use alloc_page_vma for allocation, if NULL use
+ + * alloc_page for allocation.
+ + *
+ + * Return: 0 on success, negative error code on failure.
+ + */
+ +static int drm_gpusvm_migrate_populate_ram_pfn(struct vm_area_struct *vas,
+ +                                             struct page *fault_page,
+ +                                             unsigned long npages,
+ +                                             unsigned long *mpages,
+ +                                             unsigned long *src_mpfn,
+ +                                             unsigned long *mpfn,
+ +                                             unsigned long addr)
+ +{
+ +      unsigned long i;
+ +
+ +      for (i = 0; i < npages; ++i, addr += PAGE_SIZE) {
+ +              struct page *page, *src_page;
+ +
+ +              if (!(src_mpfn[i] & MIGRATE_PFN_MIGRATE))
+ +                      continue;
+ +
+ +              src_page = migrate_pfn_to_page(src_mpfn[i]);
+ +              if (!src_page)
+ +                      continue;
+ +
+ +              if (fault_page) {
+ +                      if (src_page->zone_device_data !=
+ +                          fault_page->zone_device_data)
+ +                              continue;
+ +              }
+ +
+ +              if (vas)
+ +                      page = alloc_page_vma(GFP_HIGHUSER, vas, addr);
+ +              else
+ +                      page = alloc_page(GFP_HIGHUSER);
+ +
+ +              if (!page)
+ +                      goto free_pages;
+ +
+ +              mpfn[i] = migrate_pfn(page_to_pfn(page));
+ +      }
+ +
+ +      for (i = 0; i < npages; ++i) {
+ +              struct page *page = migrate_pfn_to_page(mpfn[i]);
+ +
+ +              if (!page)
+ +                      continue;
+ +
+ +              WARN_ON_ONCE(!trylock_page(page));
+ +              ++*mpages;
+ +      }
+ +
+ +      return 0;
+ +
+ +free_pages:
+ +      for (i = 0; i < npages; ++i) {
+ +              struct page *page = migrate_pfn_to_page(mpfn[i]);
+ +
+ +              if (!page)
+ +                      continue;
+ +
+ +              put_page(page);
+ +              mpfn[i] = 0;
+ +      }
+ +      return -ENOMEM;
+ +}
+ +
+ +/**
+ + * drm_gpusvm_evict_to_ram() - Evict GPU SVM range to RAM
+ + * @devmem_allocation: Pointer to the device memory allocation
+ + *
+ + * Similar to __drm_gpusvm_migrate_to_ram but does not require mmap lock and
+ + * migration done via migrate_device_* functions.
+ + *
+ + * Return: 0 on success, negative error code on failure.
+ + */
+ +int drm_gpusvm_evict_to_ram(struct drm_gpusvm_devmem *devmem_allocation)
+ +{
+ +      const struct drm_gpusvm_devmem_ops *ops = devmem_allocation->ops;
+ +      unsigned long npages, mpages = 0;
+ +      struct page **pages;
+ +      unsigned long *src, *dst;
+ +      dma_addr_t *dma_addr;
+ +      void *buf;
+ +      int i, err = 0;
+ +      unsigned int retry_count = 2;
+ +
+ +      npages = devmem_allocation->size >> PAGE_SHIFT;
+ +
+ +retry:
+ +      if (!mmget_not_zero(devmem_allocation->mm))
+ +              return -EFAULT;
+ +
+ +      buf = kvcalloc(npages, 2 * sizeof(*src) + sizeof(*dma_addr) +
+ +                     sizeof(*pages), GFP_KERNEL);
+ +      if (!buf) {
+ +              err = -ENOMEM;
+ +              goto err_out;
+ +      }
+ +      src = buf;
+ +      dst = buf + (sizeof(*src) * npages);
+ +      dma_addr = buf + (2 * sizeof(*src) * npages);
+ +      pages = buf + (2 * sizeof(*src) + sizeof(*dma_addr)) * npages;
+ +
+ +      err = ops->populate_devmem_pfn(devmem_allocation, npages, src);
+ +      if (err)
+ +              goto err_free;
+ +
+ +      err = migrate_device_pfns(src, npages);
+ +      if (err)
+ +              goto err_free;
+ +
+ +      err = drm_gpusvm_migrate_populate_ram_pfn(NULL, NULL, npages, &mpages,
+ +                                                src, dst, 0);
+ +      if (err || !mpages)
+ +              goto err_finalize;
+ +
+ +      err = drm_gpusvm_migrate_map_pages(devmem_allocation->dev, dma_addr,
+ +                                         dst, npages, DMA_FROM_DEVICE);
+ +      if (err)
+ +              goto err_finalize;
+ +
+ +      for (i = 0; i < npages; ++i)
+ +              pages[i] = migrate_pfn_to_page(src[i]);
+ +
+ +      err = ops->copy_to_ram(pages, dma_addr, npages);
+ +      if (err)
+ +              goto err_finalize;
+ +
+ +err_finalize:
+ +      if (err)
+ +              drm_gpusvm_migration_unlock_put_pages(npages, dst);
+ +      migrate_device_pages(src, dst, npages);
+ +      migrate_device_finalize(src, dst, npages);
+ +      drm_gpusvm_migrate_unmap_pages(devmem_allocation->dev, dma_addr, npages,
+ +                                     DMA_FROM_DEVICE);
+ +err_free:
+ +      kvfree(buf);
+ +err_out:
+ +      mmput_async(devmem_allocation->mm);
+ +
+ +      if (completion_done(&devmem_allocation->detached))
+ +              return 0;
+ +
+ +      if (retry_count--) {
+ +              cond_resched();
+ +              goto retry;
+ +      }
+ +
+ +      return err ?: -EBUSY;
+ +}
+ +EXPORT_SYMBOL_GPL(drm_gpusvm_evict_to_ram);
+ +
+ +/**
+ + * __drm_gpusvm_migrate_to_ram() - Migrate GPU SVM range to RAM (internal)
+ + * @vas: Pointer to the VM area structure
+ + * @device_private_page_owner: Device private pages owner
+ + * @page: Pointer to the page for fault handling (can be NULL)
+ + * @fault_addr: Fault address
+ + * @size: Size of migration
+ + *
+ + * This internal function performs the migration of the specified GPU SVM range
+ + * to RAM. It sets up the migration, populates + dma maps RAM PFNs, and
+ + * invokes the driver-specific operations for migration to RAM.
+ + *
+ + * Return: 0 on success, negative error code on failure.
+ + */
+ +static int __drm_gpusvm_migrate_to_ram(struct vm_area_struct *vas,
+ +                                     void *device_private_page_owner,
+ +                                     struct page *page,
+ +                                     unsigned long fault_addr,
+ +                                     unsigned long size)
+ +{
+ +      struct migrate_vma migrate = {
+ +              .vma            = vas,
+ +              .pgmap_owner    = device_private_page_owner,
+ +              .flags          = MIGRATE_VMA_SELECT_DEVICE_PRIVATE |
+ +                      MIGRATE_VMA_SELECT_DEVICE_COHERENT,
+ +              .fault_page     = page,
+ +      };
+ +      struct drm_gpusvm_zdd *zdd;
+ +      const struct drm_gpusvm_devmem_ops *ops;
+ +      struct device *dev = NULL;
+ +      unsigned long npages, mpages = 0;
+ +      struct page **pages;
+ +      dma_addr_t *dma_addr;
+ +      unsigned long start, end;
+ +      void *buf;
+ +      int i, err = 0;
+ +
+ +      start = ALIGN_DOWN(fault_addr, size);
+ +      end = ALIGN(fault_addr + 1, size);
+ +
+ +      /* Corner where VMA area struct has been partially unmapped */
+ +      if (start < vas->vm_start)
+ +              start = vas->vm_start;
+ +      if (end > vas->vm_end)
+ +              end = vas->vm_end;
+ +
+ +      migrate.start = start;
+ +      migrate.end = end;
+ +      npages = npages_in_range(start, end);
+ +
+ +      buf = kvcalloc(npages, 2 * sizeof(*migrate.src) + sizeof(*dma_addr) +
+ +                     sizeof(*pages), GFP_KERNEL);
+ +      if (!buf) {
+ +              err = -ENOMEM;
+ +              goto err_out;
+ +      }
+ +      dma_addr = buf + (2 * sizeof(*migrate.src) * npages);
+ +      pages = buf + (2 * sizeof(*migrate.src) + sizeof(*dma_addr)) * npages;
+ +
+ +      migrate.vma = vas;
+ +      migrate.src = buf;
+ +      migrate.dst = migrate.src + npages;
+ +
+ +      err = migrate_vma_setup(&migrate);
+ +      if (err)
+ +              goto err_free;
+ +
+ +      /* Raced with another CPU fault, nothing to do */
+ +      if (!migrate.cpages)
+ +              goto err_free;
+ +
+ +      if (!page) {
+ +              for (i = 0; i < npages; ++i) {
+ +                      if (!(migrate.src[i] & MIGRATE_PFN_MIGRATE))
+ +                              continue;
+ +
+ +                      page = migrate_pfn_to_page(migrate.src[i]);
+ +                      break;
+ +              }
+ +
+ +              if (!page)
+ +                      goto err_finalize;
+ +      }
+ +      zdd = page->zone_device_data;
+ +      ops = zdd->devmem_allocation->ops;
+ +      dev = zdd->devmem_allocation->dev;
+ +
+ +      err = drm_gpusvm_migrate_populate_ram_pfn(vas, page, npages, &mpages,
+ +                                                migrate.src, migrate.dst,
+ +                                                start);
+ +      if (err)
+ +              goto err_finalize;
+ +
+ +      err = drm_gpusvm_migrate_map_pages(dev, dma_addr, migrate.dst, npages,
+ +                                         DMA_FROM_DEVICE);
+ +      if (err)
+ +              goto err_finalize;
+ +
+ +      for (i = 0; i < npages; ++i)
+ +              pages[i] = migrate_pfn_to_page(migrate.src[i]);
+ +
+ +      err = ops->copy_to_ram(pages, dma_addr, npages);
+ +      if (err)
+ +              goto err_finalize;
+ +
+ +err_finalize:
+ +      if (err)
+ +              drm_gpusvm_migration_unlock_put_pages(npages, migrate.dst);
+ +      migrate_vma_pages(&migrate);
+ +      migrate_vma_finalize(&migrate);
+ +      if (dev)
+ +              drm_gpusvm_migrate_unmap_pages(dev, dma_addr, npages,
+ +                                             DMA_FROM_DEVICE);
+ +err_free:
+ +      kvfree(buf);
+ +err_out:
+ +
+ +      return err;
+ +}
+ +
+ +/**
+ + * drm_gpusvm_range_evict - Evict GPU SVM range
+ + * @range: Pointer to the GPU SVM range to be removed
+ + *
+ + * This function evicts the specified GPU SVM range. This function will not
+ + * evict coherent pages.
+ + *
+ + * Return: 0 on success, a negative error code on failure.
+ + */
+ +int drm_gpusvm_range_evict(struct drm_gpusvm *gpusvm,
+ +                         struct drm_gpusvm_range *range)
+ +{
+ +      struct mmu_interval_notifier *notifier = &range->notifier->notifier;
+ +      struct hmm_range hmm_range = {
+ +              .default_flags = HMM_PFN_REQ_FAULT,
+ +              .notifier = notifier,
+ +              .start = drm_gpusvm_range_start(range),
+ +              .end = drm_gpusvm_range_end(range),
+ +              .dev_private_owner = NULL,
+ +      };
+ +      unsigned long timeout =
+ +              jiffies + msecs_to_jiffies(HMM_RANGE_DEFAULT_TIMEOUT);
+ +      unsigned long *pfns;
+ +      unsigned long npages = npages_in_range(drm_gpusvm_range_start(range),
+ +                                             drm_gpusvm_range_end(range));
+ +      int err = 0;
+ +      struct mm_struct *mm = gpusvm->mm;
+ +
+ +      if (!mmget_not_zero(mm))
+ +              return -EFAULT;
+ +
+ +      pfns = kvmalloc_array(npages, sizeof(*pfns), GFP_KERNEL);
+ +      if (!pfns)
+ +              return -ENOMEM;
+ +
+ +      hmm_range.hmm_pfns = pfns;
+ +      while (!time_after(jiffies, timeout)) {
+ +              hmm_range.notifier_seq = mmu_interval_read_begin(notifier);
+ +              if (time_after(jiffies, timeout)) {
+ +                      err = -ETIME;
+ +                      break;
+ +              }
+ +
+ +              mmap_read_lock(mm);
+ +              err = hmm_range_fault(&hmm_range);
+ +              mmap_read_unlock(mm);
+ +              if (err != -EBUSY)
+ +                      break;
+ +      }
+ +
+ +      kvfree(pfns);
+ +      mmput(mm);
+ +
+ +      return err;
+ +}
+ +EXPORT_SYMBOL_GPL(drm_gpusvm_range_evict);
+ +
+ +/**
+ + * drm_gpusvm_page_free() - Put GPU SVM zone device data associated with a page
+ + * @page: Pointer to the page
+ + *
+ + * This function is a callback used to put the GPU SVM zone device data
+ + * associated with a page when it is being released.
+ + */
+ +static void drm_gpusvm_page_free(struct page *page)
+ +{
+ +      drm_gpusvm_zdd_put(page->zone_device_data);
+ +}
+ +
+ +/**
+ + * drm_gpusvm_migrate_to_ram() - Migrate GPU SVM range to RAM (page fault handler)
+ + * @vmf: Pointer to the fault information structure
+ + *
+ + * This function is a page fault handler used to migrate a GPU SVM range to RAM.
+ + * It retrieves the GPU SVM range information from the faulting page and invokes
+ + * the internal migration function to migrate the range back to RAM.
+ + *
+ + * Return: VM_FAULT_SIGBUS on failure, 0 on success.
+ + */
+ +static vm_fault_t drm_gpusvm_migrate_to_ram(struct vm_fault *vmf)
+ +{
+ +      struct drm_gpusvm_zdd *zdd = vmf->page->zone_device_data;
+ +      int err;
+ +
+ +      err = __drm_gpusvm_migrate_to_ram(vmf->vma,
+ +                                        zdd->device_private_page_owner,
+ +                                        vmf->page, vmf->address,
+ +                                        zdd->devmem_allocation->size);
+ +
+ +      return err ? VM_FAULT_SIGBUS : 0;
+ +}
+ +
+ +/*
+ + * drm_gpusvm_pagemap_ops - Device page map operations for GPU SVM
+ + */
+ +static const struct dev_pagemap_ops drm_gpusvm_pagemap_ops = {
+ +      .page_free = drm_gpusvm_page_free,
+ +      .migrate_to_ram = drm_gpusvm_migrate_to_ram,
+ +};
+ +
+ +/**
+ + * drm_gpusvm_pagemap_ops_get() - Retrieve GPU SVM device page map operations
+ + *
+ + * Return: Pointer to the GPU SVM device page map operations structure.
+ + */
+ +const struct dev_pagemap_ops *drm_gpusvm_pagemap_ops_get(void)
+ +{
+ +      return &drm_gpusvm_pagemap_ops;
+ +}
+ +EXPORT_SYMBOL_GPL(drm_gpusvm_pagemap_ops_get);
+ +
+ +/**
+ + * drm_gpusvm_has_mapping() - Check if GPU SVM has mapping for the given address range
+ + * @gpusvm: Pointer to the GPU SVM structure.
+ + * @start: Start address
+ + * @end: End address
+ + *
+ + * Return: True if GPU SVM has mapping, False otherwise
+ + */
+ +bool drm_gpusvm_has_mapping(struct drm_gpusvm *gpusvm, unsigned long start,
+ +                          unsigned long end)
+ +{
+ +      struct drm_gpusvm_notifier *notifier;
+ +
+ +      drm_gpusvm_for_each_notifier(notifier, gpusvm, start, end) {
+ +              struct drm_gpusvm_range *range = NULL;
+ +
+ +              drm_gpusvm_for_each_range(range, notifier, start, end)
+ +                      return true;
+ +      }
+ +
+ +      return false;
+ +}
+ +EXPORT_SYMBOL_GPL(drm_gpusvm_has_mapping);
+ +
+ +/**
+ + * drm_gpusvm_range_set_unmapped() - Mark a GPU SVM range as unmapped
+ + * @range: Pointer to the GPU SVM range structure.
+ + * @mmu_range: Pointer to the MMU notifier range structure.
+ + *
+ + * This function marks a GPU SVM range as unmapped and sets the partial_unmap flag
+ + * if the range partially falls within the provided MMU notifier range.
+ + */
+ +void drm_gpusvm_range_set_unmapped(struct drm_gpusvm_range *range,
+ +                                 const struct mmu_notifier_range *mmu_range)
+ +{
+ +      lockdep_assert_held_write(&range->gpusvm->notifier_lock);
+ +
+ +      range->flags.unmapped = true;
+ +      if (drm_gpusvm_range_start(range) < mmu_range->start ||
+ +          drm_gpusvm_range_end(range) > mmu_range->end)
+ +              range->flags.partial_unmap = true;
+ +}
+ +EXPORT_SYMBOL_GPL(drm_gpusvm_range_set_unmapped);
+ +
+ +/**
+ + * drm_gpusvm_devmem_init() - Initialize a GPU SVM device memory allocation
+ + *
+ + * @dev: Pointer to the device structure which device memory allocation belongs to
+ + * @mm: Pointer to the mm_struct for the address space
+ + * @ops: Pointer to the operations structure for GPU SVM device memory
+ + * @dpagemap: The struct drm_pagemap we're allocating from.
+ + * @size: Size of device memory allocation
+ + */
+ +void drm_gpusvm_devmem_init(struct drm_gpusvm_devmem *devmem_allocation,
+ +                          struct device *dev, struct mm_struct *mm,
+ +                          const struct drm_gpusvm_devmem_ops *ops,
+ +                          struct drm_pagemap *dpagemap, size_t size)
+ +{
+ +      init_completion(&devmem_allocation->detached);
+ +      devmem_allocation->dev = dev;
+ +      devmem_allocation->mm = mm;
+ +      devmem_allocation->ops = ops;
+ +      devmem_allocation->dpagemap = dpagemap;
+ +      devmem_allocation->size = size;
+ +}
+ +EXPORT_SYMBOL_GPL(drm_gpusvm_devmem_init);
+ +
+ +MODULE_DESCRIPTION("DRM GPUSVM");
+ +MODULE_LICENSE("GPL");
diff --cc drivers/gpu/drm/nouveau/nouveau_svm.c
Simple merge
diff --cc drivers/gpu/drm/xe/xe_svm.c

index 516898e99b26ff409be8eb9bf1380f44b7c08e35,0000000000000000000000000000000000000000..3e829c87d7b45a582cd3305937ed0ff912ed71d8

mode 100644,000000..100644
--- 1/drivers/gpu/drm/xe/xe_svm.c
--- /dev/null
+++ b/drivers/gpu/drm/xe/xe_svm.c
@@@ -1,946 -1,0 +1,946 @@@
-       return container_of(page->pgmap, struct xe_vram_region, pagemap);
+ +// SPDX-License-Identifier: MIT
+ +/*
+ + * Copyright © 2024 Intel Corporation
+ + */
+ +
+ +#include "xe_bo.h"
+ +#include "xe_gt_tlb_invalidation.h"
+ +#include "xe_migrate.h"
+ +#include "xe_module.h"
+ +#include "xe_pt.h"
+ +#include "xe_svm.h"
+ +#include "xe_ttm_vram_mgr.h"
+ +#include "xe_vm.h"
+ +#include "xe_vm_types.h"
+ +
+ +static bool xe_svm_range_in_vram(struct xe_svm_range *range)
+ +{
+ +      /* Not reliable without notifier lock */
+ +      return range->base.flags.has_devmem_pages;
+ +}
+ +
+ +static bool xe_svm_range_has_vram_binding(struct xe_svm_range *range)
+ +{
+ +      /* Not reliable without notifier lock */
+ +      return xe_svm_range_in_vram(range) && range->tile_present;
+ +}
+ +
+ +static struct xe_vm *gpusvm_to_vm(struct drm_gpusvm *gpusvm)
+ +{
+ +      return container_of(gpusvm, struct xe_vm, svm.gpusvm);
+ +}
+ +
+ +static struct xe_vm *range_to_vm(struct drm_gpusvm_range *r)
+ +{
+ +      return gpusvm_to_vm(r->gpusvm);
+ +}
+ +
+ +static unsigned long xe_svm_range_start(struct xe_svm_range *range)
+ +{
+ +      return drm_gpusvm_range_start(&range->base);
+ +}
+ +
+ +static unsigned long xe_svm_range_end(struct xe_svm_range *range)
+ +{
+ +      return drm_gpusvm_range_end(&range->base);
+ +}
+ +
+ +static unsigned long xe_svm_range_size(struct xe_svm_range *range)
+ +{
+ +      return drm_gpusvm_range_size(&range->base);
+ +}
+ +
+ +#define range_debug(r__, operaton__)                                  \
+ +      vm_dbg(&range_to_vm(&(r__)->base)->xe->drm,                     \
+ +             "%s: asid=%u, gpusvm=%p, vram=%d,%d, seqno=%lu, " \
+ +             "start=0x%014lx, end=0x%014lx, size=%lu",                \
+ +             (operaton__), range_to_vm(&(r__)->base)->usm.asid,       \
+ +             (r__)->base.gpusvm,                                      \
+ +             xe_svm_range_in_vram((r__)) ? 1 : 0,                     \
+ +             xe_svm_range_has_vram_binding((r__)) ? 1 : 0,            \
+ +             (r__)->base.notifier_seq,                                \
+ +             xe_svm_range_start((r__)), xe_svm_range_end((r__)),      \
+ +             xe_svm_range_size((r__)))
+ +
+ +void xe_svm_range_debug(struct xe_svm_range *range, const char *operation)
+ +{
+ +      range_debug(range, operation);
+ +}
+ +
+ +static void *xe_svm_devm_owner(struct xe_device *xe)
+ +{
+ +      return xe;
+ +}
+ +
+ +static struct drm_gpusvm_range *
+ +xe_svm_range_alloc(struct drm_gpusvm *gpusvm)
+ +{
+ +      struct xe_svm_range *range;
+ +
+ +      range = kzalloc(sizeof(*range), GFP_KERNEL);
+ +      if (!range)
+ +              return ERR_PTR(-ENOMEM);
+ +
+ +      INIT_LIST_HEAD(&range->garbage_collector_link);
+ +      xe_vm_get(gpusvm_to_vm(gpusvm));
+ +
+ +      return &range->base;
+ +}
+ +
+ +static void xe_svm_range_free(struct drm_gpusvm_range *range)
+ +{
+ +      xe_vm_put(range_to_vm(range));
+ +      kfree(range);
+ +}
+ +
+ +static struct xe_svm_range *to_xe_range(struct drm_gpusvm_range *r)
+ +{
+ +      return container_of(r, struct xe_svm_range, base);
+ +}
+ +
+ +static void
+ +xe_svm_garbage_collector_add_range(struct xe_vm *vm, struct xe_svm_range *range,
+ +                                 const struct mmu_notifier_range *mmu_range)
+ +{
+ +      struct xe_device *xe = vm->xe;
+ +
+ +      range_debug(range, "GARBAGE COLLECTOR ADD");
+ +
+ +      drm_gpusvm_range_set_unmapped(&range->base, mmu_range);
+ +
+ +      spin_lock(&vm->svm.garbage_collector.lock);
+ +      if (list_empty(&range->garbage_collector_link))
+ +              list_add_tail(&range->garbage_collector_link,
+ +                            &vm->svm.garbage_collector.range_list);
+ +      spin_unlock(&vm->svm.garbage_collector.lock);
+ +
+ +      queue_work(xe_device_get_root_tile(xe)->primary_gt->usm.pf_wq,
+ +                 &vm->svm.garbage_collector.work);
+ +}
+ +
+ +static u8
+ +xe_svm_range_notifier_event_begin(struct xe_vm *vm, struct drm_gpusvm_range *r,
+ +                                const struct mmu_notifier_range *mmu_range,
+ +                                u64 *adj_start, u64 *adj_end)
+ +{
+ +      struct xe_svm_range *range = to_xe_range(r);
+ +      struct xe_device *xe = vm->xe;
+ +      struct xe_tile *tile;
+ +      u8 tile_mask = 0;
+ +      u8 id;
+ +
+ +      xe_svm_assert_in_notifier(vm);
+ +
+ +      range_debug(range, "NOTIFIER");
+ +
+ +      /* Skip if already unmapped or if no binding exist */
+ +      if (range->base.flags.unmapped || !range->tile_present)
+ +              return 0;
+ +
+ +      range_debug(range, "NOTIFIER - EXECUTE");
+ +
+ +      /* Adjust invalidation to range boundaries */
+ +      *adj_start = min(xe_svm_range_start(range), mmu_range->start);
+ +      *adj_end = max(xe_svm_range_end(range), mmu_range->end);
+ +
+ +      /*
+ +       * XXX: Ideally would zap PTEs in one shot in xe_svm_invalidate but the
+ +       * invalidation code can't correctly cope with sparse ranges or
+ +       * invalidations spanning multiple ranges.
+ +       */
+ +      for_each_tile(tile, xe, id)
+ +              if (xe_pt_zap_ptes_range(tile, vm, range)) {
+ +                      tile_mask |= BIT(id);
+ +                      range->tile_invalidated |= BIT(id);
+ +              }
+ +
+ +      return tile_mask;
+ +}
+ +
+ +static void
+ +xe_svm_range_notifier_event_end(struct xe_vm *vm, struct drm_gpusvm_range *r,
+ +                              const struct mmu_notifier_range *mmu_range)
+ +{
+ +      struct drm_gpusvm_ctx ctx = { .in_notifier = true, };
+ +
+ +      xe_svm_assert_in_notifier(vm);
+ +
+ +      drm_gpusvm_range_unmap_pages(&vm->svm.gpusvm, r, &ctx);
+ +      if (!xe_vm_is_closed(vm) && mmu_range->event == MMU_NOTIFY_UNMAP)
+ +              xe_svm_garbage_collector_add_range(vm, to_xe_range(r),
+ +                                                 mmu_range);
+ +}
+ +
+ +static void xe_svm_invalidate(struct drm_gpusvm *gpusvm,
+ +                            struct drm_gpusvm_notifier *notifier,
+ +                            const struct mmu_notifier_range *mmu_range)
+ +{
+ +      struct xe_vm *vm = gpusvm_to_vm(gpusvm);
+ +      struct xe_device *xe = vm->xe;
+ +      struct xe_tile *tile;
+ +      struct drm_gpusvm_range *r, *first;
+ +      struct xe_gt_tlb_invalidation_fence
+ +              fence[XE_MAX_TILES_PER_DEVICE * XE_MAX_GT_PER_TILE];
+ +      u64 adj_start = mmu_range->start, adj_end = mmu_range->end;
+ +      u8 tile_mask = 0;
+ +      u8 id;
+ +      u32 fence_id = 0;
+ +      long err;
+ +
+ +      xe_svm_assert_in_notifier(vm);
+ +
+ +      vm_dbg(&gpusvm_to_vm(gpusvm)->xe->drm,
+ +             "INVALIDATE: asid=%u, gpusvm=%p, seqno=%lu, start=0x%016lx, end=0x%016lx, event=%d",
+ +             vm->usm.asid, gpusvm, notifier->notifier.invalidate_seq,
+ +             mmu_range->start, mmu_range->end, mmu_range->event);
+ +
+ +      /* Adjust invalidation to notifier boundaries */
+ +      adj_start = max(drm_gpusvm_notifier_start(notifier), adj_start);
+ +      adj_end = min(drm_gpusvm_notifier_end(notifier), adj_end);
+ +
+ +      first = drm_gpusvm_range_find(notifier, adj_start, adj_end);
+ +      if (!first)
+ +              return;
+ +
+ +      /*
+ +       * PTs may be getting destroyed so not safe to touch these but PT should
+ +       * be invalidated at this point in time. Regardless we still need to
+ +       * ensure any dma mappings are unmapped in the here.
+ +       */
+ +      if (xe_vm_is_closed(vm))
+ +              goto range_notifier_event_end;
+ +
+ +      /*
+ +       * XXX: Less than ideal to always wait on VM's resv slots if an
+ +       * invalidation is not required. Could walk range list twice to figure
+ +       * out if an invalidations is need, but also not ideal.
+ +       */
+ +      err = dma_resv_wait_timeout(xe_vm_resv(vm),
+ +                                  DMA_RESV_USAGE_BOOKKEEP,
+ +                                  false, MAX_SCHEDULE_TIMEOUT);
+ +      XE_WARN_ON(err <= 0);
+ +
+ +      r = first;
+ +      drm_gpusvm_for_each_range(r, notifier, adj_start, adj_end)
+ +              tile_mask |= xe_svm_range_notifier_event_begin(vm, r, mmu_range,
+ +                                                             &adj_start,
+ +                                                             &adj_end);
+ +      if (!tile_mask)
+ +              goto range_notifier_event_end;
+ +
+ +      xe_device_wmb(xe);
+ +
+ +      for_each_tile(tile, xe, id) {
+ +              if (tile_mask & BIT(id)) {
+ +                      int err;
+ +
+ +                      xe_gt_tlb_invalidation_fence_init(tile->primary_gt,
+ +                                                        &fence[fence_id], true);
+ +
+ +                      err = xe_gt_tlb_invalidation_range(tile->primary_gt,
+ +                                                         &fence[fence_id],
+ +                                                         adj_start,
+ +                                                         adj_end,
+ +                                                         vm->usm.asid);
+ +                      if (WARN_ON_ONCE(err < 0))
+ +                              goto wait;
+ +                      ++fence_id;
+ +
+ +                      if (!tile->media_gt)
+ +                              continue;
+ +
+ +                      xe_gt_tlb_invalidation_fence_init(tile->media_gt,
+ +                                                        &fence[fence_id], true);
+ +
+ +                      err = xe_gt_tlb_invalidation_range(tile->media_gt,
+ +                                                         &fence[fence_id],
+ +                                                         adj_start,
+ +                                                         adj_end,
+ +                                                         vm->usm.asid);
+ +                      if (WARN_ON_ONCE(err < 0))
+ +                              goto wait;
+ +                      ++fence_id;
+ +              }
+ +      }
+ +
+ +wait:
+ +      for (id = 0; id < fence_id; ++id)
+ +              xe_gt_tlb_invalidation_fence_wait(&fence[id]);
+ +
+ +range_notifier_event_end:
+ +      r = first;
+ +      drm_gpusvm_for_each_range(r, notifier, adj_start, adj_end)
+ +              xe_svm_range_notifier_event_end(vm, r, mmu_range);
+ +}
+ +
+ +static int __xe_svm_garbage_collector(struct xe_vm *vm,
+ +                                    struct xe_svm_range *range)
+ +{
+ +      struct dma_fence *fence;
+ +
+ +      range_debug(range, "GARBAGE COLLECTOR");
+ +
+ +      xe_vm_lock(vm, false);
+ +      fence = xe_vm_range_unbind(vm, range);
+ +      xe_vm_unlock(vm);
+ +      if (IS_ERR(fence))
+ +              return PTR_ERR(fence);
+ +      dma_fence_put(fence);
+ +
+ +      drm_gpusvm_range_remove(&vm->svm.gpusvm, &range->base);
+ +
+ +      return 0;
+ +}
+ +
+ +static int xe_svm_garbage_collector(struct xe_vm *vm)
+ +{
+ +      struct xe_svm_range *range;
+ +      int err;
+ +
+ +      lockdep_assert_held_write(&vm->lock);
+ +
+ +      if (xe_vm_is_closed_or_banned(vm))
+ +              return -ENOENT;
+ +
+ +      spin_lock(&vm->svm.garbage_collector.lock);
+ +      for (;;) {
+ +              range = list_first_entry_or_null(&vm->svm.garbage_collector.range_list,
+ +                                               typeof(*range),
+ +                                               garbage_collector_link);
+ +              if (!range)
+ +                      break;
+ +
+ +              list_del(&range->garbage_collector_link);
+ +              spin_unlock(&vm->svm.garbage_collector.lock);
+ +
+ +              err = __xe_svm_garbage_collector(vm, range);
+ +              if (err) {
+ +                      drm_warn(&vm->xe->drm,
+ +                               "Garbage collection failed: %pe\n",
+ +                               ERR_PTR(err));
+ +                      xe_vm_kill(vm, true);
+ +                      return err;
+ +              }
+ +
+ +              spin_lock(&vm->svm.garbage_collector.lock);
+ +      }
+ +      spin_unlock(&vm->svm.garbage_collector.lock);
+ +
+ +      return 0;
+ +}
+ +
+ +static void xe_svm_garbage_collector_work_func(struct work_struct *w)
+ +{
+ +      struct xe_vm *vm = container_of(w, struct xe_vm,
+ +                                      svm.garbage_collector.work);
+ +
+ +      down_write(&vm->lock);
+ +      xe_svm_garbage_collector(vm);
+ +      up_write(&vm->lock);
+ +}
+ +
+ +static struct xe_vram_region *page_to_vr(struct page *page)
+ +{
++      return container_of(page_pgmap(page), struct xe_vram_region, pagemap);
+ +}
+ +
+ +static struct xe_tile *vr_to_tile(struct xe_vram_region *vr)
+ +{
+ +      return container_of(vr, struct xe_tile, mem.vram);
+ +}
+ +
+ +static u64 xe_vram_region_page_to_dpa(struct xe_vram_region *vr,
+ +                                    struct page *page)
+ +{
+ +      u64 dpa;
+ +      struct xe_tile *tile = vr_to_tile(vr);
+ +      u64 pfn = page_to_pfn(page);
+ +      u64 offset;
+ +
+ +      xe_tile_assert(tile, is_device_private_page(page));
+ +      xe_tile_assert(tile, (pfn << PAGE_SHIFT) >= vr->hpa_base);
+ +
+ +      offset = (pfn << PAGE_SHIFT) - vr->hpa_base;
+ +      dpa = vr->dpa_base + offset;
+ +
+ +      return dpa;
+ +}
+ +
+ +enum xe_svm_copy_dir {
+ +      XE_SVM_COPY_TO_VRAM,
+ +      XE_SVM_COPY_TO_SRAM,
+ +};
+ +
+ +static int xe_svm_copy(struct page **pages, dma_addr_t *dma_addr,
+ +                     unsigned long npages, const enum xe_svm_copy_dir dir)
+ +{
+ +      struct xe_vram_region *vr = NULL;
+ +      struct xe_tile *tile;
+ +      struct dma_fence *fence = NULL;
+ +      unsigned long i;
+ +#define XE_VRAM_ADDR_INVALID  ~0x0ull
+ +      u64 vram_addr = XE_VRAM_ADDR_INVALID;
+ +      int err = 0, pos = 0;
+ +      bool sram = dir == XE_SVM_COPY_TO_SRAM;
+ +
+ +      /*
+ +       * This flow is complex: it locates physically contiguous device pages,
+ +       * derives the starting physical address, and performs a single GPU copy
+ +       * to for every 8M chunk in a DMA address array. Both device pages and
+ +       * DMA addresses may be sparsely populated. If either is NULL, a copy is
+ +       * triggered based on the current search state. The last GPU copy is
+ +       * waited on to ensure all copies are complete.
+ +       */
+ +
+ +      for (i = 0; i < npages; ++i) {
+ +              struct page *spage = pages[i];
+ +              struct dma_fence *__fence;
+ +              u64 __vram_addr;
+ +              bool match = false, chunk, last;
+ +
+ +#define XE_MIGRATE_CHUNK_SIZE SZ_8M
+ +              chunk = (i - pos) == (XE_MIGRATE_CHUNK_SIZE / PAGE_SIZE);
+ +              last = (i + 1) == npages;
+ +
+ +              /* No CPU page and no device pages queue'd to copy */
+ +              if (!dma_addr[i] && vram_addr == XE_VRAM_ADDR_INVALID)
+ +                      continue;
+ +
+ +              if (!vr && spage) {
+ +                      vr = page_to_vr(spage);
+ +                      tile = vr_to_tile(vr);
+ +              }
+ +              XE_WARN_ON(spage && page_to_vr(spage) != vr);
+ +
+ +              /*
+ +               * CPU page and device page valid, capture physical address on
+ +               * first device page, check if physical contiguous on subsequent
+ +               * device pages.
+ +               */
+ +              if (dma_addr[i] && spage) {
+ +                      __vram_addr = xe_vram_region_page_to_dpa(vr, spage);
+ +                      if (vram_addr == XE_VRAM_ADDR_INVALID) {
+ +                              vram_addr = __vram_addr;
+ +                              pos = i;
+ +                      }
+ +
+ +                      match = vram_addr + PAGE_SIZE * (i - pos) == __vram_addr;
+ +              }
+ +
+ +              /*
+ +               * Mismatched physical address, 8M copy chunk, or last page -
+ +               * trigger a copy.
+ +               */
+ +              if (!match || chunk || last) {
+ +                      /*
+ +                       * Extra page for first copy if last page and matching
+ +                       * physical address.
+ +                       */
+ +                      int incr = (match && last) ? 1 : 0;
+ +
+ +                      if (vram_addr != XE_VRAM_ADDR_INVALID) {
+ +                              if (sram) {
+ +                                      vm_dbg(&tile->xe->drm,
+ +                                             "COPY TO SRAM - 0x%016llx -> 0x%016llx, NPAGES=%ld",
+ +                                             vram_addr, (u64)dma_addr[pos], i - pos + incr);
+ +                                      __fence = xe_migrate_from_vram(tile->migrate,
+ +                                                                     i - pos + incr,
+ +                                                                     vram_addr,
+ +                                                                     dma_addr + pos);
+ +                              } else {
+ +                                      vm_dbg(&tile->xe->drm,
+ +                                             "COPY TO VRAM - 0x%016llx -> 0x%016llx, NPAGES=%ld",
+ +                                             (u64)dma_addr[pos], vram_addr, i - pos + incr);
+ +                                      __fence = xe_migrate_to_vram(tile->migrate,
+ +                                                                   i - pos + incr,
+ +                                                                   dma_addr + pos,
+ +                                                                   vram_addr);
+ +                              }
+ +                              if (IS_ERR(__fence)) {
+ +                                      err = PTR_ERR(__fence);
+ +                                      goto err_out;
+ +                              }
+ +
+ +                              dma_fence_put(fence);
+ +                              fence = __fence;
+ +                      }
+ +
+ +                      /* Setup physical address of next device page */
+ +                      if (dma_addr[i] && spage) {
+ +                              vram_addr = __vram_addr;
+ +                              pos = i;
+ +                      } else {
+ +                              vram_addr = XE_VRAM_ADDR_INVALID;
+ +                      }
+ +
+ +                      /* Extra mismatched device page, copy it */
+ +                      if (!match && last && vram_addr != XE_VRAM_ADDR_INVALID) {
+ +                              if (sram) {
+ +                                      vm_dbg(&tile->xe->drm,
+ +                                             "COPY TO SRAM - 0x%016llx -> 0x%016llx, NPAGES=%d",
+ +                                             vram_addr, (u64)dma_addr[pos], 1);
+ +                                      __fence = xe_migrate_from_vram(tile->migrate, 1,
+ +                                                                     vram_addr,
+ +                                                                     dma_addr + pos);
+ +                              } else {
+ +                                      vm_dbg(&tile->xe->drm,
+ +                                             "COPY TO VRAM - 0x%016llx -> 0x%016llx, NPAGES=%d",
+ +                                             (u64)dma_addr[pos], vram_addr, 1);
+ +                                      __fence = xe_migrate_to_vram(tile->migrate, 1,
+ +                                                                   dma_addr + pos,
+ +                                                                   vram_addr);
+ +                              }
+ +                              if (IS_ERR(__fence)) {
+ +                                      err = PTR_ERR(__fence);
+ +                                      goto err_out;
+ +                              }
+ +
+ +                              dma_fence_put(fence);
+ +                              fence = __fence;
+ +                      }
+ +              }
+ +      }
+ +
+ +err_out:
+ +      /* Wait for all copies to complete */
+ +      if (fence) {
+ +              dma_fence_wait(fence, false);
+ +              dma_fence_put(fence);
+ +      }
+ +
+ +      return err;
+ +#undef XE_MIGRATE_CHUNK_SIZE
+ +#undef XE_VRAM_ADDR_INVALID
+ +}
+ +
+ +static int xe_svm_copy_to_devmem(struct page **pages, dma_addr_t *dma_addr,
+ +                               unsigned long npages)
+ +{
+ +      return xe_svm_copy(pages, dma_addr, npages, XE_SVM_COPY_TO_VRAM);
+ +}
+ +
+ +static int xe_svm_copy_to_ram(struct page **pages, dma_addr_t *dma_addr,
+ +                            unsigned long npages)
+ +{
+ +      return xe_svm_copy(pages, dma_addr, npages, XE_SVM_COPY_TO_SRAM);
+ +}
+ +
+ +static struct xe_bo *to_xe_bo(struct drm_gpusvm_devmem *devmem_allocation)
+ +{
+ +      return container_of(devmem_allocation, struct xe_bo, devmem_allocation);
+ +}
+ +
+ +static void xe_svm_devmem_release(struct drm_gpusvm_devmem *devmem_allocation)
+ +{
+ +      struct xe_bo *bo = to_xe_bo(devmem_allocation);
+ +
+ +      xe_bo_put_async(bo);
+ +}
+ +
+ +static u64 block_offset_to_pfn(struct xe_vram_region *vr, u64 offset)
+ +{
+ +      return PHYS_PFN(offset + vr->hpa_base);
+ +}
+ +
+ +static struct drm_buddy *tile_to_buddy(struct xe_tile *tile)
+ +{
+ +      return &tile->mem.vram.ttm.mm;
+ +}
+ +
+ +static int xe_svm_populate_devmem_pfn(struct drm_gpusvm_devmem *devmem_allocation,
+ +                                    unsigned long npages, unsigned long *pfn)
+ +{
+ +      struct xe_bo *bo = to_xe_bo(devmem_allocation);
+ +      struct ttm_resource *res = bo->ttm.resource;
+ +      struct list_head *blocks = &to_xe_ttm_vram_mgr_resource(res)->blocks;
+ +      struct drm_buddy_block *block;
+ +      int j = 0;
+ +
+ +      list_for_each_entry(block, blocks, link) {
+ +              struct xe_vram_region *vr = block->private;
+ +              struct xe_tile *tile = vr_to_tile(vr);
+ +              struct drm_buddy *buddy = tile_to_buddy(tile);
+ +              u64 block_pfn = block_offset_to_pfn(vr, drm_buddy_block_offset(block));
+ +              int i;
+ +
+ +              for (i = 0; i < drm_buddy_block_size(buddy, block) >> PAGE_SHIFT; ++i)
+ +                      pfn[j++] = block_pfn + i;
+ +      }
+ +
+ +      return 0;
+ +}
+ +
+ +static const struct drm_gpusvm_devmem_ops gpusvm_devmem_ops = {
+ +      .devmem_release = xe_svm_devmem_release,
+ +      .populate_devmem_pfn = xe_svm_populate_devmem_pfn,
+ +      .copy_to_devmem = xe_svm_copy_to_devmem,
+ +      .copy_to_ram = xe_svm_copy_to_ram,
+ +};
+ +
+ +static const struct drm_gpusvm_ops gpusvm_ops = {
+ +      .range_alloc = xe_svm_range_alloc,
+ +      .range_free = xe_svm_range_free,
+ +      .invalidate = xe_svm_invalidate,
+ +};
+ +
+ +static const unsigned long fault_chunk_sizes[] = {
+ +      SZ_2M,
+ +      SZ_64K,
+ +      SZ_4K,
+ +};
+ +
+ +/**
+ + * xe_svm_init() - SVM initialize
+ + * @vm: The VM.
+ + *
+ + * Initialize SVM state which is embedded within the VM.
+ + *
+ + * Return: 0 on success, negative error code on error.
+ + */
+ +int xe_svm_init(struct xe_vm *vm)
+ +{
+ +      int err;
+ +
+ +      spin_lock_init(&vm->svm.garbage_collector.lock);
+ +      INIT_LIST_HEAD(&vm->svm.garbage_collector.range_list);
+ +      INIT_WORK(&vm->svm.garbage_collector.work,
+ +                xe_svm_garbage_collector_work_func);
+ +
+ +      err = drm_gpusvm_init(&vm->svm.gpusvm, "Xe SVM", &vm->xe->drm,
+ +                            current->mm, xe_svm_devm_owner(vm->xe), 0,
+ +                            vm->size, xe_modparam.svm_notifier_size * SZ_1M,
+ +                            &gpusvm_ops, fault_chunk_sizes,
+ +                            ARRAY_SIZE(fault_chunk_sizes));
+ +      if (err)
+ +              return err;
+ +
+ +      drm_gpusvm_driver_set_lock(&vm->svm.gpusvm, &vm->lock);
+ +
+ +      return 0;
+ +}
+ +
+ +/**
+ + * xe_svm_close() - SVM close
+ + * @vm: The VM.
+ + *
+ + * Close SVM state (i.e., stop and flush all SVM actions).
+ + */
+ +void xe_svm_close(struct xe_vm *vm)
+ +{
+ +      xe_assert(vm->xe, xe_vm_is_closed(vm));
+ +      flush_work(&vm->svm.garbage_collector.work);
+ +}
+ +
+ +/**
+ + * xe_svm_fini() - SVM finalize
+ + * @vm: The VM.
+ + *
+ + * Finalize SVM state which is embedded within the VM.
+ + */
+ +void xe_svm_fini(struct xe_vm *vm)
+ +{
+ +      xe_assert(vm->xe, xe_vm_is_closed(vm));
+ +
+ +      drm_gpusvm_fini(&vm->svm.gpusvm);
+ +}
+ +
+ +static bool xe_svm_range_is_valid(struct xe_svm_range *range,
+ +                                struct xe_tile *tile)
+ +{
+ +      return (range->tile_present & ~range->tile_invalidated) & BIT(tile->id);
+ +}
+ +
+ +static struct xe_vram_region *tile_to_vr(struct xe_tile *tile)
+ +{
+ +      return &tile->mem.vram;
+ +}
+ +
+ +static int xe_svm_alloc_vram(struct xe_vm *vm, struct xe_tile *tile,
+ +                           struct xe_svm_range *range,
+ +                           const struct drm_gpusvm_ctx *ctx)
+ +{
+ +      struct mm_struct *mm = vm->svm.gpusvm.mm;
+ +      struct xe_vram_region *vr = tile_to_vr(tile);
+ +      struct drm_buddy_block *block;
+ +      struct list_head *blocks;
+ +      struct xe_bo *bo;
+ +      ktime_t end = 0;
+ +      int err;
+ +
+ +      range_debug(range, "ALLOCATE VRAM");
+ +
+ +      if (!mmget_not_zero(mm))
+ +              return -EFAULT;
+ +      mmap_read_lock(mm);
+ +
+ +retry:
+ +      bo = xe_bo_create_locked(tile_to_xe(tile), NULL, NULL,
+ +                               xe_svm_range_size(range),
+ +                               ttm_bo_type_device,
+ +                               XE_BO_FLAG_VRAM_IF_DGFX(tile) |
+ +                               XE_BO_FLAG_CPU_ADDR_MIRROR);
+ +      if (IS_ERR(bo)) {
+ +              err = PTR_ERR(bo);
+ +              if (xe_vm_validate_should_retry(NULL, err, &end))
+ +                      goto retry;
+ +              goto unlock;
+ +      }
+ +
+ +      drm_gpusvm_devmem_init(&bo->devmem_allocation,
+ +                             vm->xe->drm.dev, mm,
+ +                             &gpusvm_devmem_ops,
+ +                             &tile->mem.vram.dpagemap,
+ +                             xe_svm_range_size(range));
+ +
+ +      blocks = &to_xe_ttm_vram_mgr_resource(bo->ttm.resource)->blocks;
+ +      list_for_each_entry(block, blocks, link)
+ +              block->private = vr;
+ +
+ +      err = drm_gpusvm_migrate_to_devmem(&vm->svm.gpusvm, &range->base,
+ +                                         &bo->devmem_allocation, ctx);
+ +      xe_bo_unlock(bo);
+ +      if (err)
+ +              xe_bo_put(bo);  /* Creation ref */
+ +
+ +unlock:
+ +      mmap_read_unlock(mm);
+ +      mmput(mm);
+ +
+ +      return err;
+ +}
+ +
+ +/**
+ + * xe_svm_handle_pagefault() - SVM handle page fault
+ + * @vm: The VM.
+ + * @vma: The CPU address mirror VMA.
+ + * @tile: The tile upon the fault occurred.
+ + * @fault_addr: The GPU fault address.
+ + * @atomic: The fault atomic access bit.
+ + *
+ + * Create GPU bindings for a SVM page fault. Optionally migrate to device
+ + * memory.
+ + *
+ + * Return: 0 on success, negative error code on error.
+ + */
+ +int xe_svm_handle_pagefault(struct xe_vm *vm, struct xe_vma *vma,
+ +                          struct xe_tile *tile, u64 fault_addr,
+ +                          bool atomic)
+ +{
+ +      struct drm_gpusvm_ctx ctx = {
+ +              .read_only = xe_vma_read_only(vma),
+ +              .devmem_possible = IS_DGFX(vm->xe) &&
+ +                      IS_ENABLED(CONFIG_DRM_XE_DEVMEM_MIRROR),
+ +              .check_pages_threshold = IS_DGFX(vm->xe) &&
+ +                      IS_ENABLED(CONFIG_DRM_XE_DEVMEM_MIRROR) ? SZ_64K : 0,
+ +      };
+ +      struct xe_svm_range *range;
+ +      struct drm_gpusvm_range *r;
+ +      struct drm_exec exec;
+ +      struct dma_fence *fence;
+ +      ktime_t end = 0;
+ +      int err;
+ +
+ +      lockdep_assert_held_write(&vm->lock);
+ +      xe_assert(vm->xe, xe_vma_is_cpu_addr_mirror(vma));
+ +
+ +retry:
+ +      /* Always process UNMAPs first so view SVM ranges is current */
+ +      err = xe_svm_garbage_collector(vm);
+ +      if (err)
+ +              return err;
+ +
+ +      r = drm_gpusvm_range_find_or_insert(&vm->svm.gpusvm, fault_addr,
+ +                                          xe_vma_start(vma), xe_vma_end(vma),
+ +                                          &ctx);
+ +      if (IS_ERR(r))
+ +              return PTR_ERR(r);
+ +
+ +      range = to_xe_range(r);
+ +      if (xe_svm_range_is_valid(range, tile))
+ +              return 0;
+ +
+ +      range_debug(range, "PAGE FAULT");
+ +
+ +      /* XXX: Add migration policy, for now migrate range once */
+ +      if (!range->skip_migrate && range->base.flags.migrate_devmem &&
+ +          xe_svm_range_size(range) >= SZ_64K) {
+ +              range->skip_migrate = true;
+ +
+ +              err = xe_svm_alloc_vram(vm, tile, range, &ctx);
+ +              if (err) {
+ +                      drm_dbg(&vm->xe->drm,
+ +                              "VRAM allocation failed, falling back to "
+ +                              "retrying fault, asid=%u, errno=%pe\n",
+ +                              vm->usm.asid, ERR_PTR(err));
+ +                      goto retry;
+ +              }
+ +      }
+ +
+ +      range_debug(range, "GET PAGES");
+ +      err = drm_gpusvm_range_get_pages(&vm->svm.gpusvm, r, &ctx);
+ +      /* Corner where CPU mappings have changed */
+ +      if (err == -EOPNOTSUPP || err == -EFAULT || err == -EPERM) {
+ +              if (err == -EOPNOTSUPP) {
+ +                      range_debug(range, "PAGE FAULT - EVICT PAGES");
+ +                      drm_gpusvm_range_evict(&vm->svm.gpusvm, &range->base);
+ +              }
+ +              drm_dbg(&vm->xe->drm,
+ +                      "Get pages failed, falling back to retrying, asid=%u, gpusvm=%p, errno=%pe\n",
+ +                      vm->usm.asid, &vm->svm.gpusvm, ERR_PTR(err));
+ +              range_debug(range, "PAGE FAULT - RETRY PAGES");
+ +              goto retry;
+ +      }
+ +      if (err) {
+ +              range_debug(range, "PAGE FAULT - FAIL PAGE COLLECT");
+ +              goto err_out;
+ +      }
+ +
+ +      range_debug(range, "PAGE FAULT - BIND");
+ +
+ +retry_bind:
+ +      drm_exec_init(&exec, 0, 0);
+ +      drm_exec_until_all_locked(&exec) {
+ +              err = drm_exec_lock_obj(&exec, vm->gpuvm.r_obj);
+ +              drm_exec_retry_on_contention(&exec);
+ +              if (err) {
+ +                      drm_exec_fini(&exec);
+ +                      goto err_out;
+ +              }
+ +
+ +              fence = xe_vm_range_rebind(vm, vma, range, BIT(tile->id));
+ +              if (IS_ERR(fence)) {
+ +                      drm_exec_fini(&exec);
+ +                      err = PTR_ERR(fence);
+ +                      if (err == -EAGAIN) {
+ +                              range_debug(range, "PAGE FAULT - RETRY BIND");
+ +                              goto retry;
+ +                      }
+ +                      if (xe_vm_validate_should_retry(&exec, err, &end))
+ +                              goto retry_bind;
+ +                      goto err_out;
+ +              }
+ +      }
+ +      drm_exec_fini(&exec);
+ +
+ +      if (xe_modparam.always_migrate_to_vram)
+ +              range->skip_migrate = false;
+ +
+ +      dma_fence_wait(fence, false);
+ +      dma_fence_put(fence);
+ +
+ +err_out:
+ +
+ +      return err;
+ +}
+ +
+ +/**
+ + * xe_svm_has_mapping() - SVM has mappings
+ + * @vm: The VM.
+ + * @start: Start address.
+ + * @end: End address.
+ + *
+ + * Check if an address range has SVM mappings.
+ + *
+ + * Return: True if address range has a SVM mapping, False otherwise
+ + */
+ +bool xe_svm_has_mapping(struct xe_vm *vm, u64 start, u64 end)
+ +{
+ +      return drm_gpusvm_has_mapping(&vm->svm.gpusvm, start, end);
+ +}
+ +
+ +/**
+ + * xe_svm_bo_evict() - SVM evict BO to system memory
+ + * @bo: BO to evict
+ + *
+ + * SVM evict BO to system memory. GPU SVM layer ensures all device pages
+ + * are evicted before returning.
+ + *
+ + * Return: 0 on success standard error code otherwise
+ + */
+ +int xe_svm_bo_evict(struct xe_bo *bo)
+ +{
+ +      return drm_gpusvm_evict_to_ram(&bo->devmem_allocation);
+ +}
+ +
+ +#if IS_ENABLED(CONFIG_DRM_XE_DEVMEM_MIRROR)
+ +static struct drm_pagemap_device_addr
+ +xe_drm_pagemap_device_map(struct drm_pagemap *dpagemap,
+ +                        struct device *dev,
+ +                        struct page *page,
+ +                        unsigned int order,
+ +                        enum dma_data_direction dir)
+ +{
+ +      struct device *pgmap_dev = dpagemap->dev;
+ +      enum drm_interconnect_protocol prot;
+ +      dma_addr_t addr;
+ +
+ +      if (pgmap_dev == dev) {
+ +              addr = xe_vram_region_page_to_dpa(page_to_vr(page), page);
+ +              prot = XE_INTERCONNECT_VRAM;
+ +      } else {
+ +              addr = DMA_MAPPING_ERROR;
+ +              prot = 0;
+ +      }
+ +
+ +      return drm_pagemap_device_addr_encode(addr, prot, order, dir);
+ +}
+ +
+ +static const struct drm_pagemap_ops xe_drm_pagemap_ops = {
+ +      .device_map = xe_drm_pagemap_device_map,
+ +};
+ +
+ +/**
+ + * xe_devm_add: Remap and provide memmap backing for device memory
+ + * @tile: tile that the memory region belongs to
+ + * @vr: vram memory region to remap
+ + *
+ + * This remap device memory to host physical address space and create
+ + * struct page to back device memory
+ + *
+ + * Return: 0 on success standard error code otherwise
+ + */
+ +int xe_devm_add(struct xe_tile *tile, struct xe_vram_region *vr)
+ +{
+ +      struct xe_device *xe = tile_to_xe(tile);
+ +      struct device *dev = &to_pci_dev(xe->drm.dev)->dev;
+ +      struct resource *res;
+ +      void *addr;
+ +      int ret;
+ +
+ +      res = devm_request_free_mem_region(dev, &iomem_resource,
+ +                                         vr->usable_size);
+ +      if (IS_ERR(res)) {
+ +              ret = PTR_ERR(res);
+ +              return ret;
+ +      }
+ +
+ +      vr->pagemap.type = MEMORY_DEVICE_PRIVATE;
+ +      vr->pagemap.range.start = res->start;
+ +      vr->pagemap.range.end = res->end;
+ +      vr->pagemap.nr_range = 1;
+ +      vr->pagemap.ops = drm_gpusvm_pagemap_ops_get();
+ +      vr->pagemap.owner = xe_svm_devm_owner(xe);
+ +      addr = devm_memremap_pages(dev, &vr->pagemap);
+ +
+ +      vr->dpagemap.dev = dev;
+ +      vr->dpagemap.ops = &xe_drm_pagemap_ops;
+ +
+ +      if (IS_ERR(addr)) {
+ +              devm_release_mem_region(dev, res->start, resource_size(res));
+ +              ret = PTR_ERR(addr);
+ +              drm_err(&xe->drm, "Failed to remap tile %d memory, errno %pe\n",
+ +                      tile->id, ERR_PTR(ret));
+ +              return ret;
+ +      }
+ +      vr->hpa_base = res->start;
+ +
+ +      drm_dbg(&xe->drm, "Added tile %d memory [%llx-%llx] to devm, remapped to %pr\n",
+ +              tile->id, vr->io_start, vr->io_start + vr->usable_size, res);
+ +      return 0;
+ +}
+ +#else
+ +int xe_devm_add(struct xe_tile *tile, struct xe_vram_region *vr)
+ +{
+ +      return 0;
+ +}
+ +#endif
diff --cc drivers/nvdimm/pmem.c
Simple merge
diff --cc fs/Kconfig
Simple merge
diff --cc fs/bcachefs/util.h
Simple merge
diff --cc fs/buffer.c
Simple merge
diff --cc fs/dax.c
Simple merge
diff --cc fs/ext4/inline.c
Simple merge
diff --cc fs/ext4/inode.c
Simple merge
diff --cc fs/fuse/dir.c
Simple merge
diff --cc fs/hugetlbfs/inode.c
Simple merge
diff --cc fs/iomap/buffered-io.c
Simple merge
diff --cc fs/xfs/xfs_inode.c
Simple merge
diff --cc fs/xfs/xfs_inode.h
Simple merge
diff --cc fs/xfs/xfs_super.c
Simple merge
diff --cc include/asm-generic/io.h
Simple merge
diff --cc include/linux/buffer_head.h
Simple merge
diff --cc include/linux/compiler.h

index 9fc30b6b80c9ef8e53a89f53c16ebbe84e40eedb,3a7a537e13a39c5fbb8e638ba49c0d5b6a5418e4..27725f1ab5abcc742867b26bb762a677ae38e72d
--- 1/include/linux/compiler.h
--- 2/include/linux/compiler.h
+++ b/include/linux/compiler.h
@@@ -206,38 -206,32 +206,58 @@@ void ftrace_likely_update(struct ftrace
   #define __must_be_byte_array(a)       __BUILD_BUG_ON_ZERO_MSG(!__is_byte_array(a), \
                                                         "must be byte array")
   
+ +/*
+ + * If the "nonstring" attribute isn't available, we have to return true
+ + * so the __must_*() checks pass when "nonstring" isn't supported.
+ + */
+ +#if __has_attribute(__nonstring__) && defined(__annotated)
+ +#define __is_cstr(a)          (!__annotated(a, nonstring))
+ +#define __is_noncstr(a)               (__annotated(a, nonstring))
+ +#else
+ +#define __is_cstr(a)          (true)
+ +#define __is_noncstr(a)               (true)
+ +#endif
+ +
   /* Require C Strings (i.e. NUL-terminated) lack the "nonstring" attribute. */
   #define __must_be_cstr(p) \
- -      __BUILD_BUG_ON_ZERO_MSG(__annotated(p, nonstring), "must be cstr (NUL-terminated)")
+ +      __BUILD_BUG_ON_ZERO_MSG(!__is_cstr(p), \
+ +                              "must be C-string (NUL-terminated)")
+ +#define __must_be_noncstr(p) \
+ +      __BUILD_BUG_ON_ZERO_MSG(!__is_noncstr(p), \
+ +                              "must be non-C-string (not NUL-terminated)")
   
+ /*
+  * Use __typeof_unqual__() when available.
+  *
+  * XXX: Remove test for __CHECKER__ once
+  * sparse learns about __typeof_unqual__().
+  */
+ #if CC_HAS_TYPEOF_UNQUAL && !defined(__CHECKER__)
+ # define USE_TYPEOF_UNQUAL 1
+ #endif
+ 
+ /*
+  * Define TYPEOF_UNQUAL() to use __typeof_unqual__() as typeof
+  * operator when available, to return an unqualified type of the exp.
+  */
+ #if defined(USE_TYPEOF_UNQUAL)
+ # define TYPEOF_UNQUAL(exp) __typeof_unqual__(exp)
+ #else
+ # define TYPEOF_UNQUAL(exp) __typeof__(exp)
+ #endif
+ 
   #endif /* __KERNEL__ */
   
+ +#if defined(CONFIG_CFI_CLANG) && !defined(__DISABLE_EXPORTS) && !defined(BUILD_VDSO)
+ +/*
+ + * Force a reference to the external symbol so the compiler generates
+ + * __kcfi_typid.
+ + */
+ +#define KCFI_REFERENCE(sym) __ADDRESSABLE(sym)
+ +#else
+ +#define KCFI_REFERENCE(sym)
+ +#endif
+ +
   /**
    * offset_to_ptr - convert a relative memory offset to an absolute pointer
    * @off:      the address of the 32-bit offset value
diff --cc include/linux/compiler_types.h
Simple merge
diff --cc include/linux/migrate.h
Simple merge
diff --cc include/linux/mm.h

index beba5ba0fd978fbf71e7dc91a6c4f3eb0483c71d,c417e5634a589a214733cf5e3bec4f9354ed985e..32ba0e33422b7b766b290095922bad8f5d583872
--- 1/include/linux/mm.h
--- 2/include/linux/mm.h
+++ b/include/linux/mm.h
@@@ -40,6 -41,9 +41,7 @@@ struct user_struct
   struct pt_regs;
   struct folio_batch;
   
- -extern int sysctl_page_lock_unfairness;
- -
+ void arch_mm_preinit(void);
   void mm_core_init(void);
   void init_mm_internals(void);
   
diff --cc include/linux/mm_types.h
Simple merge
diff --cc include/linux/mmzone.h
Simple merge
diff --cc include/linux/page-flags.h
Simple merge
diff --cc include/linux/pagemap.h
Simple merge
diff --cc include/linux/percpu-defs.h
Simple merge
diff --cc include/linux/pgtable.h
Simple merge
diff --cc include/linux/slab.h
Simple merge
diff --cc include/linux/swap.h
Simple merge
diff --cc include/linux/vm_event_item.h
Simple merge
diff --cc include/linux/vmstat.h
Simple merge
diff --cc include/linux/writeback.h
Simple merge
diff --cc kernel/events/uprobes.c
Simple merge
diff --cc kernel/fork.c
Simple merge
diff --cc mm/Kconfig
Simple merge
diff --cc mm/filemap.c
Simple merge
diff --cc mm/gup.c
Simple merge
diff --cc mm/internal.h
Simple merge
diff --cc mm/memblock.c
Simple merge
diff --cc mm/memcontrol-v1.c
Simple merge
diff --cc mm/memcontrol.c
Simple merge
diff --cc mm/memory.c

index 369905596243fe1c9f3200b1264663c2015f7324,3900225d99c5f1fdf0e758ea432bb03c16198f56..6ea3551eb2df0bacb1f0b09e6f1d170bf9cf2ddf
--- 1/mm/memory.c
--- 2/mm/memory.c
+++ b/mm/memory.c
@@@ -4346,15 -4455,11 +4450,18 @@@ vm_fault_t do_swap_page(struct vm_faul
                          * Get a page reference while we know the page can't be
                          * freed.
                          */
- -                      get_page(vmf->page);
- -                      pte_unmap_unlock(vmf->pte, vmf->ptl);
- -                      pgmap = page_pgmap(vmf->page);
- -                      ret = pgmap->ops->migrate_to_ram(vmf);
- -                      put_page(vmf->page);
+ +                      if (trylock_page(vmf->page)) {
++                              struct dev_pagemap *pgmap;
++
+ +                              get_page(vmf->page);
+ +                              pte_unmap_unlock(vmf->pte, vmf->ptl);
-                               ret = vmf->page->pgmap->ops->migrate_to_ram(vmf);
++                              pgmap = page_pgmap(vmf->page);
++                              ret = pgmap->ops->migrate_to_ram(vmf);
+ +                              unlock_page(vmf->page);
+ +                              put_page(vmf->page);
+ +                      } else {
+ +                              pte_unmap_unlock(vmf->pte, vmf->ptl);
+ +                      }
                 } else if (is_hwpoison_entry(entry)) {
                         ret = VM_FAULT_HWPOISON;
                 } else if (is_pte_marker_entry(entry)) {
diff --cc mm/mempolicy.c
Simple merge
diff --cc mm/migrate_device.c
Simple merge
diff --cc mm/mmap.c
Simple merge
diff --cc mm/nommu.c

index 753384666bae26a8bb6594272ddbd85afaf56940,15a396ce2553daf2d74babc02ff027e57a54c34b..617e7ba8022f5bd56b738a8a9ec350718d0a6525
--- 1/mm/nommu.c
--- 2/mm/nommu.c
+++ b/mm/nommu.c
@@@ -42,12 -42,8 +42,7 @@@
   #include <asm/mmu_context.h>
   #include "internal.h"
   
- void *high_memory;
- EXPORT_SYMBOL(high_memory);
- struct page *mem_map;
- unsigned long max_mapnr;
- EXPORT_SYMBOL(max_mapnr);
   unsigned long highest_memmap_pfn;
- -int sysctl_nr_trim_pages = CONFIG_NOMMU_INITIAL_TRIM_EXCESS;
   int heap_stack_gap = 0;
   
   atomic_long_t mmap_pages_allocated;
diff --cc mm/page_alloc.c

index e3ea5bf5c45953eba790ca766e9ca41fced864e9,0c01998cb3a03884f75be3a1c9d44b20d27f9f23..f51aa6051a99867d2d7d8c70aa7c30e523629951
--- 1/mm/page_alloc.c
--- 2/mm/page_alloc.c
+++ b/mm/page_alloc.c
@@@ -4901,32 -4961,17 +5029,31 @@@ static void ___free_pages(struct page *
   {
         /* get PageHead before we drop reference */
         int head = PageHead(page);
-       struct alloc_tag *tag = pgalloc_tag_get(page);
   
         if (put_page_testzero(page))
- -              free_frozen_pages(page, order);
+ +              __free_frozen_pages(page, order, fpi_flags);
         else if (!head) {
-               pgalloc_tag_sub_pages(tag, (1 << order) - 1);
+               pgalloc_tag_sub_pages(page, (1 << order) - 1);
                 while (order-- > 0)
- -                      free_frozen_pages(page + (1 << order), order);
+ +                      __free_frozen_pages(page + (1 << order), order,
+ +                                          fpi_flags);
         }
   }
+ +void __free_pages(struct page *page, unsigned int order)
+ +{
+ +      ___free_pages(page, order, FPI_NONE);
+ +}
   EXPORT_SYMBOL(__free_pages);
   
+ +/*
+ + * Can be called while holding raw_spin_lock or from IRQ and NMI for any
+ + * page type (not only those that came from try_alloc_pages)
+ + */
+ +void free_pages_nolock(struct page *page, unsigned int order)
+ +{
+ +      ___free_pages(page, order, FPI_TRYLOCK);
+ +}
+ +
   void free_pages(unsigned long addr, unsigned int order)
   {
         if (addr != 0) {
diff --cc mm/page_owner.c

index 90e31d0e3ed78d3aa9f3bc764ab0b812abe4e27a,849d4a471b6c1b33f7ba83b4e3f8e32a009855cc..cc4a6916eec6f2f65b641e423faa9a34ac900067
--- 1/mm/page_owner.c
--- 2/mm/page_owner.c
+++ b/mm/page_owner.c
@@@ -293,17 -297,11 +297,17 @@@ void __reset_page_owner(struct page *pa
   
         page_owner = get_page_owner(page_ext);
         alloc_handle = page_owner->handle;
+       page_ext_put(page_ext);
   
- -      handle = save_stack(GFP_NOWAIT | __GFP_NOWARN);
+ +      /*
+ +       * Do not specify GFP_NOWAIT to make gfpflags_allow_spinning() == false
+ +       * to prevent issues in stack_depot_save().
+ +       * This is similar to try_alloc_pages() gfp flags, but only used
+ +       * to signal stack_depot to avoid spin_locks.
+ +       */
+ +      handle = save_stack(__GFP_NOWARN);
-       __update_page_owner_free_handle(page_ext, handle, order, current->pid,
+       __update_page_owner_free_handle(page, handle, order, current->pid,
                                         current->tgid, free_ts_nsec);
-       page_ext_put(page_ext);
   
         if (alloc_handle != early_handle)
                 /*
diff --cc mm/percpu.c
Simple merge
diff --cc mm/shmem.c
Simple merge
diff --cc mm/slub.c
Simple merge
diff --cc mm/swap.c
Simple merge
diff --cc mm/swap.h
Simple merge
diff --cc mm/vmscan.c
Simple merge
diff --cc mm/vmstat.c
Simple merge
diff --cc tools/testing/selftests/mm/guard-regions.c

index 0000000000000000000000000000000000000000,280d1831bf730fdd8359ac13453c6f081099135d..b3d0e277109616710e5b1db0c0170651ae790a47

mode 000000,100644..100644
--- /dev/null
--- 2/tools/testing/selftests/mm/guard-regions.c
+++ b/tools/testing/selftests/mm/guard-regions.c
@@@ -1,0 -1,2082 +1,2074 @@@
- -static int pidfd_open(pid_t pid, unsigned int flags)
- -{
- -      return syscall(SYS_pidfd_open, pid, flags);
- -}
- -
+ // SPDX-License-Identifier: GPL-2.0-or-later
+ 
+ #define _GNU_SOURCE
+ #include "../kselftest_harness.h"
+ #include <asm-generic/mman.h> /* Force the import of the tools version. */
+ #include <assert.h>
+ #include <errno.h>
+ #include <fcntl.h>
+ #include <linux/limits.h>
+ #include <linux/userfaultfd.h>
+ #include <setjmp.h>
+ #include <signal.h>
+ #include <stdbool.h>
+ #include <stdio.h>
+ #include <stdlib.h>
+ #include <string.h>
+ #include <sys/ioctl.h>
+ #include <sys/mman.h>
+ #include <sys/syscall.h>
+ #include <sys/uio.h>
+ #include <unistd.h>
+ #include "vm_util.h"
+ 
++#include "../pidfd/pidfd.h"
++
+ /*
+  * Ignore the checkpatch warning, as per the C99 standard, section 7.14.1.1:
+  *
+  * "If the signal occurs other than as the result of calling the abort or raise
+  *  function, the behavior is undefined if the signal handler refers to any
+  *  object with static storage duration other than by assigning a value to an
+  *  object declared as volatile sig_atomic_t"
+  */
+ static volatile sig_atomic_t signal_jump_set;
+ static sigjmp_buf signal_jmp_buf;
+ 
+ /*
+  * Ignore the checkpatch warning, we must read from x but don't want to do
+  * anything with it in order to trigger a read page fault. We therefore must use
+  * volatile to stop the compiler from optimising this away.
+  */
+ #define FORCE_READ(x) (*(volatile typeof(x) *)x)
+ 
+ /*
+  * How is the test backing the mapping being tested?
+  */
+ enum backing_type {
+       ANON_BACKED,
+       SHMEM_BACKED,
+       LOCAL_FILE_BACKED,
+ };
+ 
+ FIXTURE(guard_regions)
+ {
+       unsigned long page_size;
+       char path[PATH_MAX];
+       int fd;
+ };
+ 
+ FIXTURE_VARIANT(guard_regions)
+ {
+       enum backing_type backing;
+ };
+ 
+ FIXTURE_VARIANT_ADD(guard_regions, anon)
+ {
+       .backing = ANON_BACKED,
+ };
+ 
+ FIXTURE_VARIANT_ADD(guard_regions, shmem)
+ {
+       .backing = SHMEM_BACKED,
+ };
+ 
+ FIXTURE_VARIANT_ADD(guard_regions, file)
+ {
+       .backing = LOCAL_FILE_BACKED,
+ };
+ 
+ static bool is_anon_backed(const FIXTURE_VARIANT(guard_regions) * variant)
+ {
+       switch (variant->backing) {
+       case  ANON_BACKED:
+       case  SHMEM_BACKED:
+               return true;
+       default:
+               return false;
+       }
+ }
+ 
+ static void *mmap_(FIXTURE_DATA(guard_regions) * self,
+                  const FIXTURE_VARIANT(guard_regions) * variant,
+                  void *addr, size_t length, int prot, int extra_flags,
+                  off_t offset)
+ {
+       int fd;
+       int flags = extra_flags;
+ 
+       switch (variant->backing) {
+       case ANON_BACKED:
+               flags |= MAP_PRIVATE | MAP_ANON;
+               fd = -1;
+               break;
+       case SHMEM_BACKED:
+       case LOCAL_FILE_BACKED:
+               flags |= MAP_SHARED;
+               fd = self->fd;
+               break;
+       default:
+               ksft_exit_fail();
+               break;
+       }
+ 
+       return mmap(addr, length, prot, flags, fd, offset);
+ }
+ 
+ static int userfaultfd(int flags)
+ {
+       return syscall(SYS_userfaultfd, flags);
+ }
+ 
+ static void handle_fatal(int c)
+ {
+       if (!signal_jump_set)
+               return;
+ 
+       siglongjmp(signal_jmp_buf, c);
+ }
+ 
- -      pid_t pid = getpid();
- -      int pidfd = pidfd_open(pid, 0);
+ static ssize_t sys_process_madvise(int pidfd, const struct iovec *iovec,
+                                  size_t n, int advice, unsigned int flags)
+ {
+       return syscall(__NR_process_madvise, pidfd, iovec, n, advice, flags);
+ }
+ 
+ /*
+  * Enable our signal catcher and try to read/write the specified buffer. The
+  * return value indicates whether the read/write succeeds without a fatal
+  * signal.
+  */
+ static bool try_access_buf(char *ptr, bool write)
+ {
+       bool failed;
+ 
+       /* Tell signal handler to jump back here on fatal signal. */
+       signal_jump_set = true;
+       /* If a fatal signal arose, we will jump back here and failed is set. */
+       failed = sigsetjmp(signal_jmp_buf, 0) != 0;
+ 
+       if (!failed) {
+               if (write)
+                       *ptr = 'x';
+               else
+                       FORCE_READ(ptr);
+       }
+ 
+       signal_jump_set = false;
+       return !failed;
+ }
+ 
+ /* Try and read from a buffer, return true if no fatal signal. */
+ static bool try_read_buf(char *ptr)
+ {
+       return try_access_buf(ptr, false);
+ }
+ 
+ /* Try and write to a buffer, return true if no fatal signal. */
+ static bool try_write_buf(char *ptr)
+ {
+       return try_access_buf(ptr, true);
+ }
+ 
+ /*
+  * Try and BOTH read from AND write to a buffer, return true if BOTH operations
+  * succeed.
+  */
+ static bool try_read_write_buf(char *ptr)
+ {
+       return try_read_buf(ptr) && try_write_buf(ptr);
+ }
+ 
+ static void setup_sighandler(void)
+ {
+       struct sigaction act = {
+               .sa_handler = &handle_fatal,
+               .sa_flags = SA_NODEFER,
+       };
+ 
+       sigemptyset(&act.sa_mask);
+       if (sigaction(SIGSEGV, &act, NULL))
+               ksft_exit_fail_perror("sigaction");
+ }
+ 
+ static void teardown_sighandler(void)
+ {
+       struct sigaction act = {
+               .sa_handler = SIG_DFL,
+               .sa_flags = SA_NODEFER,
+       };
+ 
+       sigemptyset(&act.sa_mask);
+       sigaction(SIGSEGV, &act, NULL);
+ }
+ 
+ static int open_file(const char *prefix, char *path)
+ {
+       int fd;
+ 
+       snprintf(path, PATH_MAX, "%sguard_regions_test_file_XXXXXX", prefix);
+       fd = mkstemp(path);
+       if (fd < 0)
+               ksft_exit_fail_perror("mkstemp");
+ 
+       return fd;
+ }
+ 
+ /* Establish a varying pattern in a buffer. */
+ static void set_pattern(char *ptr, size_t num_pages, size_t page_size)
+ {
+       size_t i;
+ 
+       for (i = 0; i < num_pages; i++) {
+               char *ptr2 = &ptr[i * page_size];
+ 
+               memset(ptr2, 'a' + (i % 26), page_size);
+       }
+ }
+ 
+ /*
+  * Check that a buffer contains the pattern set by set_pattern(), starting at a
+  * page offset of pgoff within the buffer.
+  */
+ static bool check_pattern_offset(char *ptr, size_t num_pages, size_t page_size,
+                                size_t pgoff)
+ {
+       size_t i;
+ 
+       for (i = 0; i < num_pages * page_size; i++) {
+               size_t offset = pgoff * page_size + i;
+               char actual = ptr[offset];
+               char expected = 'a' + ((offset / page_size) % 26);
+ 
+               if (actual != expected)
+                       return false;
+       }
+ 
+       return true;
+ }
+ 
+ /* Check that a buffer contains the pattern set by set_pattern(). */
+ static bool check_pattern(char *ptr, size_t num_pages, size_t page_size)
+ {
+       return check_pattern_offset(ptr, num_pages, page_size, 0);
+ }
+ 
+ /* Determine if a buffer contains only repetitions of a specified char. */
+ static bool is_buf_eq(char *buf, size_t size, char chr)
+ {
+       size_t i;
+ 
+       for (i = 0; i < size; i++) {
+               if (buf[i] != chr)
+                       return false;
+       }
+ 
+       return true;
+ }
+ 
+ FIXTURE_SETUP(guard_regions)
+ {
+       self->page_size = (unsigned long)sysconf(_SC_PAGESIZE);
+       setup_sighandler();
+ 
+       if (variant->backing == ANON_BACKED)
+               return;
+ 
+       self->fd = open_file(
+               variant->backing == SHMEM_BACKED ? "/tmp/" : "",
+               self->path);
+ 
+       /* We truncate file to at least 100 pages, tests can modify as needed. */
+       ASSERT_EQ(ftruncate(self->fd, 100 * self->page_size), 0);
+ };
+ 
+ FIXTURE_TEARDOWN_PARENT(guard_regions)
+ {
+       teardown_sighandler();
+ 
+       if (variant->backing == ANON_BACKED)
+               return;
+ 
+       if (self->fd >= 0)
+               close(self->fd);
+ 
+       if (self->path[0] != '\0')
+               unlink(self->path);
+ }
+ 
+ TEST_F(guard_regions, basic)
+ {
+       const unsigned long NUM_PAGES = 10;
+       const unsigned long page_size = self->page_size;
+       char *ptr;
+       int i;
+ 
+       ptr = mmap_(self, variant, NULL, NUM_PAGES * page_size,
+                   PROT_READ | PROT_WRITE, 0, 0);
+       ASSERT_NE(ptr, MAP_FAILED);
+ 
+       /* Trivially assert we can touch the first page. */
+       ASSERT_TRUE(try_read_write_buf(ptr));
+ 
+       ASSERT_EQ(madvise(ptr, page_size, MADV_GUARD_INSTALL), 0);
+ 
+       /* Establish that 1st page SIGSEGV's. */
+       ASSERT_FALSE(try_read_write_buf(ptr));
+ 
+       /* Ensure we can touch everything else.*/
+       for (i = 1; i < NUM_PAGES; i++) {
+               char *curr = &ptr[i * page_size];
+ 
+               ASSERT_TRUE(try_read_write_buf(curr));
+       }
+ 
+       /* Establish a guard page at the end of the mapping. */
+       ASSERT_EQ(madvise(&ptr[(NUM_PAGES - 1) * page_size], page_size,
+                         MADV_GUARD_INSTALL), 0);
+ 
+       /* Check that both guard pages result in SIGSEGV. */
+       ASSERT_FALSE(try_read_write_buf(ptr));
+       ASSERT_FALSE(try_read_write_buf(&ptr[(NUM_PAGES - 1) * page_size]));
+ 
+       /* Remove the first guard page. */
+       ASSERT_FALSE(madvise(ptr, page_size, MADV_GUARD_REMOVE));
+ 
+       /* Make sure we can touch it. */
+       ASSERT_TRUE(try_read_write_buf(ptr));
+ 
+       /* Remove the last guard page. */
+       ASSERT_FALSE(madvise(&ptr[(NUM_PAGES - 1) * page_size], page_size,
+                            MADV_GUARD_REMOVE));
+ 
+       /* Make sure we can touch it. */
+       ASSERT_TRUE(try_read_write_buf(&ptr[(NUM_PAGES - 1) * page_size]));
+ 
+       /*
+        *  Test setting a _range_ of pages, namely the first 3. The first of
+        *  these be faulted in, so this also tests that we can install guard
+        *  pages over backed pages.
+        */
+       ASSERT_EQ(madvise(ptr, 3 * page_size, MADV_GUARD_INSTALL), 0);
+ 
+       /* Make sure they are all guard pages. */
+       for (i = 0; i < 3; i++) {
+               char *curr = &ptr[i * page_size];
+ 
+               ASSERT_FALSE(try_read_write_buf(curr));
+       }
+ 
+       /* Make sure the rest are not. */
+       for (i = 3; i < NUM_PAGES; i++) {
+               char *curr = &ptr[i * page_size];
+ 
+               ASSERT_TRUE(try_read_write_buf(curr));
+       }
+ 
+       /* Remove guard pages. */
+       ASSERT_EQ(madvise(ptr, NUM_PAGES * page_size, MADV_GUARD_REMOVE), 0);
+ 
+       /* Now make sure we can touch everything. */
+       for (i = 0; i < NUM_PAGES; i++) {
+               char *curr = &ptr[i * page_size];
+ 
+               ASSERT_TRUE(try_read_write_buf(curr));
+       }
+ 
+       /*
+        * Now remove all guard pages, make sure we don't remove existing
+        * entries.
+        */
+       ASSERT_EQ(madvise(ptr, NUM_PAGES * page_size, MADV_GUARD_REMOVE), 0);
+ 
+       for (i = 0; i < NUM_PAGES * page_size; i += page_size) {
+               char chr = ptr[i];
+ 
+               ASSERT_EQ(chr, 'x');
+       }
+ 
+       ASSERT_EQ(munmap(ptr, NUM_PAGES * page_size), 0);
+ }
+ 
+ /* Assert that operations applied across multiple VMAs work as expected. */
+ TEST_F(guard_regions, multi_vma)
+ {
+       const unsigned long page_size = self->page_size;
+       char *ptr_region, *ptr, *ptr1, *ptr2, *ptr3;
+       int i;
+ 
+       /* Reserve a 100 page region over which we can install VMAs. */
+       ptr_region = mmap_(self, variant, NULL, 100 * page_size,
+                          PROT_NONE, 0, 0);
+       ASSERT_NE(ptr_region, MAP_FAILED);
+ 
+       /* Place a VMA of 10 pages size at the start of the region. */
+       ptr1 = mmap_(self, variant, ptr_region, 10 * page_size,
+                    PROT_READ | PROT_WRITE, MAP_FIXED, 0);
+       ASSERT_NE(ptr1, MAP_FAILED);
+ 
+       /* Place a VMA of 5 pages size 50 pages into the region. */
+       ptr2 = mmap_(self, variant, &ptr_region[50 * page_size], 5 * page_size,
+                    PROT_READ | PROT_WRITE, MAP_FIXED, 0);
+       ASSERT_NE(ptr2, MAP_FAILED);
+ 
+       /* Place a VMA of 20 pages size at the end of the region. */
+       ptr3 = mmap_(self, variant, &ptr_region[80 * page_size], 20 * page_size,
+                    PROT_READ | PROT_WRITE, MAP_FIXED, 0);
+       ASSERT_NE(ptr3, MAP_FAILED);
+ 
+       /* Unmap gaps. */
+       ASSERT_EQ(munmap(&ptr_region[10 * page_size], 40 * page_size), 0);
+       ASSERT_EQ(munmap(&ptr_region[55 * page_size], 25 * page_size), 0);
+ 
+       /*
+        * We end up with VMAs like this:
+        *
+        * 0    10 .. 50   55 .. 80   100
+        * [---]      [---]      [---]
+        */
+ 
+       /*
+        * Now mark the whole range as guard pages and make sure all VMAs are as
+        * such.
+        */
+ 
+       /*
+        * madvise() is certifiable and lets you perform operations over gaps,
+        * everything works, but it indicates an error and errno is set to
+        * -ENOMEM. Also if anything runs out of memory it is set to
+        * -ENOMEM. You are meant to guess which is which.
+        */
+       ASSERT_EQ(madvise(ptr_region, 100 * page_size, MADV_GUARD_INSTALL), -1);
+       ASSERT_EQ(errno, ENOMEM);
+ 
+       for (i = 0; i < 10; i++) {
+               char *curr = &ptr1[i * page_size];
+ 
+               ASSERT_FALSE(try_read_write_buf(curr));
+       }
+ 
+       for (i = 0; i < 5; i++) {
+               char *curr = &ptr2[i * page_size];
+ 
+               ASSERT_FALSE(try_read_write_buf(curr));
+       }
+ 
+       for (i = 0; i < 20; i++) {
+               char *curr = &ptr3[i * page_size];
+ 
+               ASSERT_FALSE(try_read_write_buf(curr));
+       }
+ 
+       /* Now remove guar pages over range and assert the opposite. */
+ 
+       ASSERT_EQ(madvise(ptr_region, 100 * page_size, MADV_GUARD_REMOVE), -1);
+       ASSERT_EQ(errno, ENOMEM);
+ 
+       for (i = 0; i < 10; i++) {
+               char *curr = &ptr1[i * page_size];
+ 
+               ASSERT_TRUE(try_read_write_buf(curr));
+       }
+ 
+       for (i = 0; i < 5; i++) {
+               char *curr = &ptr2[i * page_size];
+ 
+               ASSERT_TRUE(try_read_write_buf(curr));
+       }
+ 
+       for (i = 0; i < 20; i++) {
+               char *curr = &ptr3[i * page_size];
+ 
+               ASSERT_TRUE(try_read_write_buf(curr));
+       }
+ 
+       /* Now map incompatible VMAs in the gaps. */
+       ptr = mmap_(self, variant, &ptr_region[10 * page_size], 40 * page_size,
+                   PROT_READ | PROT_WRITE | PROT_EXEC, MAP_FIXED, 0);
+       ASSERT_NE(ptr, MAP_FAILED);
+       ptr = mmap_(self, variant, &ptr_region[55 * page_size], 25 * page_size,
+                   PROT_READ | PROT_WRITE | PROT_EXEC, MAP_FIXED, 0);
+       ASSERT_NE(ptr, MAP_FAILED);
+ 
+       /*
+        * We end up with VMAs like this:
+        *
+        * 0    10 .. 50   55 .. 80   100
+        * [---][xxxx][---][xxxx][---]
+        *
+        * Where 'x' signifies VMAs that cannot be merged with those adjacent to
+        * them.
+        */
+ 
+       /* Multiple VMAs adjacent to one another should result in no error. */
+       ASSERT_EQ(madvise(ptr_region, 100 * page_size, MADV_GUARD_INSTALL), 0);
+       for (i = 0; i < 100; i++) {
+               char *curr = &ptr_region[i * page_size];
+ 
+               ASSERT_FALSE(try_read_write_buf(curr));
+       }
+       ASSERT_EQ(madvise(ptr_region, 100 * page_size, MADV_GUARD_REMOVE), 0);
+       for (i = 0; i < 100; i++) {
+               char *curr = &ptr_region[i * page_size];
+ 
+               ASSERT_TRUE(try_read_write_buf(curr));
+       }
+ 
+       /* Cleanup. */
+       ASSERT_EQ(munmap(ptr_region, 100 * page_size), 0);
+ }
+ 
+ /*
+  * Assert that batched operations performed using process_madvise() work as
+  * expected.
+  */
+ TEST_F(guard_regions, process_madvise)
+ {
+       const unsigned long page_size = self->page_size;
- -      ASSERT_NE(pidfd, -1);
- -
+       char *ptr_region, *ptr1, *ptr2, *ptr3;
+       ssize_t count;
+       struct iovec vec[6];
+ 
- -      count = sys_process_madvise(pidfd, vec, 6, MADV_GUARD_INSTALL, 0);
+       /* Reserve region to map over. */
+       ptr_region = mmap_(self, variant, NULL, 100 * page_size,
+                          PROT_NONE, 0, 0);
+       ASSERT_NE(ptr_region, MAP_FAILED);
+ 
+       /*
+        * 10 pages offset 1 page into reserve region. We MAP_POPULATE so we
+        * overwrite existing entries and test this code path against
+        * overwriting existing entries.
+        */
+       ptr1 = mmap_(self, variant, &ptr_region[page_size], 10 * page_size,
+                    PROT_READ | PROT_WRITE, MAP_FIXED | MAP_POPULATE, 0);
+       ASSERT_NE(ptr1, MAP_FAILED);
+       /* We want guard markers at start/end of each VMA. */
+       vec[0].iov_base = ptr1;
+       vec[0].iov_len = page_size;
+       vec[1].iov_base = &ptr1[9 * page_size];
+       vec[1].iov_len = page_size;
+ 
+       /* 5 pages offset 50 pages into reserve region. */
+       ptr2 = mmap_(self, variant, &ptr_region[50 * page_size], 5 * page_size,
+                    PROT_READ | PROT_WRITE, MAP_FIXED, 0);
+       ASSERT_NE(ptr2, MAP_FAILED);
+       vec[2].iov_base = ptr2;
+       vec[2].iov_len = page_size;
+       vec[3].iov_base = &ptr2[4 * page_size];
+       vec[3].iov_len = page_size;
+ 
+       /* 20 pages offset 79 pages into reserve region. */
+       ptr3 = mmap_(self, variant, &ptr_region[79 * page_size], 20 * page_size,
+                   PROT_READ | PROT_WRITE, MAP_FIXED, 0);
+       ASSERT_NE(ptr3, MAP_FAILED);
+       vec[4].iov_base = ptr3;
+       vec[4].iov_len = page_size;
+       vec[5].iov_base = &ptr3[19 * page_size];
+       vec[5].iov_len = page_size;
+ 
+       /* Free surrounding VMAs. */
+       ASSERT_EQ(munmap(ptr_region, page_size), 0);
+       ASSERT_EQ(munmap(&ptr_region[11 * page_size], 39 * page_size), 0);
+       ASSERT_EQ(munmap(&ptr_region[55 * page_size], 24 * page_size), 0);
+       ASSERT_EQ(munmap(&ptr_region[99 * page_size], page_size), 0);
+ 
+       /* Now guard in one step. */
- -      count = sys_process_madvise(pidfd, vec, 6, MADV_GUARD_REMOVE, 0);
++      count = sys_process_madvise(PIDFD_SELF, vec, 6, MADV_GUARD_INSTALL, 0);
+ 
+       /* OK we don't have permission to do this, skip. */
+       if (count == -1 && errno == EPERM)
+               ksft_exit_skip("No process_madvise() permissions, try running as root.\n");
+ 
+       /* Returns the number of bytes advised. */
+       ASSERT_EQ(count, 6 * page_size);
+ 
+       /* Now make sure the guarding was applied. */
+ 
+       ASSERT_FALSE(try_read_write_buf(ptr1));
+       ASSERT_FALSE(try_read_write_buf(&ptr1[9 * page_size]));
+ 
+       ASSERT_FALSE(try_read_write_buf(ptr2));
+       ASSERT_FALSE(try_read_write_buf(&ptr2[4 * page_size]));
+ 
+       ASSERT_FALSE(try_read_write_buf(ptr3));
+       ASSERT_FALSE(try_read_write_buf(&ptr3[19 * page_size]));
+ 
+       /* Now do the same with unguard... */
- -      close(pidfd);
++      count = sys_process_madvise(PIDFD_SELF, vec, 6, MADV_GUARD_REMOVE, 0);
+ 
+       /* ...and everything should now succeed. */
+ 
+       ASSERT_TRUE(try_read_write_buf(ptr1));
+       ASSERT_TRUE(try_read_write_buf(&ptr1[9 * page_size]));
+ 
+       ASSERT_TRUE(try_read_write_buf(ptr2));
+       ASSERT_TRUE(try_read_write_buf(&ptr2[4 * page_size]));
+ 
+       ASSERT_TRUE(try_read_write_buf(ptr3));
+       ASSERT_TRUE(try_read_write_buf(&ptr3[19 * page_size]));
+ 
+       /* Cleanup. */
+       ASSERT_EQ(munmap(ptr1, 10 * page_size), 0);
+       ASSERT_EQ(munmap(ptr2, 5 * page_size), 0);
+       ASSERT_EQ(munmap(ptr3, 20 * page_size), 0);
+ }
+ 
+ /* Assert that unmapping ranges does not leave guard markers behind. */
+ TEST_F(guard_regions, munmap)
+ {
+       const unsigned long page_size = self->page_size;
+       char *ptr, *ptr_new1, *ptr_new2;
+ 
+       ptr = mmap_(self, variant, NULL, 10 * page_size,
+                   PROT_READ | PROT_WRITE, 0, 0);
+       ASSERT_NE(ptr, MAP_FAILED);
+ 
+       /* Guard first and last pages. */
+       ASSERT_EQ(madvise(ptr, page_size, MADV_GUARD_INSTALL), 0);
+       ASSERT_EQ(madvise(&ptr[9 * page_size], page_size, MADV_GUARD_INSTALL), 0);
+ 
+       /* Assert that they are guarded. */
+       ASSERT_FALSE(try_read_write_buf(ptr));
+       ASSERT_FALSE(try_read_write_buf(&ptr[9 * page_size]));
+ 
+       /* Unmap them. */
+       ASSERT_EQ(munmap(ptr, page_size), 0);
+       ASSERT_EQ(munmap(&ptr[9 * page_size], page_size), 0);
+ 
+       /* Map over them.*/
+       ptr_new1 = mmap_(self, variant, ptr, page_size, PROT_READ | PROT_WRITE,
+                        MAP_FIXED, 0);
+       ASSERT_NE(ptr_new1, MAP_FAILED);
+       ptr_new2 = mmap_(self, variant, &ptr[9 * page_size], page_size,
+                        PROT_READ | PROT_WRITE, MAP_FIXED, 0);
+       ASSERT_NE(ptr_new2, MAP_FAILED);
+ 
+       /* Assert that they are now not guarded. */
+       ASSERT_TRUE(try_read_write_buf(ptr_new1));
+       ASSERT_TRUE(try_read_write_buf(ptr_new2));
+ 
+       /* Cleanup. */
+       ASSERT_EQ(munmap(ptr, 10 * page_size), 0);
+ }
+ 
+ /* Assert that mprotect() operations have no bearing on guard markers. */
+ TEST_F(guard_regions, mprotect)
+ {
+       const unsigned long page_size = self->page_size;
+       char *ptr;
+       int i;
+ 
+       ptr = mmap_(self, variant, NULL, 10 * page_size,
+                   PROT_READ | PROT_WRITE, 0, 0);
+       ASSERT_NE(ptr, MAP_FAILED);
+ 
+       /* Guard the middle of the range. */
+       ASSERT_EQ(madvise(&ptr[5 * page_size], 2 * page_size,
+                         MADV_GUARD_INSTALL), 0);
+ 
+       /* Assert that it is indeed guarded. */
+       ASSERT_FALSE(try_read_write_buf(&ptr[5 * page_size]));
+       ASSERT_FALSE(try_read_write_buf(&ptr[6 * page_size]));
+ 
+       /* Now make these pages read-only. */
+       ASSERT_EQ(mprotect(&ptr[5 * page_size], 2 * page_size, PROT_READ), 0);
+ 
+       /* Make sure the range is still guarded. */
+       ASSERT_FALSE(try_read_buf(&ptr[5 * page_size]));
+       ASSERT_FALSE(try_read_buf(&ptr[6 * page_size]));
+ 
+       /* Make sure we can guard again without issue.*/
+       ASSERT_EQ(madvise(&ptr[5 * page_size], 2 * page_size,
+                         MADV_GUARD_INSTALL), 0);
+ 
+       /* Make sure the range is, yet again, still guarded. */
+       ASSERT_FALSE(try_read_buf(&ptr[5 * page_size]));
+       ASSERT_FALSE(try_read_buf(&ptr[6 * page_size]));
+ 
+       /* Now unguard the whole range. */
+       ASSERT_EQ(madvise(ptr, 10 * page_size, MADV_GUARD_REMOVE), 0);
+ 
+       /* Make sure the whole range is readable. */
+       for (i = 0; i < 10; i++) {
+               char *curr = &ptr[i * page_size];
+ 
+               ASSERT_TRUE(try_read_buf(curr));
+       }
+ 
+       /* Cleanup. */
+       ASSERT_EQ(munmap(ptr, 10 * page_size), 0);
+ }
+ 
+ /* Split and merge VMAs and make sure guard pages still behave. */
+ TEST_F(guard_regions, split_merge)
+ {
+       const unsigned long page_size = self->page_size;
+       char *ptr, *ptr_new;
+       int i;
+ 
+       ptr = mmap_(self, variant, NULL, 10 * page_size,
+                   PROT_READ | PROT_WRITE, 0, 0);
+       ASSERT_NE(ptr, MAP_FAILED);
+ 
+       /* Guard the whole range. */
+       ASSERT_EQ(madvise(ptr, 10 * page_size, MADV_GUARD_INSTALL), 0);
+ 
+       /* Make sure the whole range is guarded. */
+       for (i = 0; i < 10; i++) {
+               char *curr = &ptr[i * page_size];
+ 
+               ASSERT_FALSE(try_read_write_buf(curr));
+       }
+ 
+       /* Now unmap some pages in the range so we split. */
+       ASSERT_EQ(munmap(&ptr[2 * page_size], page_size), 0);
+       ASSERT_EQ(munmap(&ptr[5 * page_size], page_size), 0);
+       ASSERT_EQ(munmap(&ptr[8 * page_size], page_size), 0);
+ 
+       /* Make sure the remaining ranges are guarded post-split. */
+       for (i = 0; i < 2; i++) {
+               char *curr = &ptr[i * page_size];
+ 
+               ASSERT_FALSE(try_read_write_buf(curr));
+       }
+       for (i = 2; i < 5; i++) {
+               char *curr = &ptr[i * page_size];
+ 
+               ASSERT_FALSE(try_read_write_buf(curr));
+       }
+       for (i = 6; i < 8; i++) {
+               char *curr = &ptr[i * page_size];
+ 
+               ASSERT_FALSE(try_read_write_buf(curr));
+       }
+       for (i = 9; i < 10; i++) {
+               char *curr = &ptr[i * page_size];
+ 
+               ASSERT_FALSE(try_read_write_buf(curr));
+       }
+ 
+       /* Now map them again - the unmap will have cleared the guards. */
+       ptr_new = mmap_(self, variant, &ptr[2 * page_size], page_size,
+                       PROT_READ | PROT_WRITE, MAP_FIXED, 0);
+       ASSERT_NE(ptr_new, MAP_FAILED);
+       ptr_new = mmap_(self, variant, &ptr[5 * page_size], page_size,
+                       PROT_READ | PROT_WRITE, MAP_FIXED, 0);
+       ASSERT_NE(ptr_new, MAP_FAILED);
+       ptr_new = mmap_(self, variant, &ptr[8 * page_size], page_size,
+                       PROT_READ | PROT_WRITE, MAP_FIXED, 0);
+       ASSERT_NE(ptr_new, MAP_FAILED);
+ 
+       /* Now make sure guard pages are established. */
+       for (i = 0; i < 10; i++) {
+               char *curr = &ptr[i * page_size];
+               bool result = try_read_write_buf(curr);
+               bool expect_true = i == 2 || i == 5 || i == 8;
+ 
+               ASSERT_TRUE(expect_true ? result : !result);
+       }
+ 
+       /* Now guard everything again. */
+       ASSERT_EQ(madvise(ptr, 10 * page_size, MADV_GUARD_INSTALL), 0);
+ 
+       /* Make sure the whole range is guarded. */
+       for (i = 0; i < 10; i++) {
+               char *curr = &ptr[i * page_size];
+ 
+               ASSERT_FALSE(try_read_write_buf(curr));
+       }
+ 
+       /* Now split the range into three. */
+       ASSERT_EQ(mprotect(ptr, 3 * page_size, PROT_READ), 0);
+       ASSERT_EQ(mprotect(&ptr[7 * page_size], 3 * page_size, PROT_READ), 0);
+ 
+       /* Make sure the whole range is guarded for read. */
+       for (i = 0; i < 10; i++) {
+               char *curr = &ptr[i * page_size];
+ 
+               ASSERT_FALSE(try_read_buf(curr));
+       }
+ 
+       /* Now reset protection bits so we merge the whole thing. */
+       ASSERT_EQ(mprotect(ptr, 3 * page_size, PROT_READ | PROT_WRITE), 0);
+       ASSERT_EQ(mprotect(&ptr[7 * page_size], 3 * page_size,
+                          PROT_READ | PROT_WRITE), 0);
+ 
+       /* Make sure the whole range is still guarded. */
+       for (i = 0; i < 10; i++) {
+               char *curr = &ptr[i * page_size];
+ 
+               ASSERT_FALSE(try_read_write_buf(curr));
+       }
+ 
+       /* Split range into 3 again... */
+       ASSERT_EQ(mprotect(ptr, 3 * page_size, PROT_READ), 0);
+       ASSERT_EQ(mprotect(&ptr[7 * page_size], 3 * page_size, PROT_READ), 0);
+ 
+       /* ...and unguard the whole range. */
+       ASSERT_EQ(madvise(ptr, 10 * page_size, MADV_GUARD_REMOVE), 0);
+ 
+       /* Make sure the whole range is remedied for read. */
+       for (i = 0; i < 10; i++) {
+               char *curr = &ptr[i * page_size];
+ 
+               ASSERT_TRUE(try_read_buf(curr));
+       }
+ 
+       /* Merge them again. */
+       ASSERT_EQ(mprotect(ptr, 3 * page_size, PROT_READ | PROT_WRITE), 0);
+       ASSERT_EQ(mprotect(&ptr[7 * page_size], 3 * page_size,
+                          PROT_READ | PROT_WRITE), 0);
+ 
+       /* Now ensure the merged range is remedied for read/write. */
+       for (i = 0; i < 10; i++) {
+               char *curr = &ptr[i * page_size];
+ 
+               ASSERT_TRUE(try_read_write_buf(curr));
+       }
+ 
+       /* Cleanup. */
+       ASSERT_EQ(munmap(ptr, 10 * page_size), 0);
+ }
+ 
+ /* Assert that MADV_DONTNEED does not remove guard markers. */
+ TEST_F(guard_regions, dontneed)
+ {
+       const unsigned long page_size = self->page_size;
+       char *ptr;
+       int i;
+ 
+       ptr = mmap_(self, variant, NULL, 10 * page_size,
+                   PROT_READ | PROT_WRITE, 0, 0);
+       ASSERT_NE(ptr, MAP_FAILED);
+ 
+       /* Back the whole range. */
+       for (i = 0; i < 10; i++) {
+               char *curr = &ptr[i * page_size];
+ 
+               *curr = 'y';
+       }
+ 
+       /* Guard every other page. */
+       for (i = 0; i < 10; i += 2) {
+               char *curr = &ptr[i * page_size];
+               int res = madvise(curr, page_size, MADV_GUARD_INSTALL);
+ 
+               ASSERT_EQ(res, 0);
+       }
+ 
+       /* Indicate that we don't need any of the range. */
+       ASSERT_EQ(madvise(ptr, 10 * page_size, MADV_DONTNEED), 0);
+ 
+       /* Check to ensure guard markers are still in place. */
+       for (i = 0; i < 10; i++) {
+               char *curr = &ptr[i * page_size];
+               bool result = try_read_buf(curr);
+ 
+               if (i % 2 == 0) {
+                       ASSERT_FALSE(result);
+               } else {
+                       ASSERT_TRUE(result);
+                       switch (variant->backing) {
+                       case ANON_BACKED:
+                               /* If anon, then we get a zero page. */
+                               ASSERT_EQ(*curr, '\0');
+                               break;
+                       default:
+                               /* Otherwise, we get the file data. */
+                               ASSERT_EQ(*curr, 'y');
+                               break;
+                       }
+               }
+ 
+               /* Now write... */
+               result = try_write_buf(&ptr[i * page_size]);
+ 
+               /* ...and make sure same result. */
+               ASSERT_TRUE(i % 2 != 0 ? result : !result);
+       }
+ 
+       /* Cleanup. */
+       ASSERT_EQ(munmap(ptr, 10 * page_size), 0);
+ }
+ 
+ /* Assert that mlock()'ed pages work correctly with guard markers. */
+ TEST_F(guard_regions, mlock)
+ {
+       const unsigned long page_size = self->page_size;
+       char *ptr;
+       int i;
+ 
+       ptr = mmap_(self, variant, NULL, 10 * page_size,
+                   PROT_READ | PROT_WRITE, 0, 0);
+       ASSERT_NE(ptr, MAP_FAILED);
+ 
+       /* Populate. */
+       for (i = 0; i < 10; i++) {
+               char *curr = &ptr[i * page_size];
+ 
+               *curr = 'y';
+       }
+ 
+       /* Lock. */
+       ASSERT_EQ(mlock(ptr, 10 * page_size), 0);
+ 
+       /* Now try to guard, should fail with EINVAL. */
+       ASSERT_EQ(madvise(ptr, 10 * page_size, MADV_GUARD_INSTALL), -1);
+       ASSERT_EQ(errno, EINVAL);
+ 
+       /* OK unlock. */
+       ASSERT_EQ(munlock(ptr, 10 * page_size), 0);
+ 
+       /* Guard first half of range, should now succeed. */
+       ASSERT_EQ(madvise(ptr, 5 * page_size, MADV_GUARD_INSTALL), 0);
+ 
+       /* Make sure guard works. */
+       for (i = 0; i < 10; i++) {
+               char *curr = &ptr[i * page_size];
+               bool result = try_read_write_buf(curr);
+ 
+               if (i < 5) {
+                       ASSERT_FALSE(result);
+               } else {
+                       ASSERT_TRUE(result);
+                       ASSERT_EQ(*curr, 'x');
+               }
+       }
+ 
+       /*
+        * Now lock the latter part of the range. We can't lock the guard pages,
+        * as this would result in the pages being populated and the guarding
+        * would cause this to error out.
+        */
+       ASSERT_EQ(mlock(&ptr[5 * page_size], 5 * page_size), 0);
+ 
+       /*
+        * Now remove guard pages, we permit mlock()'d ranges to have guard
+        * pages removed as it is a non-destructive operation.
+        */
+       ASSERT_EQ(madvise(ptr, 10 * page_size, MADV_GUARD_REMOVE), 0);
+ 
+       /* Now check that no guard pages remain. */
+       for (i = 0; i < 10; i++) {
+               char *curr = &ptr[i * page_size];
+ 
+               ASSERT_TRUE(try_read_write_buf(curr));
+       }
+ 
+       /* Cleanup. */
+       ASSERT_EQ(munmap(ptr, 10 * page_size), 0);
+ }
+ 
+ /*
+  * Assert that moving, extending and shrinking memory via mremap() retains
+  * guard markers where possible.
+  *
+  * - Moving a mapping alone should retain markers as they are.
+  */
+ TEST_F(guard_regions, mremap_move)
+ {
+       const unsigned long page_size = self->page_size;
+       char *ptr, *ptr_new;
+ 
+       /* Map 5 pages. */
+       ptr = mmap_(self, variant, NULL, 5 * page_size,
+                   PROT_READ | PROT_WRITE, 0, 0);
+       ASSERT_NE(ptr, MAP_FAILED);
+ 
+       /* Place guard markers at both ends of the 5 page span. */
+       ASSERT_EQ(madvise(ptr, page_size, MADV_GUARD_INSTALL), 0);
+       ASSERT_EQ(madvise(&ptr[4 * page_size], page_size, MADV_GUARD_INSTALL), 0);
+ 
+       /* Make sure the guard pages are in effect. */
+       ASSERT_FALSE(try_read_write_buf(ptr));
+       ASSERT_FALSE(try_read_write_buf(&ptr[4 * page_size]));
+ 
+       /* Map a new region we will move this range into. Doing this ensures
+        * that we have reserved a range to map into.
+        */
+       ptr_new = mmap_(self, variant, NULL, 5 * page_size, PROT_NONE, 0, 0);
+       ASSERT_NE(ptr_new, MAP_FAILED);
+ 
+       ASSERT_EQ(mremap(ptr, 5 * page_size, 5 * page_size,
+                        MREMAP_MAYMOVE | MREMAP_FIXED, ptr_new), ptr_new);
+ 
+       /* Make sure the guard markers are retained. */
+       ASSERT_FALSE(try_read_write_buf(ptr_new));
+       ASSERT_FALSE(try_read_write_buf(&ptr_new[4 * page_size]));
+ 
+       /*
+        * Clean up - we only need reference the new pointer as we overwrote the
+        * PROT_NONE range and moved the existing one.
+        */
+       munmap(ptr_new, 5 * page_size);
+ }
+ 
+ /*
+  * Assert that moving, extending and shrinking memory via mremap() retains
+  * guard markers where possible.
+  *
+  * Expanding should retain guard pages, only now in different position. The user
+  * will have to remove guard pages manually to fix up (they'd have to do the
+  * same if it were a PROT_NONE mapping).
+  */
+ TEST_F(guard_regions, mremap_expand)
+ {
+       const unsigned long page_size = self->page_size;
+       char *ptr, *ptr_new;
+ 
+       /* Map 10 pages... */
+       ptr = mmap_(self, variant, NULL, 10 * page_size,
+                   PROT_READ | PROT_WRITE, 0, 0);
+       ASSERT_NE(ptr, MAP_FAILED);
+       /* ...But unmap the last 5 so we can ensure we can expand into them. */
+       ASSERT_EQ(munmap(&ptr[5 * page_size], 5 * page_size), 0);
+ 
+       /* Place guard markers at both ends of the 5 page span. */
+       ASSERT_EQ(madvise(ptr, page_size, MADV_GUARD_INSTALL), 0);
+       ASSERT_EQ(madvise(&ptr[4 * page_size], page_size, MADV_GUARD_INSTALL), 0);
+ 
+       /* Make sure the guarding is in effect. */
+       ASSERT_FALSE(try_read_write_buf(ptr));
+       ASSERT_FALSE(try_read_write_buf(&ptr[4 * page_size]));
+ 
+       /* Now expand to 10 pages. */
+       ptr = mremap(ptr, 5 * page_size, 10 * page_size, 0);
+       ASSERT_NE(ptr, MAP_FAILED);
+ 
+       /*
+        * Make sure the guard markers are retained in their original positions.
+        */
+       ASSERT_FALSE(try_read_write_buf(ptr));
+       ASSERT_FALSE(try_read_write_buf(&ptr[4 * page_size]));
+ 
+       /* Reserve a region which we can move to and expand into. */
+       ptr_new = mmap_(self, variant, NULL, 20 * page_size, PROT_NONE, 0, 0);
+       ASSERT_NE(ptr_new, MAP_FAILED);
+ 
+       /* Now move and expand into it. */
+       ptr = mremap(ptr, 10 * page_size, 20 * page_size,
+                    MREMAP_MAYMOVE | MREMAP_FIXED, ptr_new);
+       ASSERT_EQ(ptr, ptr_new);
+ 
+       /*
+        * Again, make sure the guard markers are retained in their original positions.
+        */
+       ASSERT_FALSE(try_read_write_buf(ptr));
+       ASSERT_FALSE(try_read_write_buf(&ptr[4 * page_size]));
+ 
+       /*
+        * A real user would have to remove guard markers, but would reasonably
+        * expect all characteristics of the mapping to be retained, including
+        * guard markers.
+        */
+ 
+       /* Cleanup. */
+       munmap(ptr, 20 * page_size);
+ }
+ /*
+  * Assert that moving, extending and shrinking memory via mremap() retains
+  * guard markers where possible.
+  *
+  * Shrinking will result in markers that are shrunk over being removed. Again,
+  * if the user were using a PROT_NONE mapping they'd have to manually fix this
+  * up also so this is OK.
+  */
+ TEST_F(guard_regions, mremap_shrink)
+ {
+       const unsigned long page_size = self->page_size;
+       char *ptr;
+       int i;
+ 
+       /* Map 5 pages. */
+       ptr = mmap_(self, variant, NULL, 5 * page_size,
+                   PROT_READ | PROT_WRITE, 0, 0);
+       ASSERT_NE(ptr, MAP_FAILED);
+ 
+       /* Place guard markers at both ends of the 5 page span. */
+       ASSERT_EQ(madvise(ptr, page_size, MADV_GUARD_INSTALL), 0);
+       ASSERT_EQ(madvise(&ptr[4 * page_size], page_size, MADV_GUARD_INSTALL), 0);
+ 
+       /* Make sure the guarding is in effect. */
+       ASSERT_FALSE(try_read_write_buf(ptr));
+       ASSERT_FALSE(try_read_write_buf(&ptr[4 * page_size]));
+ 
+       /* Now shrink to 3 pages. */
+       ptr = mremap(ptr, 5 * page_size, 3 * page_size, MREMAP_MAYMOVE);
+       ASSERT_NE(ptr, MAP_FAILED);
+ 
+       /* We expect the guard marker at the start to be retained... */
+       ASSERT_FALSE(try_read_write_buf(ptr));
+ 
+       /* ...But remaining pages will not have guard markers. */
+       for (i = 1; i < 3; i++) {
+               char *curr = &ptr[i * page_size];
+ 
+               ASSERT_TRUE(try_read_write_buf(curr));
+       }
+ 
+       /*
+        * As with expansion, a real user would have to remove guard pages and
+        * fixup. But you'd have to do similar manual things with PROT_NONE
+        * mappings too.
+        */
+ 
+       /*
+        * If we expand back to the original size, the end marker will, of
+        * course, no longer be present.
+        */
+       ptr = mremap(ptr, 3 * page_size, 5 * page_size, 0);
+       ASSERT_NE(ptr, MAP_FAILED);
+ 
+       /* Again, we expect the guard marker at the start to be retained... */
+       ASSERT_FALSE(try_read_write_buf(ptr));
+ 
+       /* ...But remaining pages will not have guard markers. */
+       for (i = 1; i < 5; i++) {
+               char *curr = &ptr[i * page_size];
+ 
+               ASSERT_TRUE(try_read_write_buf(curr));
+       }
+ 
+       /* Cleanup. */
+       munmap(ptr, 5 * page_size);
+ }
+ 
+ /*
+  * Assert that forking a process with VMAs that do not have VM_WIPEONFORK set
+  * retain guard pages.
+  */
+ TEST_F(guard_regions, fork)
+ {
+       const unsigned long page_size = self->page_size;
+       char *ptr;
+       pid_t pid;
+       int i;
+ 
+       /* Map 10 pages. */
+       ptr = mmap_(self, variant, NULL, 10 * page_size,
+                   PROT_READ | PROT_WRITE, 0, 0);
+       ASSERT_NE(ptr, MAP_FAILED);
+ 
+       /* Establish guard pages in the first 5 pages. */
+       ASSERT_EQ(madvise(ptr, 5 * page_size, MADV_GUARD_INSTALL), 0);
+ 
+       pid = fork();
+       ASSERT_NE(pid, -1);
+       if (!pid) {
+               /* This is the child process now. */
+ 
+               /* Assert that the guarding is in effect. */
+               for (i = 0; i < 10; i++) {
+                       char *curr = &ptr[i * page_size];
+                       bool result = try_read_write_buf(curr);
+ 
+                       ASSERT_TRUE(i >= 5 ? result : !result);
+               }
+ 
+               /* Now unguard the range.*/
+               ASSERT_EQ(madvise(ptr, 10 * page_size, MADV_GUARD_REMOVE), 0);
+ 
+               exit(0);
+       }
+ 
+       /* Parent process. */
+ 
+       /* Parent simply waits on child. */
+       waitpid(pid, NULL, 0);
+ 
+       /* Child unguard does not impact parent page table state. */
+       for (i = 0; i < 10; i++) {
+               char *curr = &ptr[i * page_size];
+               bool result = try_read_write_buf(curr);
+ 
+               ASSERT_TRUE(i >= 5 ? result : !result);
+       }
+ 
+       /* Cleanup. */
+       ASSERT_EQ(munmap(ptr, 10 * page_size), 0);
+ }
+ 
+ /*
+  * Assert expected behaviour after we fork populated ranges of anonymous memory
+  * and then guard and unguard the range.
+  */
+ TEST_F(guard_regions, fork_cow)
+ {
+       const unsigned long page_size = self->page_size;
+       char *ptr;
+       pid_t pid;
+       int i;
+ 
+       if (variant->backing != ANON_BACKED)
+               SKIP(return, "CoW only supported on anon mappings");
+ 
+       /* Map 10 pages. */
+       ptr = mmap_(self, variant, NULL, 10 * page_size,
+                   PROT_READ | PROT_WRITE, 0, 0);
+       ASSERT_NE(ptr, MAP_FAILED);
+ 
+       /* Populate range. */
+       for (i = 0; i < 10 * page_size; i++) {
+               char chr = 'a' + (i % 26);
+ 
+               ptr[i] = chr;
+       }
+ 
+       pid = fork();
+       ASSERT_NE(pid, -1);
+       if (!pid) {
+               /* This is the child process now. */
+ 
+               /* Ensure the range is as expected. */
+               for (i = 0; i < 10 * page_size; i++) {
+                       char expected = 'a' + (i % 26);
+                       char actual = ptr[i];
+ 
+                       ASSERT_EQ(actual, expected);
+               }
+ 
+               /* Establish guard pages across the whole range. */
+               ASSERT_EQ(madvise(ptr, 10 * page_size, MADV_GUARD_INSTALL), 0);
+               /* Remove it. */
+               ASSERT_EQ(madvise(ptr, 10 * page_size, MADV_GUARD_REMOVE), 0);
+ 
+               /*
+                * By removing the guard pages, the page tables will be
+                * cleared. Assert that we are looking at the zero page now.
+                */
+               for (i = 0; i < 10 * page_size; i++) {
+                       char actual = ptr[i];
+ 
+                       ASSERT_EQ(actual, '\0');
+               }
+ 
+               exit(0);
+       }
+ 
+       /* Parent process. */
+ 
+       /* Parent simply waits on child. */
+       waitpid(pid, NULL, 0);
+ 
+       /* Ensure the range is unchanged in parent anon range. */
+       for (i = 0; i < 10 * page_size; i++) {
+               char expected = 'a' + (i % 26);
+               char actual = ptr[i];
+ 
+               ASSERT_EQ(actual, expected);
+       }
+ 
+       /* Cleanup. */
+       ASSERT_EQ(munmap(ptr, 10 * page_size), 0);
+ }
+ 
+ /*
+  * Assert that forking a process with VMAs that do have VM_WIPEONFORK set
+  * behave as expected.
+  */
+ TEST_F(guard_regions, fork_wipeonfork)
+ {
+       const unsigned long page_size = self->page_size;
+       char *ptr;
+       pid_t pid;
+       int i;
+ 
+       if (variant->backing != ANON_BACKED)
+               SKIP(return, "Wipe on fork only supported on anon mappings");
+ 
+       /* Map 10 pages. */
+       ptr = mmap_(self, variant, NULL, 10 * page_size,
+                   PROT_READ | PROT_WRITE, 0, 0);
+       ASSERT_NE(ptr, MAP_FAILED);
+ 
+       /* Mark wipe on fork. */
+       ASSERT_EQ(madvise(ptr, 10 * page_size, MADV_WIPEONFORK), 0);
+ 
+       /* Guard the first 5 pages. */
+       ASSERT_EQ(madvise(ptr, 5 * page_size, MADV_GUARD_INSTALL), 0);
+ 
+       pid = fork();
+       ASSERT_NE(pid, -1);
+       if (!pid) {
+               /* This is the child process now. */
+ 
+               /* Guard will have been wiped. */
+               for (i = 0; i < 10; i++) {
+                       char *curr = &ptr[i * page_size];
+ 
+                       ASSERT_TRUE(try_read_write_buf(curr));
+               }
+ 
+               exit(0);
+       }
+ 
+       /* Parent process. */
+ 
+       waitpid(pid, NULL, 0);
+ 
+       /* Guard markers should be in effect.*/
+       for (i = 0; i < 10; i++) {
+               char *curr = &ptr[i * page_size];
+               bool result = try_read_write_buf(curr);
+ 
+               ASSERT_TRUE(i >= 5 ? result : !result);
+       }
+ 
+       /* Cleanup. */
+       ASSERT_EQ(munmap(ptr, 10 * page_size), 0);
+ }
+ 
+ /* Ensure that MADV_FREE retains guard entries as expected. */
+ TEST_F(guard_regions, lazyfree)
+ {
+       const unsigned long page_size = self->page_size;
+       char *ptr;
+       int i;
+ 
+       if (variant->backing != ANON_BACKED)
+               SKIP(return, "MADV_FREE only supported on anon mappings");
+ 
+       /* Map 10 pages. */
+       ptr = mmap_(self, variant, NULL, 10 * page_size,
+                   PROT_READ | PROT_WRITE, 0, 0);
+       ASSERT_NE(ptr, MAP_FAILED);
+ 
+       /* Guard range. */
+       ASSERT_EQ(madvise(ptr, 10 * page_size, MADV_GUARD_INSTALL), 0);
+ 
+       /* Ensure guarded. */
+       for (i = 0; i < 10; i++) {
+               char *curr = &ptr[i * page_size];
+ 
+               ASSERT_FALSE(try_read_write_buf(curr));
+       }
+ 
+       /* Lazyfree range. */
+       ASSERT_EQ(madvise(ptr, 10 * page_size, MADV_FREE), 0);
+ 
+       /* This should leave the guard markers in place. */
+       for (i = 0; i < 10; i++) {
+               char *curr = &ptr[i * page_size];
+ 
+               ASSERT_FALSE(try_read_write_buf(curr));
+       }
+ 
+       /* Cleanup. */
+       ASSERT_EQ(munmap(ptr, 10 * page_size), 0);
+ }
+ 
+ /* Ensure that MADV_POPULATE_READ, MADV_POPULATE_WRITE behave as expected. */
+ TEST_F(guard_regions, populate)
+ {
+       const unsigned long page_size = self->page_size;
+       char *ptr;
+ 
+       /* Map 10 pages. */
+       ptr = mmap_(self, variant, NULL, 10 * page_size,
+                   PROT_READ | PROT_WRITE, 0, 0);
+       ASSERT_NE(ptr, MAP_FAILED);
+ 
+       /* Guard range. */
+       ASSERT_EQ(madvise(ptr, 10 * page_size, MADV_GUARD_INSTALL), 0);
+ 
+       /* Populate read should error out... */
+       ASSERT_EQ(madvise(ptr, 10 * page_size, MADV_POPULATE_READ), -1);
+       ASSERT_EQ(errno, EFAULT);
+ 
+       /* ...as should populate write. */
+       ASSERT_EQ(madvise(ptr, 10 * page_size, MADV_POPULATE_WRITE), -1);
+       ASSERT_EQ(errno, EFAULT);
+ 
+       /* Cleanup. */
+       ASSERT_EQ(munmap(ptr, 10 * page_size), 0);
+ }
+ 
+ /* Ensure that MADV_COLD, MADV_PAGEOUT do not remove guard markers. */
+ TEST_F(guard_regions, cold_pageout)
+ {
+       const unsigned long page_size = self->page_size;
+       char *ptr;
+       int i;
+ 
+       /* Map 10 pages. */
+       ptr = mmap_(self, variant, NULL, 10 * page_size,
+                   PROT_READ | PROT_WRITE, 0, 0);
+       ASSERT_NE(ptr, MAP_FAILED);
+ 
+       /* Guard range. */
+       ASSERT_EQ(madvise(ptr, 10 * page_size, MADV_GUARD_INSTALL), 0);
+ 
+       /* Ensured guarded. */
+       for (i = 0; i < 10; i++) {
+               char *curr = &ptr[i * page_size];
+ 
+               ASSERT_FALSE(try_read_write_buf(curr));
+       }
+ 
+       /* Now mark cold. This should have no impact on guard markers. */
+       ASSERT_EQ(madvise(ptr, 10 * page_size, MADV_COLD), 0);
+ 
+       /* Should remain guarded. */
+       for (i = 0; i < 10; i++) {
+               char *curr = &ptr[i * page_size];
+ 
+               ASSERT_FALSE(try_read_write_buf(curr));
+       }
+ 
+       /* OK, now page out. This should equally, have no effect on markers. */
+       ASSERT_EQ(madvise(ptr, 10 * page_size, MADV_PAGEOUT), 0);
+ 
+       /* Should remain guarded. */
+       for (i = 0; i < 10; i++) {
+               char *curr = &ptr[i * page_size];
+ 
+               ASSERT_FALSE(try_read_write_buf(curr));
+       }
+ 
+       /* Cleanup. */
+       ASSERT_EQ(munmap(ptr, 10 * page_size), 0);
+ }
+ 
+ /* Ensure that guard pages do not break userfaultd. */
+ TEST_F(guard_regions, uffd)
+ {
+       const unsigned long page_size = self->page_size;
+       int uffd;
+       char *ptr;
+       int i;
+       struct uffdio_api api = {
+               .api = UFFD_API,
+               .features = 0,
+       };
+       struct uffdio_register reg;
+       struct uffdio_range range;
+ 
+       if (!is_anon_backed(variant))
+               SKIP(return, "uffd only works on anon backing");
+ 
+       /* Set up uffd. */
+       uffd = userfaultfd(0);
+       if (uffd == -1 && errno == EPERM)
+               ksft_exit_skip("No userfaultfd permissions, try running as root.\n");
+       ASSERT_NE(uffd, -1);
+ 
+       ASSERT_EQ(ioctl(uffd, UFFDIO_API, &api), 0);
+ 
+       /* Map 10 pages. */
+       ptr = mmap_(self, variant, NULL, 10 * page_size,
+                   PROT_READ | PROT_WRITE, 0, 0);
+       ASSERT_NE(ptr, MAP_FAILED);
+ 
+       /* Register the range with uffd. */
+       range.start = (unsigned long)ptr;
+       range.len = 10 * page_size;
+       reg.range = range;
+       reg.mode = UFFDIO_REGISTER_MODE_MISSING;
+       ASSERT_EQ(ioctl(uffd, UFFDIO_REGISTER, &reg), 0);
+ 
+       /* Guard the range. This should not trigger the uffd. */
+       ASSERT_EQ(madvise(ptr, 10 * page_size, MADV_GUARD_INSTALL), 0);
+ 
+       /* The guarding should behave as usual with no uffd intervention. */
+       for (i = 0; i < 10; i++) {
+               char *curr = &ptr[i * page_size];
+ 
+               ASSERT_FALSE(try_read_write_buf(curr));
+       }
+ 
+       /* Cleanup. */
+       ASSERT_EQ(ioctl(uffd, UFFDIO_UNREGISTER, &range), 0);
+       close(uffd);
+       ASSERT_EQ(munmap(ptr, 10 * page_size), 0);
+ }
+ 
+ /*
+  * Mark a region within a file-backed mapping using MADV_SEQUENTIAL so we
+  * aggressively read-ahead, then install guard regions and assert that it
+  * behaves correctly.
+  *
+  * We page out using MADV_PAGEOUT before checking guard regions so we drop page
+  * cache folios, meaning we maximise the possibility of some broken readahead.
+  */
+ TEST_F(guard_regions, madvise_sequential)
+ {
+       char *ptr;
+       int i;
+       const unsigned long page_size = self->page_size;
+ 
+       if (variant->backing == ANON_BACKED)
+               SKIP(return, "MADV_SEQUENTIAL meaningful only for file-backed");
+ 
+       ptr = mmap_(self, variant, NULL, 10 * page_size,
+                   PROT_READ | PROT_WRITE, 0, 0);
+       ASSERT_NE(ptr, MAP_FAILED);
+ 
+       /* Establish a pattern of data in the file. */
+       set_pattern(ptr, 10, page_size);
+       ASSERT_TRUE(check_pattern(ptr, 10, page_size));
+ 
+       /* Mark it as being accessed sequentially. */
+       ASSERT_EQ(madvise(ptr, 10 * page_size, MADV_SEQUENTIAL), 0);
+ 
+       /* Mark every other page a guard page. */
+       for (i = 0; i < 10; i += 2) {
+               char *ptr2 = &ptr[i * page_size];
+ 
+               ASSERT_EQ(madvise(ptr2, page_size, MADV_GUARD_INSTALL), 0);
+       }
+ 
+       /* Now page it out. */
+       ASSERT_EQ(madvise(ptr, 10 * page_size, MADV_PAGEOUT), 0);
+ 
+       /* Now make sure pages are as expected. */
+       for (i = 0; i < 10; i++) {
+               char *chrp = &ptr[i * page_size];
+ 
+               if (i % 2 == 0) {
+                       bool result = try_read_write_buf(chrp);
+ 
+                       ASSERT_FALSE(result);
+               } else {
+                       ASSERT_EQ(*chrp, 'a' + i);
+               }
+       }
+ 
+       /* Now remove guard pages. */
+       ASSERT_EQ(madvise(ptr, 10 * page_size, MADV_GUARD_REMOVE), 0);
+ 
+       /* Now make sure all data is as expected. */
+       if (!check_pattern(ptr, 10, page_size))
+               ASSERT_TRUE(false);
+ 
+       ASSERT_EQ(munmap(ptr, 10 * page_size), 0);
+ }
+ 
+ /*
+  * Check that file-backed mappings implement guard regions with MAP_PRIVATE
+  * correctly.
+  */
+ TEST_F(guard_regions, map_private)
+ {
+       const unsigned long page_size = self->page_size;
+       char *ptr_shared, *ptr_private;
+       int i;
+ 
+       if (variant->backing == ANON_BACKED)
+               SKIP(return, "MAP_PRIVATE test specific to file-backed");
+ 
+       ptr_shared = mmap_(self, variant, NULL, 10 * page_size, PROT_READ | PROT_WRITE, 0, 0);
+       ASSERT_NE(ptr_shared, MAP_FAILED);
+ 
+       /* Manually mmap(), do not use mmap_() wrapper so we can force MAP_PRIVATE. */
+       ptr_private = mmap(NULL, 10 * page_size, PROT_READ | PROT_WRITE, MAP_PRIVATE, self->fd, 0);
+       ASSERT_NE(ptr_private, MAP_FAILED);
+ 
+       /* Set pattern in shared mapping. */
+       set_pattern(ptr_shared, 10, page_size);
+ 
+       /* Install guard regions in every other page in the shared mapping. */
+       for (i = 0; i < 10; i += 2) {
+               char *ptr = &ptr_shared[i * page_size];
+ 
+               ASSERT_EQ(madvise(ptr, page_size, MADV_GUARD_INSTALL), 0);
+       }
+ 
+       for (i = 0; i < 10; i++) {
+               /* Every even shared page should be guarded. */
+               ASSERT_EQ(try_read_buf(&ptr_shared[i * page_size]), i % 2 != 0);
+               /* Private mappings should always be readable. */
+               ASSERT_TRUE(try_read_buf(&ptr_private[i * page_size]));
+       }
+ 
+       /* Install guard regions in every other page in the private mapping. */
+       for (i = 0; i < 10; i += 2) {
+               char *ptr = &ptr_private[i * page_size];
+ 
+               ASSERT_EQ(madvise(ptr, page_size, MADV_GUARD_INSTALL), 0);
+       }
+ 
+       for (i = 0; i < 10; i++) {
+               /* Every even shared page should be guarded. */
+               ASSERT_EQ(try_read_buf(&ptr_shared[i * page_size]), i % 2 != 0);
+               /* Every odd private page should be guarded. */
+               ASSERT_EQ(try_read_buf(&ptr_private[i * page_size]), i % 2 != 0);
+       }
+ 
+       /* Remove guard regions from shared mapping. */
+       ASSERT_EQ(madvise(ptr_shared, 10 * page_size, MADV_GUARD_REMOVE), 0);
+ 
+       for (i = 0; i < 10; i++) {
+               /* Shared mappings should always be readable. */
+               ASSERT_TRUE(try_read_buf(&ptr_shared[i * page_size]));
+               /* Every even private page should be guarded. */
+               ASSERT_EQ(try_read_buf(&ptr_private[i * page_size]), i % 2 != 0);
+       }
+ 
+       /* Remove guard regions from private mapping. */
+       ASSERT_EQ(madvise(ptr_private, 10 * page_size, MADV_GUARD_REMOVE), 0);
+ 
+       for (i = 0; i < 10; i++) {
+               /* Shared mappings should always be readable. */
+               ASSERT_TRUE(try_read_buf(&ptr_shared[i * page_size]));
+               /* Private mappings should always be readable. */
+               ASSERT_TRUE(try_read_buf(&ptr_private[i * page_size]));
+       }
+ 
+       /* Ensure patterns are intact. */
+       ASSERT_TRUE(check_pattern(ptr_shared, 10, page_size));
+       ASSERT_TRUE(check_pattern(ptr_private, 10, page_size));
+ 
+       /* Now write out every other page to MAP_PRIVATE. */
+       for (i = 0; i < 10; i += 2) {
+               char *ptr = &ptr_private[i * page_size];
+ 
+               memset(ptr, 'a' + i, page_size);
+       }
+ 
+       /*
+        * At this point the mapping is:
+        *
+        * 0123456789
+        * SPSPSPSPSP
+        *
+        * Where S = shared, P = private mappings.
+        */
+ 
+       /* Now mark the beginning of the mapping guarded. */
+       ASSERT_EQ(madvise(ptr_private, 5 * page_size, MADV_GUARD_INSTALL), 0);
+ 
+       /*
+        * This renders the mapping:
+        *
+        * 0123456789
+        * xxxxxPSPSP
+        */
+ 
+       for (i = 0; i < 10; i++) {
+               char *ptr = &ptr_private[i * page_size];
+ 
+               /* Ensure guard regions as expected. */
+               ASSERT_EQ(try_read_buf(ptr), i >= 5);
+               /* The shared mapping should always succeed. */
+               ASSERT_TRUE(try_read_buf(&ptr_shared[i * page_size]));
+       }
+ 
+       /* Remove the guard regions altogether. */
+       ASSERT_EQ(madvise(ptr_private, 10 * page_size, MADV_GUARD_REMOVE), 0);
+ 
+       /*
+        *
+        * We now expect the mapping to be:
+        *
+        * 0123456789
+        * SSSSSPSPSP
+        *
+        * As we removed guard regions, the private pages from the first 5 will
+        * have been zapped, so on fault will reestablish the shared mapping.
+        */
+ 
+       for (i = 0; i < 10; i++) {
+               char *ptr = &ptr_private[i * page_size];
+ 
+               /*
+                * Assert that shared mappings in the MAP_PRIVATE mapping match
+                * the shared mapping.
+                */
+               if (i < 5 || i % 2 == 0) {
+                       char *ptr_s = &ptr_shared[i * page_size];
+ 
+                       ASSERT_EQ(memcmp(ptr, ptr_s, page_size), 0);
+                       continue;
+               }
+ 
+               /* Everything else is a private mapping. */
+               ASSERT_TRUE(is_buf_eq(ptr, page_size, 'a' + i));
+       }
+ 
+       ASSERT_EQ(munmap(ptr_shared, 10 * page_size), 0);
+       ASSERT_EQ(munmap(ptr_private, 10 * page_size), 0);
+ }
+ 
+ /* Test that guard regions established over a read-only mapping function correctly. */
+ TEST_F(guard_regions, readonly_file)
+ {
+       const unsigned long page_size = self->page_size;
+       char *ptr;
+       int i;
+ 
+       if (variant->backing == ANON_BACKED)
+               SKIP(return, "Read-only test specific to file-backed");
+ 
+       /* Map shared so we can populate with pattern, populate it, unmap. */
+       ptr = mmap_(self, variant, NULL, 10 * page_size,
+                   PROT_READ | PROT_WRITE, 0, 0);
+       ASSERT_NE(ptr, MAP_FAILED);
+       set_pattern(ptr, 10, page_size);
+       ASSERT_EQ(munmap(ptr, 10 * page_size), 0);
+       /* Close the fd so we can re-open read-only. */
+       ASSERT_EQ(close(self->fd), 0);
+ 
+       /* Re-open read-only. */
+       self->fd = open(self->path, O_RDONLY);
+       ASSERT_NE(self->fd, -1);
+       /* Re-map read-only. */
+       ptr = mmap_(self, variant, NULL, 10 * page_size, PROT_READ, 0, 0);
+       ASSERT_NE(ptr, MAP_FAILED);
+ 
+       /* Mark every other page guarded. */
+       for (i = 0; i < 10; i += 2) {
+               char *ptr_pg = &ptr[i * page_size];
+ 
+               ASSERT_EQ(madvise(ptr_pg, page_size, MADV_GUARD_INSTALL), 0);
+       }
+ 
+       /* Assert that the guard regions are in place.*/
+       for (i = 0; i < 10; i++) {
+               char *ptr_pg = &ptr[i * page_size];
+ 
+               ASSERT_EQ(try_read_buf(ptr_pg), i % 2 != 0);
+       }
+ 
+       /* Remove guard regions. */
+       ASSERT_EQ(madvise(ptr, 10 * page_size, MADV_GUARD_REMOVE), 0);
+ 
+       /* Ensure the data is as expected. */
+       ASSERT_TRUE(check_pattern(ptr, 10, page_size));
+ 
+       ASSERT_EQ(munmap(ptr, 10 * page_size), 0);
+ }
+ 
+ TEST_F(guard_regions, fault_around)
+ {
+       const unsigned long page_size = self->page_size;
+       char *ptr;
+       int i;
+ 
+       if (variant->backing == ANON_BACKED)
+               SKIP(return, "Fault-around test specific to file-backed");
+ 
+       ptr = mmap_(self, variant, NULL, 10 * page_size,
+                   PROT_READ | PROT_WRITE, 0, 0);
+       ASSERT_NE(ptr, MAP_FAILED);
+ 
+       /* Establish a pattern in the backing file. */
+       set_pattern(ptr, 10, page_size);
+ 
+       /*
+        * Now drop it from the page cache so we get major faults when next we
+        * map it.
+        */
+       ASSERT_EQ(madvise(ptr, 10 * page_size, MADV_PAGEOUT), 0);
+ 
+       /* Unmap and remap 'to be sure'. */
+       ASSERT_EQ(munmap(ptr, 10 * page_size), 0);
+       ptr = mmap_(self, variant, NULL, 10 * page_size,
+                   PROT_READ | PROT_WRITE, 0, 0);
+       ASSERT_NE(ptr, MAP_FAILED);
+ 
+       /* Now make every even page guarded. */
+       for (i = 0; i < 10; i += 2) {
+               char *ptr_p = &ptr[i * page_size];
+ 
+               ASSERT_EQ(madvise(ptr_p, page_size, MADV_GUARD_INSTALL), 0);
+       }
+ 
+       /* Now fault in every odd page. This should trigger fault-around. */
+       for (i = 1; i < 10; i += 2) {
+               char *ptr_p = &ptr[i * page_size];
+ 
+               ASSERT_TRUE(try_read_buf(ptr_p));
+       }
+ 
+       /* Finally, ensure that guard regions are intact as expected. */
+       for (i = 0; i < 10; i++) {
+               char *ptr_p = &ptr[i * page_size];
+ 
+               ASSERT_EQ(try_read_buf(ptr_p), i % 2 != 0);
+       }
+ 
+       ASSERT_EQ(munmap(ptr, 10 * page_size), 0);
+ }
+ 
+ TEST_F(guard_regions, truncation)
+ {
+       const unsigned long page_size = self->page_size;
+       char *ptr;
+       int i;
+ 
+       if (variant->backing == ANON_BACKED)
+               SKIP(return, "Truncation test specific to file-backed");
+ 
+       ptr = mmap_(self, variant, NULL, 10 * page_size,
+                   PROT_READ | PROT_WRITE, 0, 0);
+       ASSERT_NE(ptr, MAP_FAILED);
+ 
+       /*
+        * Establish a pattern in the backing file, just so there is data
+        * there.
+        */
+       set_pattern(ptr, 10, page_size);
+ 
+       /* Now make every even page guarded. */
+       for (i = 0; i < 10; i += 2) {
+               char *ptr_p = &ptr[i * page_size];
+ 
+               ASSERT_EQ(madvise(ptr_p, page_size, MADV_GUARD_INSTALL), 0);
+       }
+ 
+       /* Now assert things are as expected. */
+       for (i = 0; i < 10; i++) {
+               char *ptr_p = &ptr[i * page_size];
+ 
+               ASSERT_EQ(try_read_write_buf(ptr_p), i % 2 != 0);
+       }
+ 
+       /* Now truncate to actually used size (initialised to 100). */
+       ASSERT_EQ(ftruncate(self->fd, 10 * page_size), 0);
+ 
+       /* Here the guard regions will remain intact. */
+       for (i = 0; i < 10; i++) {
+               char *ptr_p = &ptr[i * page_size];
+ 
+               ASSERT_EQ(try_read_write_buf(ptr_p), i % 2 != 0);
+       }
+ 
+       /* Now truncate to half the size, then truncate again to the full size. */
+       ASSERT_EQ(ftruncate(self->fd, 5 * page_size), 0);
+       ASSERT_EQ(ftruncate(self->fd, 10 * page_size), 0);
+ 
+       /* Again, guard pages will remain intact. */
+       for (i = 0; i < 10; i++) {
+               char *ptr_p = &ptr[i * page_size];
+ 
+               ASSERT_EQ(try_read_write_buf(ptr_p), i % 2 != 0);
+       }
+ 
+       ASSERT_EQ(munmap(ptr, 10 * page_size), 0);
+ }
+ 
+ TEST_F(guard_regions, hole_punch)
+ {
+       const unsigned long page_size = self->page_size;
+       char *ptr;
+       int i;
+ 
+       if (variant->backing == ANON_BACKED)
+               SKIP(return, "Truncation test specific to file-backed");
+ 
+       /* Establish pattern in mapping. */
+       ptr = mmap_(self, variant, NULL, 10 * page_size,
+                   PROT_READ | PROT_WRITE, 0, 0);
+       ASSERT_NE(ptr, MAP_FAILED);
+       set_pattern(ptr, 10, page_size);
+ 
+       /* Install a guard region in the middle of the mapping. */
+       ASSERT_EQ(madvise(&ptr[3 * page_size], 4 * page_size,
+                         MADV_GUARD_INSTALL), 0);
+ 
+       /*
+        * The buffer will now be:
+        *
+        * 0123456789
+        * ***xxxx***
+        *
+        * Where * is data and x is the guard region.
+        */
+ 
+       /* Ensure established. */
+       for (i = 0; i < 10; i++) {
+               char *ptr_p = &ptr[i * page_size];
+ 
+               ASSERT_EQ(try_read_buf(ptr_p), i < 3 || i >= 7);
+       }
+ 
+       /* Now hole punch the guarded region. */
+       ASSERT_EQ(madvise(&ptr[3 * page_size], 4 * page_size,
+                         MADV_REMOVE), 0);
+ 
+       /* Ensure guard regions remain. */
+       for (i = 0; i < 10; i++) {
+               char *ptr_p = &ptr[i * page_size];
+ 
+               ASSERT_EQ(try_read_buf(ptr_p), i < 3 || i >= 7);
+       }
+ 
+       /* Now remove guard region throughout. */
+       ASSERT_EQ(madvise(ptr, 10 * page_size, MADV_GUARD_REMOVE), 0);
+ 
+       /* Check that the pattern exists in non-hole punched region. */
+       ASSERT_TRUE(check_pattern(ptr, 3, page_size));
+       /* Check that hole punched region is zeroed. */
+       ASSERT_TRUE(is_buf_eq(&ptr[3 * page_size], 4 * page_size, '\0'));
+       /* Check that the pattern exists in the remainder of the file. */
+       ASSERT_TRUE(check_pattern_offset(ptr, 3, page_size, 7));
+ 
+       ASSERT_EQ(munmap(ptr, 10 * page_size), 0);
+ }
+ 
+ /*
+  * Ensure that a memfd works correctly with guard regions, that we can write
+  * seal it then open the mapping read-only and still establish guard regions
+  * within, remove those guard regions and have everything work correctly.
+  */
+ TEST_F(guard_regions, memfd_write_seal)
+ {
+       const unsigned long page_size = self->page_size;
+       char *ptr;
+       int i;
+ 
+       if (variant->backing != SHMEM_BACKED)
+               SKIP(return, "memfd write seal test specific to shmem");
+ 
+       /* OK, we need a memfd, so close existing one. */
+       ASSERT_EQ(close(self->fd), 0);
+ 
+       /* Create and truncate memfd. */
+       self->fd = memfd_create("guard_regions_memfd_seals_test",
+                               MFD_ALLOW_SEALING);
+       ASSERT_NE(self->fd, -1);
+       ASSERT_EQ(ftruncate(self->fd, 10 * page_size), 0);
+ 
+       /* Map, set pattern, unmap. */
+       ptr = mmap_(self, variant, NULL, 10 * page_size, PROT_READ | PROT_WRITE, 0, 0);
+       ASSERT_NE(ptr, MAP_FAILED);
+       set_pattern(ptr, 10, page_size);
+       ASSERT_EQ(munmap(ptr, 10 * page_size), 0);
+ 
+       /* Write-seal the memfd. */
+       ASSERT_EQ(fcntl(self->fd, F_ADD_SEALS, F_SEAL_WRITE), 0);
+ 
+       /* Now map the memfd readonly. */
+       ptr = mmap_(self, variant, NULL, 10 * page_size, PROT_READ, 0, 0);
+       ASSERT_NE(ptr, MAP_FAILED);
+ 
+       /* Ensure pattern is as expected. */
+       ASSERT_TRUE(check_pattern(ptr, 10, page_size));
+ 
+       /* Now make every even page guarded. */
+       for (i = 0; i < 10; i += 2) {
+               char *ptr_p = &ptr[i * page_size];
+ 
+               ASSERT_EQ(madvise(ptr_p, page_size, MADV_GUARD_INSTALL), 0);
+       }
+ 
+       /* Now assert things are as expected. */
+       for (i = 0; i < 10; i++) {
+               char *ptr_p = &ptr[i * page_size];
+ 
+               ASSERT_EQ(try_read_buf(ptr_p), i % 2 != 0);
+       }
+ 
+       /* Now remove guard regions. */
+       ASSERT_EQ(madvise(ptr, 10 * page_size, MADV_GUARD_REMOVE), 0);
+ 
+       /* Ensure pattern is as expected. */
+       ASSERT_TRUE(check_pattern(ptr, 10, page_size));
+ 
+       /* Ensure write seal intact. */
+       for (i = 0; i < 10; i++) {
+               char *ptr_p = &ptr[i * page_size];
+ 
+               ASSERT_FALSE(try_write_buf(ptr_p));
+       }
+ 
+       ASSERT_EQ(munmap(ptr, 10 * page_size), 0);
+ }
+ 
+ 
+ /*
+  * Since we are now permitted to establish guard regions in read-only anonymous
+  * mappings, for the sake of thoroughness, though it probably has no practical
+  * use, test that guard regions function with a mapping to the anonymous zero
+  * page.
+  */
+ TEST_F(guard_regions, anon_zeropage)
+ {
+       const unsigned long page_size = self->page_size;
+       char *ptr;
+       int i;
+ 
+       if (!is_anon_backed(variant))
+               SKIP(return, "anon zero page test specific to anon/shmem");
+ 
+       /* Obtain a read-only i.e. anon zero page mapping. */
+       ptr = mmap_(self, variant, NULL, 10 * page_size, PROT_READ, 0, 0);
+       ASSERT_NE(ptr, MAP_FAILED);
+ 
+       /* Now make every even page guarded. */
+       for (i = 0; i < 10; i += 2) {
+               char *ptr_p = &ptr[i * page_size];
+ 
+               ASSERT_EQ(madvise(ptr_p, page_size, MADV_GUARD_INSTALL), 0);
+       }
+ 
+       /* Now assert things are as expected. */
+       for (i = 0; i < 10; i++) {
+               char *ptr_p = &ptr[i * page_size];
+ 
+               ASSERT_EQ(try_read_buf(ptr_p), i % 2 != 0);
+       }
+ 
+       /* Now remove all guard regions. */
+       ASSERT_EQ(madvise(ptr, 10 * page_size, MADV_GUARD_REMOVE), 0);
+ 
+       /* Now assert things are as expected. */
+       for (i = 0; i < 10; i++) {
+               char *ptr_p = &ptr[i * page_size];
+ 
+               ASSERT_TRUE(try_read_buf(ptr_p));
+       }
+ 
+       /* Ensure zero page...*/
+       ASSERT_TRUE(is_buf_eq(ptr, 10 * page_size, '\0'));
+ 
+       ASSERT_EQ(munmap(ptr, 10 * page_size), 0);
+ }
+ 
+ /*
+  * Assert that /proc/$pid/pagemap correctly identifies guard region ranges.
+  */
+ TEST_F(guard_regions, pagemap)
+ {
+       const unsigned long page_size = self->page_size;
+       int proc_fd;
+       char *ptr;
+       int i;
+ 
+       proc_fd = open("/proc/self/pagemap", O_RDONLY);
+       ASSERT_NE(proc_fd, -1);
+ 
+       ptr = mmap_(self, variant, NULL, 10 * page_size,
+                   PROT_READ | PROT_WRITE, 0, 0);
+       ASSERT_NE(ptr, MAP_FAILED);
+ 
+       /* Read from pagemap, and assert no guard regions are detected. */
+       for (i = 0; i < 10; i++) {
+               char *ptr_p = &ptr[i * page_size];
+               unsigned long entry = pagemap_get_entry(proc_fd, ptr_p);
+               unsigned long masked = entry & PM_GUARD_REGION;
+ 
+               ASSERT_EQ(masked, 0);
+       }
+ 
+       /* Install a guard region in every other page. */
+       for (i = 0; i < 10; i += 2) {
+               char *ptr_p = &ptr[i * page_size];
+ 
+               ASSERT_EQ(madvise(ptr_p, page_size, MADV_GUARD_INSTALL), 0);
+       }
+ 
+       /* Re-read from pagemap, and assert guard regions are detected. */
+       for (i = 0; i < 10; i++) {
+               char *ptr_p = &ptr[i * page_size];
+               unsigned long entry = pagemap_get_entry(proc_fd, ptr_p);
+               unsigned long masked = entry & PM_GUARD_REGION;
+ 
+               ASSERT_EQ(masked, i % 2 == 0 ? PM_GUARD_REGION : 0);
+       }
+ 
+       ASSERT_EQ(close(proc_fd), 0);
+       ASSERT_EQ(munmap(ptr, 10 * page_size), 0);
+ }
+ 
+ TEST_HARNESS_MAIN
author	Linus Torvalds <torvalds@linux-foundation.org>
	Tue, 1 Apr 2025 16:29:18 +0000 (09:29 -0700)
committer	Linus Torvalds <torvalds@linux-foundation.org>
	Tue, 1 Apr 2025 16:29:18 +0000 (09:29 -0700)
		1	2
CREDITS	patch \|	diff1 \|	diff2 \|	blob \| history
Documentation/admin-guide/cgroup-v1/memory.rst	patch \|	diff1 \|	diff2 \|	blob \| history
Documentation/admin-guide/cgroup-v2.rst	patch \|	diff1 \|	diff2 \|	blob \| history
Documentation/admin-guide/kernel-parameters.txt	patch \|	diff1 \|	diff2 \|	blob \| history
MAINTAINERS	patch \|	diff1 \|	diff2 \|	blob \| history
arch/arm64/Kconfig	patch \|	diff1 \|	diff2 \|	blob \| history
arch/arm64/include/asm/tlbflush.h	patch \|	diff1 \|	diff2 \|	blob \| history
arch/loongarch/configs/loongson3_defconfig	patch \|	diff1 \|	diff2 \|	blob \| history
arch/mips/include/asm/io.h	patch \|	diff1 \|	diff2 \|	blob \| history
arch/parisc/include/asm/io.h	patch \|	diff1 \|	diff2 \|	blob \| history
arch/powerpc/Kconfig	patch \|	diff1 \|	diff2 \|	blob \| history
arch/powerpc/configs/mpc885_ads_defconfig	patch \|	diff1 \|	diff2 \|	blob \| history
arch/powerpc/include/asm/io.h	patch \|	diff1 \|	diff2 \|	blob \| history
arch/powerpc/mm/ioremap.c	patch \|	diff1 \|	diff2 \|	blob \| history
arch/powerpc/mm/mem.c	patch \|	diff1 \|	diff2 \|	blob \| history
arch/riscv/Kconfig	patch \|	diff1 \|	diff2 \|	blob \| history
arch/riscv/include/asm/io.h	patch \|	diff1 \|	diff2 \|	blob \| history
arch/s390/Kconfig	patch \|	diff1 \|	diff2 \|	blob \| history
arch/s390/configs/debug_defconfig	patch \|	diff1 \|	diff2 \|	blob \| history
arch/s390/configs/defconfig	patch \|	diff1 \|	diff2 \|	blob \| history
arch/s390/include/asm/io.h	patch \|	diff1 \|	diff2 \|	blob \| history
arch/s390/mm/init.c	patch \|	diff1 \|	diff2 \|	blob \| history
arch/s390/pci/pci.c	patch \|	diff1 \|	diff2 \|	blob \| history
arch/sh/include/asm/io.h	patch \|	diff1 \|	diff2 \|	blob \| history
arch/um/kernel/um_arch.c	patch \|	diff1 \|	diff2 \|	blob \| history
arch/x86/Kconfig	patch \|	diff1 \|	diff2 \|	blob \| history
arch/x86/include/asm/io.h	patch \|	diff1 \|	diff2 \|	blob \| history
arch/x86/include/asm/percpu.h	patch \|	diff1 \|	diff2 \|	blob \| history
arch/x86/include/asm/tlbflush.h	patch \|	diff1 \|	diff2 \|	blob \| history
arch/x86/kernel/setup.c	patch \|	diff1 \|	diff2 \|	blob \| history
arch/x86/mm/init_32.c	patch \|	diff1 \|	diff2 \|	blob \| history
arch/x86/mm/init_64.c	patch \|	diff1 \|	diff2 \|	blob \| history
arch/x86/mm/ioremap.c	patch \|	diff1 \|	diff2 \|	blob \| history
arch/x86/xen/enlighten_pv.c	patch \|	diff1 \|	diff2 \|	blob \| history
drivers/gpu/drm/drm_gpusvm.c	patch \|	diff1 \|	\|	blob \| history
drivers/gpu/drm/nouveau/nouveau_svm.c	patch \|	diff1 \|	diff2 \|	blob \| history
drivers/gpu/drm/xe/xe_svm.c	patch \|	diff1 \|	\|	blob \| history
drivers/nvdimm/pmem.c	patch \|	diff1 \|	diff2 \|	blob \| history
fs/Kconfig	patch \|	diff1 \|	diff2 \|	blob \| history
fs/bcachefs/util.h	patch \|	diff1 \|	diff2 \|	blob \| history
fs/buffer.c	patch \|	diff1 \|	diff2 \|	blob \| history
fs/dax.c	patch \|	diff1 \|	diff2 \|	blob \| history
fs/ext4/inline.c	patch \|	diff1 \|	diff2 \|	blob \| history
fs/ext4/inode.c	patch \|	diff1 \|	diff2 \|	blob \| history
fs/fuse/dir.c	patch \|	diff1 \|	diff2 \|	blob \| history
fs/hugetlbfs/inode.c	patch \|	diff1 \|	diff2 \|	blob \| history
fs/iomap/buffered-io.c	patch \|	diff1 \|	diff2 \|	blob \| history
fs/xfs/xfs_inode.c	patch \|	diff1 \|	diff2 \|	blob \| history
fs/xfs/xfs_inode.h	patch \|	diff1 \|	diff2 \|	blob \| history
fs/xfs/xfs_super.c	patch \|	diff1 \|	diff2 \|	blob \| history
include/asm-generic/io.h	patch \|	diff1 \|	diff2 \|	blob \| history
include/linux/buffer_head.h	patch \|	diff1 \|	diff2 \|	blob \| history
include/linux/compiler.h	patch \|	diff1 \|	diff2 \|	blob \| history
include/linux/compiler_types.h	patch \|	diff1 \|	diff2 \|	blob \| history
include/linux/migrate.h	patch \|	diff1 \|	diff2 \|	blob \| history
include/linux/mm.h	patch \|	diff1 \|	diff2 \|	blob \| history
include/linux/mm_types.h	patch \|	diff1 \|	diff2 \|	blob \| history
include/linux/mmzone.h	patch \|	diff1 \|	diff2 \|	blob \| history
include/linux/page-flags.h	patch \|	diff1 \|	diff2 \|	blob \| history
include/linux/pagemap.h	patch \|	diff1 \|	diff2 \|	blob \| history
include/linux/percpu-defs.h	patch \|	diff1 \|	diff2 \|	blob \| history
include/linux/pgtable.h	patch \|	diff1 \|	diff2 \|	blob \| history
include/linux/slab.h	patch \|	diff1 \|	diff2 \|	blob \| history
include/linux/swap.h	patch \|	diff1 \|	diff2 \|	blob \| history
include/linux/vm_event_item.h	patch \|	diff1 \|	diff2 \|	blob \| history
include/linux/vmstat.h	patch \|	diff1 \|	diff2 \|	blob \| history
include/linux/writeback.h	patch \|	diff1 \|	diff2 \|	blob \| history
kernel/events/uprobes.c	patch \|	diff1 \|	diff2 \|	blob \| history
kernel/fork.c	patch \|	diff1 \|	diff2 \|	blob \| history
mm/Kconfig	patch \|	diff1 \|	diff2 \|	blob \| history
mm/filemap.c	patch \|	diff1 \|	diff2 \|	blob \| history
mm/gup.c	patch \|	diff1 \|	diff2 \|	blob \| history
mm/internal.h	patch \|	diff1 \|	diff2 \|	blob \| history
mm/memblock.c	patch \|	diff1 \|	diff2 \|	blob \| history
mm/memcontrol-v1.c	patch \|	diff1 \|	diff2 \|	blob \| history
mm/memcontrol.c	patch \|	diff1 \|	diff2 \|	blob \| history
mm/memory.c	patch \|	diff1 \|	diff2 \|	blob \| history
mm/mempolicy.c	patch \|	diff1 \|	diff2 \|	blob \| history
mm/migrate_device.c	patch \|	diff1 \|	diff2 \|	blob \| history
mm/mmap.c	patch \|	diff1 \|	diff2 \|	blob \| history
mm/nommu.c	patch \|	diff1 \|	diff2 \|	blob \| history
mm/page_alloc.c	patch \|	diff1 \|	diff2 \|	blob \| history
mm/page_owner.c	patch \|	diff1 \|	diff2 \|	blob \| history
mm/percpu.c	patch \|	diff1 \|	diff2 \|	blob \| history
mm/shmem.c	patch \|	diff1 \|	diff2 \|	blob \| history
mm/slub.c	patch \|	diff1 \|	diff2 \|	blob \| history
mm/swap.c	patch \|	diff1 \|	diff2 \|	blob \| history
mm/swap.h	patch \|	diff1 \|	diff2 \|	blob \| history
mm/vmscan.c	patch \|	diff1 \|	diff2 \|	blob \| history
mm/vmstat.c	patch \|	diff1 \|	diff2 \|	blob \| history
tools/testing/selftests/mm/guard-regions.c	patch \|	\|	diff2 \|	blob \| history