acpi/nfit, device-dax: Identify differentiated memory with a unique numa-node
authorDan Williams <dan.j.williams@intel.com>
Fri, 9 Nov 2018 20:43:07 +0000 (12:43 -0800)
committerDan Williams <dan.j.williams@intel.com>
Mon, 7 Jan 2019 05:41:57 +0000 (21:41 -0800)
Persistent memory, as described by the ACPI NFIT (NVDIMM Firmware
Interface Table), is the first known instance of a memory range
described by a unique "target" proximity domain. Where "initiator" and
"target" proximity domains is an approach that the ACPI HMAT
(Heterogeneous Memory Attributes Table) uses to described the unique
performance properties of a memory range relative to a given initiator
(e.g. CPU or DMA device).

Currently the numa-node for a /dev/pmemX block-device or /dev/daxX.Y
char-device follows the traditional notion of 'numa-node' where the
attribute conveys the closest online numa-node. That numa-node attribute
is useful for cpu-binding and memory-binding processes *near* the
device. However, when the memory range backing a 'pmem', or 'dax' device
is onlined (memory hot-add) the memory-only-numa-node representing that
address needs to be differentiated from the set of online nodes. In
other words, the numa-node association of the device depends on whether
you can bind processes *near* the cpu-numa-node in the offline
device-case, or bind process *on* the memory-range directly after the
backing address range is onlined.

Allow for the case that platform firmware describes persistent memory
with a unique proximity domain, i.e. when it is distinct from the
proximity of DRAM and CPUs that are on the same socket. Plumb the Linux
numa-node translation of that proximity through the libnvdimm region
device to namespaces that are in device-dax mode. With this in place the
proposed kmem driver [1] can optionally discover a unique numa-node
number for the address range as it transitions the memory from an
offline state managed by a device-driver to an online memory range
managed by the core-mm.

[1]: https://lore.kernel.org/lkml/20181022201317.8558C1D8@viggo.jf.intel.com

Reported-by: Fan Du <fan.du@intel.com>
Cc: Michael Ellerman <mpe@ellerman.id.au>
Cc: "Oliver O'Halloran" <oohall@gmail.com>
Cc: Dave Hansen <dave.hansen@linux.intel.com>
Cc: Jérôme Glisse <jglisse@redhat.com>
Reviewed-by: Yang Shi <yang.shi@linux.alibaba.com>
Signed-off-by: Dan Williams <dan.j.williams@intel.com>
13 files changed:
arch/powerpc/platforms/pseries/papr_scm.c
drivers/acpi/nfit/core.c
drivers/acpi/numa.c
drivers/dax/bus.c
drivers/dax/bus.h
drivers/dax/dax-private.h
drivers/dax/pmem/core.c
drivers/nvdimm/e820.c
drivers/nvdimm/nd.h
drivers/nvdimm/of_pmem.c
drivers/nvdimm/region_devs.c
include/linux/acpi.h
include/linux/libnvdimm.h

index 7d6457ab5d3450f0db4d6cc25e2067c80db59f13..8806ac8226275ffa8f9fe1707bdbf89d2345e6bc 100644 (file)
@@ -236,6 +236,7 @@ static int papr_scm_nvdimm_init(struct papr_scm_priv *p)
        memset(&ndr_desc, 0, sizeof(ndr_desc));
        ndr_desc.attr_groups = region_attr_groups;
        ndr_desc.numa_node = dev_to_node(&p->pdev->dev);
+       ndr_desc.target_node = ndr_desc.numa_node;
        ndr_desc.res = &p->res;
        ndr_desc.of_node = p->dn;
        ndr_desc.provider_data = p;
index 011d3db19c80aaa300ae417d26b118ba90c9055f..475899974c7002816de86a9ef62d867043fdbd6c 100644 (file)
@@ -2869,11 +2869,15 @@ static int acpi_nfit_register_region(struct acpi_nfit_desc *acpi_desc,
        ndr_desc->res = &res;
        ndr_desc->provider_data = nfit_spa;
        ndr_desc->attr_groups = acpi_nfit_region_attribute_groups;
-       if (spa->flags & ACPI_NFIT_PROXIMITY_VALID)
+       if (spa->flags & ACPI_NFIT_PROXIMITY_VALID) {
                ndr_desc->numa_node = acpi_map_pxm_to_online_node(
                                                spa->proximity_domain);
-       else
+               ndr_desc->target_node = acpi_map_pxm_to_node(
+                               spa->proximity_domain);
+       } else {
                ndr_desc->numa_node = NUMA_NO_NODE;
+               ndr_desc->target_node = NUMA_NO_NODE;
+       }
 
        /*
         * Persistence domain bits are hierarchical, if
index 274699463b4f1eaf10bb01883434d870110a53e0..b9d86babb13ae4180f81cc97787b9cb9f54a124a 100644 (file)
@@ -84,6 +84,7 @@ int acpi_map_pxm_to_node(int pxm)
 
        return node;
 }
+EXPORT_SYMBOL(acpi_map_pxm_to_node);
 
 /**
  * acpi_map_pxm_to_online_node - Map proximity ID to online node
index 5681685002175d9d91e2dd3288d0e8240a71f41d..c620ad52d7e5c2f521384975a7505af22c465187 100644 (file)
@@ -214,7 +214,7 @@ static void dax_region_unregister(void *region)
 }
 
 struct dax_region *alloc_dax_region(struct device *parent, int region_id,
-               struct resource *res, unsigned int align,
+               struct resource *res, int target_node, unsigned int align,
                unsigned long pfn_flags)
 {
        struct dax_region *dax_region;
@@ -244,6 +244,7 @@ struct dax_region *alloc_dax_region(struct device *parent, int region_id,
        dax_region->id = region_id;
        dax_region->align = align;
        dax_region->dev = parent;
+       dax_region->target_node = target_node;
        if (sysfs_create_groups(&parent->kobj, dax_region_attribute_groups)) {
                kfree(dax_region);
                return NULL;
@@ -348,6 +349,7 @@ struct dev_dax *__devm_create_dev_dax(struct dax_region *dax_region, int id,
 
        dev_dax->dax_dev = dax_dev;
        dev_dax->region = dax_region;
+       dev_dax->target_node = dax_region->target_node;
        kref_get(&dax_region->kref);
 
        inode = dax_inode(dax_dev);
index ce977552ffb5c312ab525273b213222e8511205f..8619e32999436da995a8d17926f9cd0977ee3140 100644 (file)
@@ -10,7 +10,8 @@ struct dax_device;
 struct dax_region;
 void dax_region_put(struct dax_region *dax_region);
 struct dax_region *alloc_dax_region(struct device *parent, int region_id,
-               struct resource *res, unsigned int align, unsigned long flags);
+               struct resource *res, int target_node, unsigned int align,
+               unsigned long flags);
 
 enum dev_dax_subsys {
        DEV_DAX_BUS,
index a82ce48f588448fde6c4e1eb0557d6b899fd8f5a..a45612148ca021e96ff3c8cf60eab9b4071fb858 100644 (file)
@@ -26,6 +26,7 @@ void dax_bus_exit(void);
 /**
  * struct dax_region - mapping infrastructure for dax devices
  * @id: kernel-wide unique region for a memory range
+ * @target_node: effective numa node if this memory range is onlined
  * @kref: to pin while other agents have a need to do lookups
  * @dev: parent device backing this region
  * @align: allocation and mapping alignment for child dax devices
@@ -34,6 +35,7 @@ void dax_bus_exit(void);
  */
 struct dax_region {
        int id;
+       int target_node;
        struct kref kref;
        struct device *dev;
        unsigned int align;
@@ -46,6 +48,7 @@ struct dax_region {
  * data while the device is activated in the driver.
  * @region - parent region
  * @dax_dev - core dax functionality
+ * @target_node: effective numa node if dev_dax memory range is onlined
  * @dev - device core
  * @pgmap - pgmap for memmap setup / lifetime (driver owned)
  * @ref: pgmap reference count (driver owned)
@@ -54,6 +57,7 @@ struct dax_region {
 struct dev_dax {
        struct dax_region *region;
        struct dax_device *dax_dev;
+       int target_node;
        struct device dev;
        struct dev_pagemap pgmap;
        struct percpu_ref ref;
index bdcff1b14e95ce808d8be65ad25f7bdf5fee147b..f71019ce06470019caff8207d7c1fb566206f9eb 100644 (file)
@@ -20,6 +20,7 @@ struct dev_dax *__dax_pmem_probe(struct device *dev, enum dev_dax_subsys subsys)
        struct nd_namespace_common *ndns;
        struct nd_dax *nd_dax = to_nd_dax(dev);
        struct nd_pfn *nd_pfn = &nd_dax->nd_pfn;
+       struct nd_region *nd_region = to_nd_region(dev->parent);
 
        ndns = nvdimm_namespace_common_probe(dev);
        if (IS_ERR(ndns))
@@ -52,7 +53,8 @@ struct dev_dax *__dax_pmem_probe(struct device *dev, enum dev_dax_subsys subsys)
        memcpy(&res, &pgmap.res, sizeof(res));
        res.start += offset;
        dax_region = alloc_dax_region(dev, region_id, &res,
-                       le32_to_cpu(pfn_sb->align), PFN_DEV|PFN_MAP);
+                       nd_region->target_node, le32_to_cpu(pfn_sb->align),
+                       PFN_DEV|PFN_MAP);
        if (!dax_region)
                return ERR_PTR(-ENOMEM);
 
index 521eaf53a52aada9c99e804971f7041fcc327563..36be9b61918760e2edfa8e87be82e017a773c5df 100644 (file)
@@ -47,6 +47,7 @@ static int e820_register_one(struct resource *res, void *data)
        ndr_desc.res = res;
        ndr_desc.attr_groups = e820_pmem_region_attribute_groups;
        ndr_desc.numa_node = e820_range_to_nid(res->start);
+       ndr_desc.target_node = ndr_desc.numa_node;
        set_bit(ND_REGION_PAGEMAP, &ndr_desc.flags);
        if (!nvdimm_pmem_region_create(nvdimm_bus, &ndr_desc))
                return -ENXIO;
index cfde992684e7db07de208b94b0f4b382e59701d3..0b3d7595b3cb8221c014614acb5231b09de686e2 100644 (file)
@@ -153,7 +153,7 @@ struct nd_region {
        u16 ndr_mappings;
        u64 ndr_size;
        u64 ndr_start;
-       int id, num_lanes, ro, numa_node;
+       int id, num_lanes, ro, numa_node, target_node;
        void *provider_data;
        struct kernfs_node *bb_state;
        struct badblocks bb;
index 0a701837dfc0b9bd6c011f5ee092feb101a15acb..ecaaa27438e2526ac19653599d7366e05d06125c 100644 (file)
@@ -68,6 +68,7 @@ static int of_pmem_region_probe(struct platform_device *pdev)
                memset(&ndr_desc, 0, sizeof(ndr_desc));
                ndr_desc.attr_groups = region_attr_groups;
                ndr_desc.numa_node = dev_to_node(&pdev->dev);
+               ndr_desc.target_node = ndr_desc.numa_node;
                ndr_desc.res = &pdev->resource[i];
                ndr_desc.of_node = np;
                set_bit(ND_REGION_PAGEMAP, &ndr_desc.flags);
index e2818f94f2928ffdd3fd71797c49bfbf07f96ace..caf2f3129ccdb65f7ed9ca9399427f34234b2c90 100644 (file)
@@ -1065,6 +1065,7 @@ static struct nd_region *nd_region_create(struct nvdimm_bus *nvdimm_bus,
        nd_region->flags = ndr_desc->flags;
        nd_region->ro = ro;
        nd_region->numa_node = ndr_desc->numa_node;
+       nd_region->target_node = ndr_desc->target_node;
        ida_init(&nd_region->ns_ida);
        ida_init(&nd_region->btt_ida);
        ida_init(&nd_region->pfn_ida);
index 87715f20b69a075893b47491b29c4270f67757ee..eddf2736e5a61cedc9b533f47c7f3a87ed47cb8b 100644 (file)
@@ -400,12 +400,17 @@ extern bool acpi_osi_is_win8(void);
 
 #ifdef CONFIG_ACPI_NUMA
 int acpi_map_pxm_to_online_node(int pxm);
+int acpi_map_pxm_to_node(int pxm);
 int acpi_get_node(acpi_handle handle);
 #else
 static inline int acpi_map_pxm_to_online_node(int pxm)
 {
        return 0;
 }
+static inline int acpi_map_pxm_to_node(int pxm)
+{
+       return 0;
+}
 static inline int acpi_get_node(acpi_handle handle)
 {
        return 0;
index 5440f11b0907d33474e4612fcc0dea5374935f15..56bc545ad3b25d512c78acd4a4869866c0385822 100644 (file)
@@ -128,6 +128,7 @@ struct nd_region_desc {
        void *provider_data;
        int num_lanes;
        int numa_node;
+       int target_node;
        unsigned long flags;
        struct device_node *of_node;
 };