Merge tag 'kvmarm-for-v5.2' of git://git.kernel.org/pub/scm/linux/kernel/git/kvmarm...

[linux-2.6-block.git] / virt / kvm / kvm_main.c
diff --git a/virt/kvm/kvm_main.c b/virt/kvm/kvm_main.c

index d237d3350a99c8055999544500f5a0e8fcd3ed93..d22b1f4bfa56ae0a181363573e0eb99be2f78919 100644 (file)
--- a/virt/kvm/kvm_main.c
+++ b/virt/kvm/kvm_main.c
@@ -81,6 +81,11 @@ unsigned int halt_poll_ns_grow = 2;
  module_param(halt_poll_ns_grow, uint, 0644);
  EXPORT_SYMBOL_GPL(halt_poll_ns_grow);
  
+/* The start value to grow halt_poll_ns from */
+unsigned int halt_poll_ns_grow_start = 10000; /* 10us */
+module_param(halt_poll_ns_grow_start, uint, 0644);
+EXPORT_SYMBOL_GPL(halt_poll_ns_grow_start);
+
  /* Default resets per-vcpu halt_poll_ns . */
  unsigned int halt_poll_ns_shrink;
  module_param(halt_poll_ns_shrink, uint, 0644);
@@ -525,7 +530,7 @@ static struct kvm_memslots *kvm_alloc_memslots(void)
         int i;
         struct kvm_memslots *slots;
  
-       slots = kvzalloc(sizeof(struct kvm_memslots), GFP_KERNEL);
+       slots = kvzalloc(sizeof(struct kvm_memslots), GFP_KERNEL_ACCOUNT);
         if (!slots)
                 return NULL;
  
@@ -601,12 +606,12 @@ static int kvm_create_vm_debugfs(struct kvm *kvm, int fd)
  
         kvm->debugfs_stat_data = kcalloc(kvm_debugfs_num_entries,
                                          sizeof(*kvm->debugfs_stat_data),
-                                        GFP_KERNEL);
+                                        GFP_KERNEL_ACCOUNT);
         if (!kvm->debugfs_stat_data)
                 return -ENOMEM;
  
         for (p = debugfs_entries; p->name; p++) {
-               stat_data = kzalloc(sizeof(*stat_data), GFP_KERNEL);
+               stat_data = kzalloc(sizeof(*stat_data), GFP_KERNEL_ACCOUNT);
                 if (!stat_data)
                         return -ENOMEM;
  
@@ -656,12 +661,8 @@ static struct kvm *kvm_create_vm(unsigned long type)
                 struct kvm_memslots *slots = kvm_alloc_memslots();
                 if (!slots)
                         goto out_err_no_srcu;
-               /*
-                * Generations must be different for each address space.
-                * Init kvm generation close to the maximum to easily test the
-                * code of handling generation number wrap-around.
-                */
-               slots->generation = i * 2 - 150;
+               /* Generations must be different for each address space. */
+               slots->generation = i;
                 rcu_assign_pointer(kvm->memslots[i], slots);
         }
  
@@ -671,7 +672,7 @@ static struct kvm *kvm_create_vm(unsigned long type)
                 goto out_err_no_irq_srcu;
         for (i = 0; i < KVM_NR_BUSES; i++) {
                 rcu_assign_pointer(kvm->buses[i],
-                       kzalloc(sizeof(struct kvm_io_bus), GFP_KERNEL));
+                       kzalloc(sizeof(struct kvm_io_bus), GFP_KERNEL_ACCOUNT));
                 if (!kvm->buses[i])
                         goto out_err;
         }
@@ -789,7 +790,7 @@ static int kvm_create_dirty_bitmap(struct kvm_memory_slot *memslot)
  {
         unsigned long dirty_bytes = 2 * kvm_dirty_bitmap_bytes(memslot);
  
-       memslot->dirty_bitmap = kvzalloc(dirty_bytes, GFP_KERNEL);
+       memslot->dirty_bitmap = kvzalloc(dirty_bytes, GFP_KERNEL_ACCOUNT);
         if (!memslot->dirty_bitmap)
                 return -ENOMEM;
  
@@ -874,31 +875,34 @@ static struct kvm_memslots *install_new_memslots(struct kvm *kvm,
                 int as_id, struct kvm_memslots *slots)
  {
         struct kvm_memslots *old_memslots = __kvm_memslots(kvm, as_id);
+       u64 gen = old_memslots->generation;
  
-       /*
-        * Set the low bit in the generation, which disables SPTE caching
-        * until the end of synchronize_srcu_expedited.
-        */
-       WARN_ON(old_memslots->generation & 1);
-       slots->generation = old_memslots->generation + 1;
+       WARN_ON(gen & KVM_MEMSLOT_GEN_UPDATE_IN_PROGRESS);
+       slots->generation = gen | KVM_MEMSLOT_GEN_UPDATE_IN_PROGRESS;
  
         rcu_assign_pointer(kvm->memslots[as_id], slots);
         synchronize_srcu_expedited(&kvm->srcu);
  
         /*
-        * Increment the new memslot generation a second time. This prevents
-        * vm exits that race with memslot updates from caching a memslot
-        * generation that will (potentially) be valid forever.
-        *
+        * Increment the new memslot generation a second time, dropping the
+        * update in-progress flag and incrementing then generation based on
+        * the number of address spaces.  This provides a unique and easily
+        * identifiable generation number while the memslots are in flux.
+        */
+       gen = slots->generation & ~KVM_MEMSLOT_GEN_UPDATE_IN_PROGRESS;
+
+       /*
          * Generations must be unique even across address spaces.  We do not need
          * a global counter for that, instead the generation space is evenly split
          * across address spaces.  For example, with two address spaces, address
-        * space 0 will use generations 0, 4, 8, ... while * address space 1 will
-        * use generations 2, 6, 10, 14, ...
+        * space 0 will use generations 0, 2, 4, ... while address space 1 will
+        * use generations 1, 3, 5, ...
          */
-       slots->generation += KVM_ADDRESS_SPACE_NUM * 2 - 1;
+       gen += KVM_ADDRESS_SPACE_NUM;
  
-       kvm_arch_memslots_updated(kvm, slots);
+       kvm_arch_memslots_updated(kvm, gen);
+
+       slots->generation = gen;
  
         return old_memslots;
  }
@@ -1018,7 +1022,7 @@ int __kvm_set_memory_region(struct kvm *kvm,
                         goto out_free;
         }
  
-       slots = kvzalloc(sizeof(struct kvm_memslots), GFP_KERNEL);
+       slots = kvzalloc(sizeof(struct kvm_memslots), GFP_KERNEL_ACCOUNT);
         if (!slots)
                 goto out_free;
         memcpy(slots, __kvm_memslots(kvm, as_id), sizeof(struct kvm_memslots));
@@ -1130,11 +1134,11 @@ EXPORT_SYMBOL_GPL(kvm_get_dirty_log);
  
  #ifdef CONFIG_KVM_GENERIC_DIRTYLOG_READ_PROTECT
  /**
- * kvm_get_dirty_log_protect - get a snapshot of dirty pages, and if any pages
+ * kvm_get_dirty_log_protect - get a snapshot of dirty pages
   *     and reenable dirty page tracking for the corresponding pages.
   * @kvm:       pointer to kvm instance
   * @log:       slot id and address to which we copy the log
- * @is_dirty:  flag set if any page is dirty
+ * @flush:     true if TLB flush is needed by caller
   *
   * We need to keep it in mind that VCPU threads can write to the bitmap
   * concurrently. So, to avoid losing track of dirty pages we keep the
@@ -1201,11 +1205,9 @@ int kvm_get_dirty_log_protect(struct kvm *kvm,
                         mask = xchg(&dirty_bitmap[i], 0);
                         dirty_bitmap_buffer[i] = mask;
  
-                       if (mask) {
-                               offset = i * BITS_PER_LONG;
-                               kvm_arch_mmu_enable_log_dirty_pt_masked(kvm, memslot,
-                                                                       offset, mask);
-                       }
+                       offset = i * BITS_PER_LONG;
+                       kvm_arch_mmu_enable_log_dirty_pt_masked(kvm, memslot,
+                                                               offset, mask);
                 }
                 spin_unlock(&kvm->mmu_lock);
         }
@@ -1221,6 +1223,7 @@ EXPORT_SYMBOL_GPL(kvm_get_dirty_log_protect);
   *     and reenable dirty page tracking for the corresponding pages.
   * @kvm:       pointer to kvm instance
   * @log:       slot id and address from which to fetch the bitmap of dirty pages
+ * @flush:     true if TLB flush is needed by caller
   */
  int kvm_clear_dirty_log_protect(struct kvm *kvm,
                                 struct kvm_clear_dirty_log *log, bool *flush)
@@ -1238,7 +1241,7 @@ int kvm_clear_dirty_log_protect(struct kvm *kvm,
         if (as_id >= KVM_ADDRESS_SPACE_NUM || id >= KVM_USER_MEM_SLOTS)
                 return -EINVAL;
  
-       if ((log->first_page & 63) || (log->num_pages & 63))
+       if (log->first_page & 63)
                 return -EINVAL;
  
         slots = __kvm_memslots(kvm, as_id);
@@ -1248,11 +1251,12 @@ int kvm_clear_dirty_log_protect(struct kvm *kvm,
         if (!dirty_bitmap)
                 return -ENOENT;
  
-       n = kvm_dirty_bitmap_bytes(memslot);
+       n = ALIGN(log->num_pages, BITS_PER_LONG) / 8;
  
         if (log->first_page > memslot->npages ||
-           log->num_pages > memslot->npages - log->first_page)
-                       return -EINVAL;
+           log->num_pages > memslot->npages - log->first_page ||
+           (log->num_pages < memslot->npages - log->first_page && (log->num_pages & 63)))
+           return -EINVAL;
  
         *flush = false;
         dirty_bitmap_buffer = kvm_second_dirty_bitmap(memslot);
@@ -1260,8 +1264,8 @@ int kvm_clear_dirty_log_protect(struct kvm *kvm,
                 return -EFAULT;
  
         spin_lock(&kvm->mmu_lock);
-       for (offset = log->first_page,
-            i = offset / BITS_PER_LONG, n = log->num_pages / BITS_PER_LONG; n--;
+       for (offset = log->first_page, i = offset / BITS_PER_LONG,
+                n = DIV_ROUND_UP(log->num_pages, BITS_PER_LONG); n--;
              i++, offset += BITS_PER_LONG) {
                 unsigned long mask = *dirty_bitmap_buffer++;
                 atomic_long_t *p = (atomic_long_t *) &dirty_bitmap[i];
@@ -1738,6 +1742,70 @@ struct page *gfn_to_page(struct kvm *kvm, gfn_t gfn)
  }
  EXPORT_SYMBOL_GPL(gfn_to_page);
  
+static int __kvm_map_gfn(struct kvm_memory_slot *slot, gfn_t gfn,
+                        struct kvm_host_map *map)
+{
+       kvm_pfn_t pfn;
+       void *hva = NULL;
+       struct page *page = KVM_UNMAPPED_PAGE;
+
+       if (!map)
+               return -EINVAL;
+
+       pfn = gfn_to_pfn_memslot(slot, gfn);
+       if (is_error_noslot_pfn(pfn))
+               return -EINVAL;
+
+       if (pfn_valid(pfn)) {
+               page = pfn_to_page(pfn);
+               hva = kmap(page);
+       } else {
+               hva = memremap(pfn_to_hpa(pfn), PAGE_SIZE, MEMREMAP_WB);
+       }
+
+       if (!hva)
+               return -EFAULT;
+
+       map->page = page;
+       map->hva = hva;
+       map->pfn = pfn;
+       map->gfn = gfn;
+
+       return 0;
+}
+
+int kvm_vcpu_map(struct kvm_vcpu *vcpu, gfn_t gfn, struct kvm_host_map *map)
+{
+       return __kvm_map_gfn(kvm_vcpu_gfn_to_memslot(vcpu, gfn), gfn, map);
+}
+EXPORT_SYMBOL_GPL(kvm_vcpu_map);
+
+void kvm_vcpu_unmap(struct kvm_vcpu *vcpu, struct kvm_host_map *map,
+                   bool dirty)
+{
+       if (!map)
+               return;
+
+       if (!map->hva)
+               return;
+
+       if (map->page)
+               kunmap(map->page);
+       else
+               memunmap(map->hva);
+
+       if (dirty) {
+               kvm_vcpu_mark_page_dirty(vcpu, map->gfn);
+               kvm_release_pfn_dirty(map->pfn);
+       } else {
+               kvm_release_pfn_clean(map->pfn);
+       }
+
+       map->hva = NULL;
+       map->page = NULL;
+}
+EXPORT_SYMBOL_GPL(kvm_vcpu_unmap);
+
  struct page *kvm_vcpu_gfn_to_page(struct kvm_vcpu *vcpu, gfn_t gfn)
  {
         kvm_pfn_t pfn;
@@ -2185,20 +2253,23 @@ void kvm_sigset_deactivate(struct kvm_vcpu *vcpu)
  
  static void grow_halt_poll_ns(struct kvm_vcpu *vcpu)
  {
-       unsigned int old, val, grow;
+       unsigned int old, val, grow, grow_start;
  
         old = val = vcpu->halt_poll_ns;
+       grow_start = READ_ONCE(halt_poll_ns_grow_start);
         grow = READ_ONCE(halt_poll_ns_grow);
-       /* 10us base */
-       if (val == 0 && grow)
-               val = 10000;
-       else
-               val *= grow;
+       if (!grow)
+               goto out;
+
+       val *= grow;
+       if (val < grow_start)
+               val = grow_start;
  
         if (val > halt_poll_ns)
                 val = halt_poll_ns;
  
         vcpu->halt_poll_ns = val;
+out:
         trace_kvm_halt_poll_ns_grow(vcpu->vcpu_id, val, old);
  }
  
@@ -2248,7 +2319,7 @@ void kvm_vcpu_block(struct kvm_vcpu *vcpu)
         u64 block_ns;
  
         start = cur = ktime_get();
-       if (vcpu->halt_poll_ns) {
+       if (vcpu->halt_poll_ns && !kvm_arch_no_poll(vcpu)) {
                 ktime_t stop = ktime_add_ns(ktime_get(), vcpu->halt_poll_ns);
  
                 ++vcpu->stat.halt_attempted_poll;
@@ -2683,7 +2754,7 @@ static long kvm_vcpu_ioctl(struct file *filp,
                 struct kvm_regs *kvm_regs;
  
                 r = -ENOMEM;
-               kvm_regs = kzalloc(sizeof(struct kvm_regs), GFP_KERNEL);
+               kvm_regs = kzalloc(sizeof(struct kvm_regs), GFP_KERNEL_ACCOUNT);
                 if (!kvm_regs)
                         goto out;
                 r = kvm_arch_vcpu_ioctl_get_regs(vcpu, kvm_regs);
@@ -2711,7 +2782,8 @@ out_free1:
                 break;
         }
         case KVM_GET_SREGS: {
-               kvm_sregs = kzalloc(sizeof(struct kvm_sregs), GFP_KERNEL);
+               kvm_sregs = kzalloc(sizeof(struct kvm_sregs),
+                                   GFP_KERNEL_ACCOUNT);
                 r = -ENOMEM;
                 if (!kvm_sregs)
                         goto out;
@@ -2803,7 +2875,7 @@ out_free1:
                 break;
         }
         case KVM_GET_FPU: {
-               fpu = kzalloc(sizeof(struct kvm_fpu), GFP_KERNEL);
+               fpu = kzalloc(sizeof(struct kvm_fpu), GFP_KERNEL_ACCOUNT);
                 r = -ENOMEM;
                 if (!fpu)
                         goto out;
@@ -2878,6 +2950,16 @@ out:
  }
  #endif
  
+static int kvm_device_mmap(struct file *filp, struct vm_area_struct *vma)
+{
+       struct kvm_device *dev = filp->private_data;
+
+       if (dev->ops->mmap)
+               return dev->ops->mmap(dev, vma);
+
+       return -ENODEV;
+}
+
  static int kvm_device_ioctl_attr(struct kvm_device *dev,
                                  int (*accessor)(struct kvm_device *dev,
                                                  struct kvm_device_attr *attr),
@@ -2899,6 +2981,9 @@ static long kvm_device_ioctl(struct file *filp, unsigned int ioctl,
  {
         struct kvm_device *dev = filp->private_data;
  
+       if (dev->kvm->mm != current->mm)
+               return -EIO;
+
         switch (ioctl) {
         case KVM_SET_DEVICE_ATTR:
                 return kvm_device_ioctl_attr(dev, dev->ops->set_attr, arg);
@@ -2919,6 +3004,13 @@ static int kvm_device_release(struct inode *inode, struct file *filp)
         struct kvm_device *dev = filp->private_data;
         struct kvm *kvm = dev->kvm;
  
+       if (dev->ops->release) {
+               mutex_lock(&kvm->lock);
+               list_del(&dev->vm_node);
+               dev->ops->release(dev);
+               mutex_unlock(&kvm->lock);
+       }
+
         kvm_put_kvm(kvm);
         return 0;
  }
@@ -2927,6 +3019,7 @@ static const struct file_operations kvm_device_fops = {
         .unlocked_ioctl = kvm_device_ioctl,
         .release = kvm_device_release,
         KVM_COMPAT(kvm_device_ioctl),
+       .mmap = kvm_device_mmap,
  };
  
  struct kvm_device *kvm_device_from_filp(struct file *filp)
@@ -2968,19 +3061,21 @@ static int kvm_ioctl_create_device(struct kvm *kvm,
         struct kvm_device_ops *ops = NULL;
         struct kvm_device *dev;
         bool test = cd->flags & KVM_CREATE_DEVICE_TEST;
+       int type;
         int ret;
  
         if (cd->type >= ARRAY_SIZE(kvm_device_ops_table))
                 return -ENODEV;
  
-       ops = kvm_device_ops_table[cd->type];
+       type = array_index_nospec(cd->type, ARRAY_SIZE(kvm_device_ops_table));
+       ops = kvm_device_ops_table[type];
         if (ops == NULL)
                 return -ENODEV;
  
         if (test)
                 return 0;
  
-       dev = kzalloc(sizeof(*dev), GFP_KERNEL);
+       dev = kzalloc(sizeof(*dev), GFP_KERNEL_ACCOUNT);
         if (!dev)
                 return -ENOMEM;
  
@@ -2988,7 +3083,7 @@ static int kvm_ioctl_create_device(struct kvm *kvm,
         dev->kvm = kvm;
  
         mutex_lock(&kvm->lock);
-       ret = ops->create(dev, cd->type);
+       ret = ops->create(dev, type);
         if (ret < 0) {
                 mutex_unlock(&kvm->lock);
                 kfree(dev);
@@ -3033,7 +3128,7 @@ static long kvm_vm_ioctl_check_extension_generic(struct kvm *kvm, long arg)
         case KVM_CAP_CHECK_EXTENSION_VM:
         case KVM_CAP_ENABLE_CAP_VM:
  #ifdef CONFIG_KVM_GENERIC_DIRTYLOG_READ_PROTECT
-       case KVM_CAP_MANUAL_DIRTY_LOG_PROTECT:
+       case KVM_CAP_MANUAL_DIRTY_LOG_PROTECT2:
  #endif
                 return 1;
  #ifdef CONFIG_KVM_MMIO
@@ -3052,6 +3147,8 @@ static long kvm_vm_ioctl_check_extension_generic(struct kvm *kvm, long arg)
  #endif
         case KVM_CAP_MAX_VCPU_ID:
                 return KVM_MAX_VCPU_ID;
+       case KVM_CAP_NR_MEMSLOTS:
+               return KVM_USER_MEM_SLOTS;
         default:
                 break;
         }
@@ -3069,7 +3166,7 @@ static int kvm_vm_ioctl_enable_cap_generic(struct kvm *kvm,
  {
         switch (cap->cap) {
  #ifdef CONFIG_KVM_GENERIC_DIRTYLOG_READ_PROTECT
-       case KVM_CAP_MANUAL_DIRTY_LOG_PROTECT:
+       case KVM_CAP_MANUAL_DIRTY_LOG_PROTECT2:
                 if (cap->flags || (cap->args[0] & ~1))
                         return -EINVAL;
                 kvm->manual_dirty_log_protect = cap->args[0];
@@ -3625,6 +3722,7 @@ int kvm_io_bus_write(struct kvm_vcpu *vcpu, enum kvm_bus bus_idx, gpa_t addr,
         r = __kvm_io_bus_write(vcpu, bus, &range, val);
         return r < 0 ? r : 0;
  }
+EXPORT_SYMBOL_GPL(kvm_io_bus_write);
  
  /* kvm_io_bus_write_cookie - called under kvm->slots_lock */
  int kvm_io_bus_write_cookie(struct kvm_vcpu *vcpu, enum kvm_bus bus_idx,
@@ -3675,7 +3773,6 @@ static int __kvm_io_bus_read(struct kvm_vcpu *vcpu, struct kvm_io_bus *bus,
  
         return -EOPNOTSUPP;
  }
-EXPORT_SYMBOL_GPL(kvm_io_bus_write);
  
  /* kvm_io_bus_read - called under kvm->slots_lock */
  int kvm_io_bus_read(struct kvm_vcpu *vcpu, enum kvm_bus bus_idx, gpa_t addr,
@@ -3697,7 +3794,6 @@ int kvm_io_bus_read(struct kvm_vcpu *vcpu, enum kvm_bus bus_idx, gpa_t addr,
         return r < 0 ? r : 0;
  }
  
-
  /* Caller must hold slots_lock. */
  int kvm_io_bus_register_dev(struct kvm *kvm, enum kvm_bus bus_idx, gpa_t addr,
                             int len, struct kvm_io_device *dev)
@@ -3714,8 +3810,8 @@ int kvm_io_bus_register_dev(struct kvm *kvm, enum kvm_bus bus_idx, gpa_t addr,
         if (bus->dev_count - bus->ioeventfd_count > NR_IOBUS_DEVS - 1)
                 return -ENOSPC;
  
-       new_bus = kmalloc(sizeof(*bus) + ((bus->dev_count + 1) *
-                         sizeof(struct kvm_io_range)), GFP_KERNEL);
+       new_bus = kmalloc(struct_size(bus, range, bus->dev_count + 1),
+                         GFP_KERNEL_ACCOUNT);
         if (!new_bus)
                 return -ENOMEM;
  
@@ -3760,8 +3856,8 @@ void kvm_io_bus_unregister_dev(struct kvm *kvm, enum kvm_bus bus_idx,
         if (i == bus->dev_count)
                 return;
  
-       new_bus = kmalloc(sizeof(*bus) + ((bus->dev_count - 1) *
-                         sizeof(struct kvm_io_range)), GFP_KERNEL);
+       new_bus = kmalloc(struct_size(bus, range, bus->dev_count - 1),
+                         GFP_KERNEL_ACCOUNT);
         if (!new_bus)  {
                 pr_err("kvm: failed to shrink bus, removing it completely\n");
                 goto broken;
@@ -4029,7 +4125,7 @@ static void kvm_uevent_notify_change(unsigned int type, struct kvm *kvm)
         active = kvm_active_vms;
         spin_unlock(&kvm_lock);
  
-       env = kzalloc(sizeof(*env), GFP_KERNEL);
+       env = kzalloc(sizeof(*env), GFP_KERNEL_ACCOUNT);
         if (!env)
                 return;
  
@@ -4045,7 +4141,7 @@ static void kvm_uevent_notify_change(unsigned int type, struct kvm *kvm)
         add_uevent_var(env, "PID=%d", kvm->userspace_pid);
  
         if (!IS_ERR_OR_NULL(kvm->debugfs_dentry)) {
-               char *tmp, *p = kmalloc(PATH_MAX, GFP_KERNEL);
+               char *tmp, *p = kmalloc(PATH_MAX, GFP_KERNEL_ACCOUNT);
  
                 if (p) {
                         tmp = dentry_path_raw(kvm->debugfs_dentry, p, PATH_MAX);