io_uring: don't expose io_fill_cqe_aux()
[linux-block.git] / io_uring / io_uring.c
1 // SPDX-License-Identifier: GPL-2.0
2 /*
3  * Shared application/kernel submission and completion ring pairs, for
4  * supporting fast/efficient IO.
5  *
6  * A note on the read/write ordering memory barriers that are matched between
7  * the application and kernel side.
8  *
9  * After the application reads the CQ ring tail, it must use an
10  * appropriate smp_rmb() to pair with the smp_wmb() the kernel uses
11  * before writing the tail (using smp_load_acquire to read the tail will
12  * do). It also needs a smp_mb() before updating CQ head (ordering the
13  * entry load(s) with the head store), pairing with an implicit barrier
14  * through a control-dependency in io_get_cqe (smp_store_release to
15  * store head will do). Failure to do so could lead to reading invalid
16  * CQ entries.
17  *
18  * Likewise, the application must use an appropriate smp_wmb() before
19  * writing the SQ tail (ordering SQ entry stores with the tail store),
20  * which pairs with smp_load_acquire in io_get_sqring (smp_store_release
21  * to store the tail will do). And it needs a barrier ordering the SQ
22  * head load before writing new SQ entries (smp_load_acquire to read
23  * head will do).
24  *
25  * When using the SQ poll thread (IORING_SETUP_SQPOLL), the application
26  * needs to check the SQ flags for IORING_SQ_NEED_WAKEUP *after*
27  * updating the SQ tail; a full memory barrier smp_mb() is needed
28  * between.
29  *
30  * Also see the examples in the liburing library:
31  *
32  *      git://git.kernel.dk/liburing
33  *
34  * io_uring also uses READ/WRITE_ONCE() for _any_ store or load that happens
35  * from data shared between the kernel and application. This is done both
36  * for ordering purposes, but also to ensure that once a value is loaded from
37  * data that the application could potentially modify, it remains stable.
38  *
39  * Copyright (C) 2018-2019 Jens Axboe
40  * Copyright (c) 2018-2019 Christoph Hellwig
41  */
42 #include <linux/kernel.h>
43 #include <linux/init.h>
44 #include <linux/errno.h>
45 #include <linux/syscalls.h>
46 #include <net/compat.h>
47 #include <linux/refcount.h>
48 #include <linux/uio.h>
49 #include <linux/bits.h>
50
51 #include <linux/sched/signal.h>
52 #include <linux/fs.h>
53 #include <linux/file.h>
54 #include <linux/fdtable.h>
55 #include <linux/mm.h>
56 #include <linux/mman.h>
57 #include <linux/percpu.h>
58 #include <linux/slab.h>
59 #include <linux/bvec.h>
60 #include <linux/net.h>
61 #include <net/sock.h>
62 #include <net/af_unix.h>
63 #include <net/scm.h>
64 #include <linux/anon_inodes.h>
65 #include <linux/sched/mm.h>
66 #include <linux/uaccess.h>
67 #include <linux/nospec.h>
68 #include <linux/highmem.h>
69 #include <linux/fsnotify.h>
70 #include <linux/fadvise.h>
71 #include <linux/task_work.h>
72 #include <linux/io_uring.h>
73 #include <linux/audit.h>
74 #include <linux/security.h>
75
76 #define CREATE_TRACE_POINTS
77 #include <trace/events/io_uring.h>
78
79 #include <uapi/linux/io_uring.h>
80
81 #include "io-wq.h"
82
83 #include "io_uring_types.h"
84 #include "io_uring.h"
85 #include "opdef.h"
86 #include "refs.h"
87 #include "tctx.h"
88 #include "sqpoll.h"
89 #include "fdinfo.h"
90 #include "kbuf.h"
91 #include "rsrc.h"
92 #include "cancel.h"
93
94 #include "timeout.h"
95 #include "poll.h"
96
97 #define IORING_MAX_ENTRIES      32768
98 #define IORING_MAX_CQ_ENTRIES   (2 * IORING_MAX_ENTRIES)
99
100 #define IORING_MAX_RESTRICTIONS (IORING_RESTRICTION_LAST + \
101                                  IORING_REGISTER_LAST + IORING_OP_LAST)
102
103 #define SQE_COMMON_FLAGS (IOSQE_FIXED_FILE | IOSQE_IO_LINK | \
104                           IOSQE_IO_HARDLINK | IOSQE_ASYNC)
105
106 #define SQE_VALID_FLAGS (SQE_COMMON_FLAGS | IOSQE_BUFFER_SELECT | \
107                         IOSQE_IO_DRAIN | IOSQE_CQE_SKIP_SUCCESS)
108
109 #define IO_REQ_CLEAN_FLAGS (REQ_F_BUFFER_SELECTED | REQ_F_NEED_CLEANUP | \
110                                 REQ_F_POLLED | REQ_F_INFLIGHT | REQ_F_CREDS | \
111                                 REQ_F_ASYNC_DATA)
112
113 #define IO_REQ_CLEAN_SLOW_FLAGS (REQ_F_REFCOUNT | REQ_F_LINK | REQ_F_HARDLINK |\
114                                  IO_REQ_CLEAN_FLAGS)
115
116 #define IO_TCTX_REFS_CACHE_NR   (1U << 10)
117
118 #define IO_COMPL_BATCH                  32
119 #define IO_REQ_ALLOC_BATCH              8
120
121 enum {
122         IO_CHECK_CQ_OVERFLOW_BIT,
123         IO_CHECK_CQ_DROPPED_BIT,
124 };
125
126 struct io_defer_entry {
127         struct list_head        list;
128         struct io_kiocb         *req;
129         u32                     seq;
130 };
131
132 /* requests with any of those set should undergo io_disarm_next() */
133 #define IO_DISARM_MASK (REQ_F_ARM_LTIMEOUT | REQ_F_LINK_TIMEOUT | REQ_F_FAIL)
134 #define IO_REQ_LINK_FLAGS (REQ_F_LINK | REQ_F_HARDLINK)
135
136 static void io_uring_try_cancel_requests(struct io_ring_ctx *ctx,
137                                          struct task_struct *task,
138                                          bool cancel_all);
139
140 static void io_dismantle_req(struct io_kiocb *req);
141 static void io_clean_op(struct io_kiocb *req);
142 static void io_queue_sqe(struct io_kiocb *req);
143
144 static void __io_submit_flush_completions(struct io_ring_ctx *ctx);
145
146 static void io_eventfd_signal(struct io_ring_ctx *ctx);
147
148 static struct kmem_cache *req_cachep;
149
150 struct sock *io_uring_get_socket(struct file *file)
151 {
152 #if defined(CONFIG_UNIX)
153         if (io_is_uring_fops(file)) {
154                 struct io_ring_ctx *ctx = file->private_data;
155
156                 return ctx->ring_sock->sk;
157         }
158 #endif
159         return NULL;
160 }
161 EXPORT_SYMBOL(io_uring_get_socket);
162
163 static inline void io_submit_flush_completions(struct io_ring_ctx *ctx)
164 {
165         if (!wq_list_empty(&ctx->submit_state.compl_reqs))
166                 __io_submit_flush_completions(ctx);
167 }
168
169 static bool io_match_linked(struct io_kiocb *head)
170 {
171         struct io_kiocb *req;
172
173         io_for_each_link(req, head) {
174                 if (req->flags & REQ_F_INFLIGHT)
175                         return true;
176         }
177         return false;
178 }
179
180 /*
181  * As io_match_task() but protected against racing with linked timeouts.
182  * User must not hold timeout_lock.
183  */
184 bool io_match_task_safe(struct io_kiocb *head, struct task_struct *task,
185                         bool cancel_all)
186 {
187         bool matched;
188
189         if (task && head->task != task)
190                 return false;
191         if (cancel_all)
192                 return true;
193
194         if (head->flags & REQ_F_LINK_TIMEOUT) {
195                 struct io_ring_ctx *ctx = head->ctx;
196
197                 /* protect against races with linked timeouts */
198                 spin_lock_irq(&ctx->timeout_lock);
199                 matched = io_match_linked(head);
200                 spin_unlock_irq(&ctx->timeout_lock);
201         } else {
202                 matched = io_match_linked(head);
203         }
204         return matched;
205 }
206
207 static inline void req_fail_link_node(struct io_kiocb *req, int res)
208 {
209         req_set_fail(req);
210         io_req_set_res(req, res, 0);
211 }
212
213 static inline void io_req_add_to_cache(struct io_kiocb *req, struct io_ring_ctx *ctx)
214 {
215         wq_stack_add_head(&req->comp_list, &ctx->submit_state.free_list);
216 }
217
218 static __cold void io_ring_ctx_ref_free(struct percpu_ref *ref)
219 {
220         struct io_ring_ctx *ctx = container_of(ref, struct io_ring_ctx, refs);
221
222         complete(&ctx->ref_comp);
223 }
224
225 static __cold void io_fallback_req_func(struct work_struct *work)
226 {
227         struct io_ring_ctx *ctx = container_of(work, struct io_ring_ctx,
228                                                 fallback_work.work);
229         struct llist_node *node = llist_del_all(&ctx->fallback_llist);
230         struct io_kiocb *req, *tmp;
231         bool locked = false;
232
233         percpu_ref_get(&ctx->refs);
234         llist_for_each_entry_safe(req, tmp, node, io_task_work.fallback_node)
235                 req->io_task_work.func(req, &locked);
236
237         if (locked) {
238                 io_submit_flush_completions(ctx);
239                 mutex_unlock(&ctx->uring_lock);
240         }
241         percpu_ref_put(&ctx->refs);
242 }
243
244 static int io_alloc_hash_table(struct io_hash_table *table, unsigned bits)
245 {
246         unsigned hash_buckets = 1U << bits;
247         size_t hash_size = hash_buckets * sizeof(table->hbs[0]);
248
249         table->hbs = kmalloc(hash_size, GFP_KERNEL);
250         if (!table->hbs)
251                 return -ENOMEM;
252
253         table->hash_bits = bits;
254         init_hash_table(table, hash_buckets);
255         return 0;
256 }
257
258 static __cold struct io_ring_ctx *io_ring_ctx_alloc(struct io_uring_params *p)
259 {
260         struct io_ring_ctx *ctx;
261         int hash_bits;
262
263         ctx = kzalloc(sizeof(*ctx), GFP_KERNEL);
264         if (!ctx)
265                 return NULL;
266
267         xa_init(&ctx->io_bl_xa);
268
269         /*
270          * Use 5 bits less than the max cq entries, that should give us around
271          * 32 entries per hash list if totally full and uniformly spread, but
272          * don't keep too many buckets to not overconsume memory.
273          */
274         hash_bits = ilog2(p->cq_entries) - 5;
275         hash_bits = clamp(hash_bits, 1, 8);
276         if (io_alloc_hash_table(&ctx->cancel_table, hash_bits))
277                 goto err;
278         if (io_alloc_hash_table(&ctx->cancel_table_locked, hash_bits))
279                 goto err;
280
281         ctx->dummy_ubuf = kzalloc(sizeof(*ctx->dummy_ubuf), GFP_KERNEL);
282         if (!ctx->dummy_ubuf)
283                 goto err;
284         /* set invalid range, so io_import_fixed() fails meeting it */
285         ctx->dummy_ubuf->ubuf = -1UL;
286
287         if (percpu_ref_init(&ctx->refs, io_ring_ctx_ref_free,
288                             PERCPU_REF_ALLOW_REINIT, GFP_KERNEL))
289                 goto err;
290
291         ctx->flags = p->flags;
292         init_waitqueue_head(&ctx->sqo_sq_wait);
293         INIT_LIST_HEAD(&ctx->sqd_list);
294         INIT_LIST_HEAD(&ctx->cq_overflow_list);
295         INIT_LIST_HEAD(&ctx->io_buffers_cache);
296         INIT_LIST_HEAD(&ctx->apoll_cache);
297         init_completion(&ctx->ref_comp);
298         xa_init_flags(&ctx->personalities, XA_FLAGS_ALLOC1);
299         mutex_init(&ctx->uring_lock);
300         init_waitqueue_head(&ctx->cq_wait);
301         spin_lock_init(&ctx->completion_lock);
302         spin_lock_init(&ctx->timeout_lock);
303         INIT_WQ_LIST(&ctx->iopoll_list);
304         INIT_LIST_HEAD(&ctx->io_buffers_pages);
305         INIT_LIST_HEAD(&ctx->io_buffers_comp);
306         INIT_LIST_HEAD(&ctx->defer_list);
307         INIT_LIST_HEAD(&ctx->timeout_list);
308         INIT_LIST_HEAD(&ctx->ltimeout_list);
309         spin_lock_init(&ctx->rsrc_ref_lock);
310         INIT_LIST_HEAD(&ctx->rsrc_ref_list);
311         INIT_DELAYED_WORK(&ctx->rsrc_put_work, io_rsrc_put_work);
312         init_llist_head(&ctx->rsrc_put_llist);
313         INIT_LIST_HEAD(&ctx->tctx_list);
314         ctx->submit_state.free_list.next = NULL;
315         INIT_WQ_LIST(&ctx->locked_free_list);
316         INIT_DELAYED_WORK(&ctx->fallback_work, io_fallback_req_func);
317         INIT_WQ_LIST(&ctx->submit_state.compl_reqs);
318         return ctx;
319 err:
320         kfree(ctx->dummy_ubuf);
321         kfree(ctx->cancel_table.hbs);
322         kfree(ctx->cancel_table_locked.hbs);
323         kfree(ctx->io_bl);
324         xa_destroy(&ctx->io_bl_xa);
325         kfree(ctx);
326         return NULL;
327 }
328
329 static void io_account_cq_overflow(struct io_ring_ctx *ctx)
330 {
331         struct io_rings *r = ctx->rings;
332
333         WRITE_ONCE(r->cq_overflow, READ_ONCE(r->cq_overflow) + 1);
334         ctx->cq_extra--;
335 }
336
337 static bool req_need_defer(struct io_kiocb *req, u32 seq)
338 {
339         if (unlikely(req->flags & REQ_F_IO_DRAIN)) {
340                 struct io_ring_ctx *ctx = req->ctx;
341
342                 return seq + READ_ONCE(ctx->cq_extra) != ctx->cached_cq_tail;
343         }
344
345         return false;
346 }
347
348 static inline void io_req_track_inflight(struct io_kiocb *req)
349 {
350         if (!(req->flags & REQ_F_INFLIGHT)) {
351                 req->flags |= REQ_F_INFLIGHT;
352                 atomic_inc(&req->task->io_uring->inflight_tracked);
353         }
354 }
355
356 static struct io_kiocb *__io_prep_linked_timeout(struct io_kiocb *req)
357 {
358         if (WARN_ON_ONCE(!req->link))
359                 return NULL;
360
361         req->flags &= ~REQ_F_ARM_LTIMEOUT;
362         req->flags |= REQ_F_LINK_TIMEOUT;
363
364         /* linked timeouts should have two refs once prep'ed */
365         io_req_set_refcount(req);
366         __io_req_set_refcount(req->link, 2);
367         return req->link;
368 }
369
370 static inline struct io_kiocb *io_prep_linked_timeout(struct io_kiocb *req)
371 {
372         if (likely(!(req->flags & REQ_F_ARM_LTIMEOUT)))
373                 return NULL;
374         return __io_prep_linked_timeout(req);
375 }
376
377 static noinline void __io_arm_ltimeout(struct io_kiocb *req)
378 {
379         io_queue_linked_timeout(__io_prep_linked_timeout(req));
380 }
381
382 static inline void io_arm_ltimeout(struct io_kiocb *req)
383 {
384         if (unlikely(req->flags & REQ_F_ARM_LTIMEOUT))
385                 __io_arm_ltimeout(req);
386 }
387
388 static void io_prep_async_work(struct io_kiocb *req)
389 {
390         const struct io_op_def *def = &io_op_defs[req->opcode];
391         struct io_ring_ctx *ctx = req->ctx;
392
393         if (!(req->flags & REQ_F_CREDS)) {
394                 req->flags |= REQ_F_CREDS;
395                 req->creds = get_current_cred();
396         }
397
398         req->work.list.next = NULL;
399         req->work.flags = 0;
400         req->work.cancel_seq = atomic_read(&ctx->cancel_seq);
401         if (req->flags & REQ_F_FORCE_ASYNC)
402                 req->work.flags |= IO_WQ_WORK_CONCURRENT;
403
404         if (req->flags & REQ_F_ISREG) {
405                 if (def->hash_reg_file || (ctx->flags & IORING_SETUP_IOPOLL))
406                         io_wq_hash_work(&req->work, file_inode(req->file));
407         } else if (!req->file || !S_ISBLK(file_inode(req->file)->i_mode)) {
408                 if (def->unbound_nonreg_file)
409                         req->work.flags |= IO_WQ_WORK_UNBOUND;
410         }
411 }
412
413 static void io_prep_async_link(struct io_kiocb *req)
414 {
415         struct io_kiocb *cur;
416
417         if (req->flags & REQ_F_LINK_TIMEOUT) {
418                 struct io_ring_ctx *ctx = req->ctx;
419
420                 spin_lock_irq(&ctx->timeout_lock);
421                 io_for_each_link(cur, req)
422                         io_prep_async_work(cur);
423                 spin_unlock_irq(&ctx->timeout_lock);
424         } else {
425                 io_for_each_link(cur, req)
426                         io_prep_async_work(cur);
427         }
428 }
429
430 void io_queue_iowq(struct io_kiocb *req, bool *dont_use)
431 {
432         struct io_kiocb *link = io_prep_linked_timeout(req);
433         struct io_uring_task *tctx = req->task->io_uring;
434
435         BUG_ON(!tctx);
436         BUG_ON(!tctx->io_wq);
437
438         /* init ->work of the whole link before punting */
439         io_prep_async_link(req);
440
441         /*
442          * Not expected to happen, but if we do have a bug where this _can_
443          * happen, catch it here and ensure the request is marked as
444          * canceled. That will make io-wq go through the usual work cancel
445          * procedure rather than attempt to run this request (or create a new
446          * worker for it).
447          */
448         if (WARN_ON_ONCE(!same_thread_group(req->task, current)))
449                 req->work.flags |= IO_WQ_WORK_CANCEL;
450
451         trace_io_uring_queue_async_work(req->ctx, req, req->cqe.user_data,
452                                         req->opcode, req->flags, &req->work,
453                                         io_wq_is_hashed(&req->work));
454         io_wq_enqueue(tctx->io_wq, &req->work);
455         if (link)
456                 io_queue_linked_timeout(link);
457 }
458
459 static __cold void io_queue_deferred(struct io_ring_ctx *ctx)
460 {
461         while (!list_empty(&ctx->defer_list)) {
462                 struct io_defer_entry *de = list_first_entry(&ctx->defer_list,
463                                                 struct io_defer_entry, list);
464
465                 if (req_need_defer(de->req, de->seq))
466                         break;
467                 list_del_init(&de->list);
468                 io_req_task_queue(de->req);
469                 kfree(de);
470         }
471 }
472
473 void __io_commit_cqring_flush(struct io_ring_ctx *ctx)
474 {
475         if (ctx->off_timeout_used || ctx->drain_active) {
476                 spin_lock(&ctx->completion_lock);
477                 if (ctx->off_timeout_used)
478                         io_flush_timeouts(ctx);
479                 if (ctx->drain_active)
480                         io_queue_deferred(ctx);
481                 io_commit_cqring(ctx);
482                 spin_unlock(&ctx->completion_lock);
483         }
484         if (ctx->has_evfd)
485                 io_eventfd_signal(ctx);
486 }
487
488 static void io_eventfd_signal(struct io_ring_ctx *ctx)
489 {
490         struct io_ev_fd *ev_fd;
491
492         rcu_read_lock();
493         /*
494          * rcu_dereference ctx->io_ev_fd once and use it for both for checking
495          * and eventfd_signal
496          */
497         ev_fd = rcu_dereference(ctx->io_ev_fd);
498
499         /*
500          * Check again if ev_fd exists incase an io_eventfd_unregister call
501          * completed between the NULL check of ctx->io_ev_fd at the start of
502          * the function and rcu_read_lock.
503          */
504         if (unlikely(!ev_fd))
505                 goto out;
506         if (READ_ONCE(ctx->rings->cq_flags) & IORING_CQ_EVENTFD_DISABLED)
507                 goto out;
508
509         if (!ev_fd->eventfd_async || io_wq_current_is_worker())
510                 eventfd_signal(ev_fd->cq_ev_fd, 1);
511 out:
512         rcu_read_unlock();
513 }
514
515 /*
516  * This should only get called when at least one event has been posted.
517  * Some applications rely on the eventfd notification count only changing
518  * IFF a new CQE has been added to the CQ ring. There's no depedency on
519  * 1:1 relationship between how many times this function is called (and
520  * hence the eventfd count) and number of CQEs posted to the CQ ring.
521  */
522 void io_cqring_ev_posted(struct io_ring_ctx *ctx)
523 {
524         if (unlikely(ctx->off_timeout_used || ctx->drain_active ||
525                      ctx->has_evfd))
526                 __io_commit_cqring_flush(ctx);
527
528         io_cqring_wake(ctx);
529 }
530
531 /* Returns true if there are no backlogged entries after the flush */
532 static bool __io_cqring_overflow_flush(struct io_ring_ctx *ctx, bool force)
533 {
534         bool all_flushed, posted;
535         size_t cqe_size = sizeof(struct io_uring_cqe);
536
537         if (!force && __io_cqring_events(ctx) == ctx->cq_entries)
538                 return false;
539
540         if (ctx->flags & IORING_SETUP_CQE32)
541                 cqe_size <<= 1;
542
543         posted = false;
544         spin_lock(&ctx->completion_lock);
545         while (!list_empty(&ctx->cq_overflow_list)) {
546                 struct io_uring_cqe *cqe = io_get_cqe(ctx);
547                 struct io_overflow_cqe *ocqe;
548
549                 if (!cqe && !force)
550                         break;
551                 ocqe = list_first_entry(&ctx->cq_overflow_list,
552                                         struct io_overflow_cqe, list);
553                 if (cqe)
554                         memcpy(cqe, &ocqe->cqe, cqe_size);
555                 else
556                         io_account_cq_overflow(ctx);
557
558                 posted = true;
559                 list_del(&ocqe->list);
560                 kfree(ocqe);
561         }
562
563         all_flushed = list_empty(&ctx->cq_overflow_list);
564         if (all_flushed) {
565                 clear_bit(IO_CHECK_CQ_OVERFLOW_BIT, &ctx->check_cq);
566                 atomic_andnot(IORING_SQ_CQ_OVERFLOW, &ctx->rings->sq_flags);
567         }
568
569         io_commit_cqring(ctx);
570         spin_unlock(&ctx->completion_lock);
571         if (posted)
572                 io_cqring_ev_posted(ctx);
573         return all_flushed;
574 }
575
576 static bool io_cqring_overflow_flush(struct io_ring_ctx *ctx)
577 {
578         bool ret = true;
579
580         if (test_bit(IO_CHECK_CQ_OVERFLOW_BIT, &ctx->check_cq)) {
581                 /* iopoll syncs against uring_lock, not completion_lock */
582                 if (ctx->flags & IORING_SETUP_IOPOLL)
583                         mutex_lock(&ctx->uring_lock);
584                 ret = __io_cqring_overflow_flush(ctx, false);
585                 if (ctx->flags & IORING_SETUP_IOPOLL)
586                         mutex_unlock(&ctx->uring_lock);
587         }
588
589         return ret;
590 }
591
592 static void __io_put_task(struct task_struct *task, int nr)
593 {
594         struct io_uring_task *tctx = task->io_uring;
595
596         percpu_counter_sub(&tctx->inflight, nr);
597         if (unlikely(atomic_read(&tctx->in_idle)))
598                 wake_up(&tctx->wait);
599         put_task_struct_many(task, nr);
600 }
601
602 /* must to be called somewhat shortly after putting a request */
603 static inline void io_put_task(struct task_struct *task, int nr)
604 {
605         if (likely(task == current))
606                 task->io_uring->cached_refs += nr;
607         else
608                 __io_put_task(task, nr);
609 }
610
611 static void io_task_refs_refill(struct io_uring_task *tctx)
612 {
613         unsigned int refill = -tctx->cached_refs + IO_TCTX_REFS_CACHE_NR;
614
615         percpu_counter_add(&tctx->inflight, refill);
616         refcount_add(refill, &current->usage);
617         tctx->cached_refs += refill;
618 }
619
620 static inline void io_get_task_refs(int nr)
621 {
622         struct io_uring_task *tctx = current->io_uring;
623
624         tctx->cached_refs -= nr;
625         if (unlikely(tctx->cached_refs < 0))
626                 io_task_refs_refill(tctx);
627 }
628
629 static __cold void io_uring_drop_tctx_refs(struct task_struct *task)
630 {
631         struct io_uring_task *tctx = task->io_uring;
632         unsigned int refs = tctx->cached_refs;
633
634         if (refs) {
635                 tctx->cached_refs = 0;
636                 percpu_counter_sub(&tctx->inflight, refs);
637                 put_task_struct_many(task, refs);
638         }
639 }
640
641 bool io_cqring_event_overflow(struct io_ring_ctx *ctx, u64 user_data, s32 res,
642                               u32 cflags, u64 extra1, u64 extra2)
643 {
644         struct io_overflow_cqe *ocqe;
645         size_t ocq_size = sizeof(struct io_overflow_cqe);
646         bool is_cqe32 = (ctx->flags & IORING_SETUP_CQE32);
647
648         if (is_cqe32)
649                 ocq_size += sizeof(struct io_uring_cqe);
650
651         ocqe = kmalloc(ocq_size, GFP_ATOMIC | __GFP_ACCOUNT);
652         trace_io_uring_cqe_overflow(ctx, user_data, res, cflags, ocqe);
653         if (!ocqe) {
654                 /*
655                  * If we're in ring overflow flush mode, or in task cancel mode,
656                  * or cannot allocate an overflow entry, then we need to drop it
657                  * on the floor.
658                  */
659                 io_account_cq_overflow(ctx);
660                 set_bit(IO_CHECK_CQ_DROPPED_BIT, &ctx->check_cq);
661                 return false;
662         }
663         if (list_empty(&ctx->cq_overflow_list)) {
664                 set_bit(IO_CHECK_CQ_OVERFLOW_BIT, &ctx->check_cq);
665                 atomic_or(IORING_SQ_CQ_OVERFLOW, &ctx->rings->sq_flags);
666
667         }
668         ocqe->cqe.user_data = user_data;
669         ocqe->cqe.res = res;
670         ocqe->cqe.flags = cflags;
671         if (is_cqe32) {
672                 ocqe->cqe.big_cqe[0] = extra1;
673                 ocqe->cqe.big_cqe[1] = extra2;
674         }
675         list_add_tail(&ocqe->list, &ctx->cq_overflow_list);
676         return true;
677 }
678
679 static bool io_fill_cqe_aux(struct io_ring_ctx *ctx,
680                             u64 user_data, s32 res, u32 cflags)
681 {
682         struct io_uring_cqe *cqe;
683
684         ctx->cq_extra++;
685         trace_io_uring_complete(ctx, NULL, user_data, res, cflags, 0, 0);
686
687         /*
688          * If we can't get a cq entry, userspace overflowed the
689          * submission (by quite a lot). Increment the overflow count in
690          * the ring.
691          */
692         cqe = io_get_cqe(ctx);
693         if (likely(cqe)) {
694                 WRITE_ONCE(cqe->user_data, user_data);
695                 WRITE_ONCE(cqe->res, res);
696                 WRITE_ONCE(cqe->flags, cflags);
697
698                 if (ctx->flags & IORING_SETUP_CQE32) {
699                         WRITE_ONCE(cqe->big_cqe[0], 0);
700                         WRITE_ONCE(cqe->big_cqe[1], 0);
701                 }
702                 return true;
703         }
704         return io_cqring_event_overflow(ctx, user_data, res, cflags, 0, 0);
705 }
706
707 bool io_post_aux_cqe(struct io_ring_ctx *ctx,
708                      u64 user_data, s32 res, u32 cflags)
709 {
710         bool filled;
711
712         spin_lock(&ctx->completion_lock);
713         filled = io_fill_cqe_aux(ctx, user_data, res, cflags);
714         io_commit_cqring(ctx);
715         spin_unlock(&ctx->completion_lock);
716         if (filled)
717                 io_cqring_ev_posted(ctx);
718         return filled;
719 }
720
721 static void __io_req_complete_put(struct io_kiocb *req)
722 {
723         /*
724          * If we're the last reference to this request, add to our locked
725          * free_list cache.
726          */
727         if (req_ref_put_and_test(req)) {
728                 struct io_ring_ctx *ctx = req->ctx;
729
730                 if (req->flags & IO_REQ_LINK_FLAGS) {
731                         if (req->flags & IO_DISARM_MASK)
732                                 io_disarm_next(req);
733                         if (req->link) {
734                                 io_req_task_queue(req->link);
735                                 req->link = NULL;
736                         }
737                 }
738                 io_req_put_rsrc(req);
739                 /*
740                  * Selected buffer deallocation in io_clean_op() assumes that
741                  * we don't hold ->completion_lock. Clean them here to avoid
742                  * deadlocks.
743                  */
744                 io_put_kbuf_comp(req);
745                 io_dismantle_req(req);
746                 io_put_task(req->task, 1);
747                 wq_list_add_head(&req->comp_list, &ctx->locked_free_list);
748                 ctx->locked_free_nr++;
749         }
750 }
751
752 void __io_req_complete_post(struct io_kiocb *req)
753 {
754         if (!(req->flags & REQ_F_CQE_SKIP))
755                 __io_fill_cqe_req(req->ctx, req);
756         __io_req_complete_put(req);
757 }
758
759 void io_req_complete_post(struct io_kiocb *req)
760 {
761         struct io_ring_ctx *ctx = req->ctx;
762
763         spin_lock(&ctx->completion_lock);
764         __io_req_complete_post(req);
765         io_commit_cqring(ctx);
766         spin_unlock(&ctx->completion_lock);
767         io_cqring_ev_posted(ctx);
768 }
769
770 inline void __io_req_complete(struct io_kiocb *req, unsigned issue_flags)
771 {
772         io_req_complete_post(req);
773 }
774
775 void io_req_complete_failed(struct io_kiocb *req, s32 res)
776 {
777         req_set_fail(req);
778         io_req_set_res(req, res, io_put_kbuf(req, IO_URING_F_UNLOCKED));
779         io_req_complete_post(req);
780 }
781
782 /*
783  * Don't initialise the fields below on every allocation, but do that in
784  * advance and keep them valid across allocations.
785  */
786 static void io_preinit_req(struct io_kiocb *req, struct io_ring_ctx *ctx)
787 {
788         req->ctx = ctx;
789         req->link = NULL;
790         req->async_data = NULL;
791         /* not necessary, but safer to zero */
792         req->cqe.res = 0;
793 }
794
795 static void io_flush_cached_locked_reqs(struct io_ring_ctx *ctx,
796                                         struct io_submit_state *state)
797 {
798         spin_lock(&ctx->completion_lock);
799         wq_list_splice(&ctx->locked_free_list, &state->free_list);
800         ctx->locked_free_nr = 0;
801         spin_unlock(&ctx->completion_lock);
802 }
803
804 static inline bool io_req_cache_empty(struct io_ring_ctx *ctx)
805 {
806         return !ctx->submit_state.free_list.next;
807 }
808
809 /*
810  * A request might get retired back into the request caches even before opcode
811  * handlers and io_issue_sqe() are done with it, e.g. inline completion path.
812  * Because of that, io_alloc_req() should be called only under ->uring_lock
813  * and with extra caution to not get a request that is still worked on.
814  */
815 static __cold bool __io_alloc_req_refill(struct io_ring_ctx *ctx)
816         __must_hold(&ctx->uring_lock)
817 {
818         gfp_t gfp = GFP_KERNEL | __GFP_NOWARN;
819         void *reqs[IO_REQ_ALLOC_BATCH];
820         int ret, i;
821
822         /*
823          * If we have more than a batch's worth of requests in our IRQ side
824          * locked cache, grab the lock and move them over to our submission
825          * side cache.
826          */
827         if (data_race(ctx->locked_free_nr) > IO_COMPL_BATCH) {
828                 io_flush_cached_locked_reqs(ctx, &ctx->submit_state);
829                 if (!io_req_cache_empty(ctx))
830                         return true;
831         }
832
833         ret = kmem_cache_alloc_bulk(req_cachep, gfp, ARRAY_SIZE(reqs), reqs);
834
835         /*
836          * Bulk alloc is all-or-nothing. If we fail to get a batch,
837          * retry single alloc to be on the safe side.
838          */
839         if (unlikely(ret <= 0)) {
840                 reqs[0] = kmem_cache_alloc(req_cachep, gfp);
841                 if (!reqs[0])
842                         return false;
843                 ret = 1;
844         }
845
846         percpu_ref_get_many(&ctx->refs, ret);
847         for (i = 0; i < ret; i++) {
848                 struct io_kiocb *req = reqs[i];
849
850                 io_preinit_req(req, ctx);
851                 io_req_add_to_cache(req, ctx);
852         }
853         return true;
854 }
855
856 static inline bool io_alloc_req_refill(struct io_ring_ctx *ctx)
857 {
858         if (unlikely(io_req_cache_empty(ctx)))
859                 return __io_alloc_req_refill(ctx);
860         return true;
861 }
862
863 static inline struct io_kiocb *io_alloc_req(struct io_ring_ctx *ctx)
864 {
865         struct io_wq_work_node *node;
866
867         node = wq_stack_extract(&ctx->submit_state.free_list);
868         return container_of(node, struct io_kiocb, comp_list);
869 }
870
871 static inline void io_dismantle_req(struct io_kiocb *req)
872 {
873         unsigned int flags = req->flags;
874
875         if (unlikely(flags & IO_REQ_CLEAN_FLAGS))
876                 io_clean_op(req);
877         if (!(flags & REQ_F_FIXED_FILE))
878                 io_put_file(req->file);
879 }
880
881 __cold void io_free_req(struct io_kiocb *req)
882 {
883         struct io_ring_ctx *ctx = req->ctx;
884
885         io_req_put_rsrc(req);
886         io_dismantle_req(req);
887         io_put_task(req->task, 1);
888
889         spin_lock(&ctx->completion_lock);
890         wq_list_add_head(&req->comp_list, &ctx->locked_free_list);
891         ctx->locked_free_nr++;
892         spin_unlock(&ctx->completion_lock);
893 }
894
895 static void __io_req_find_next_prep(struct io_kiocb *req)
896 {
897         struct io_ring_ctx *ctx = req->ctx;
898         bool posted;
899
900         spin_lock(&ctx->completion_lock);
901         posted = io_disarm_next(req);
902         io_commit_cqring(ctx);
903         spin_unlock(&ctx->completion_lock);
904         if (posted)
905                 io_cqring_ev_posted(ctx);
906 }
907
908 static inline struct io_kiocb *io_req_find_next(struct io_kiocb *req)
909 {
910         struct io_kiocb *nxt;
911
912         /*
913          * If LINK is set, we have dependent requests in this chain. If we
914          * didn't fail this request, queue the first one up, moving any other
915          * dependencies to the next request. In case of failure, fail the rest
916          * of the chain.
917          */
918         if (unlikely(req->flags & IO_DISARM_MASK))
919                 __io_req_find_next_prep(req);
920         nxt = req->link;
921         req->link = NULL;
922         return nxt;
923 }
924
925 static void ctx_flush_and_put(struct io_ring_ctx *ctx, bool *locked)
926 {
927         if (!ctx)
928                 return;
929         if (ctx->flags & IORING_SETUP_TASKRUN_FLAG)
930                 atomic_andnot(IORING_SQ_TASKRUN, &ctx->rings->sq_flags);
931         if (*locked) {
932                 io_submit_flush_completions(ctx);
933                 mutex_unlock(&ctx->uring_lock);
934                 *locked = false;
935         }
936         percpu_ref_put(&ctx->refs);
937 }
938
939 static inline void ctx_commit_and_unlock(struct io_ring_ctx *ctx)
940 {
941         io_commit_cqring(ctx);
942         spin_unlock(&ctx->completion_lock);
943         io_cqring_ev_posted(ctx);
944 }
945
946 static void handle_prev_tw_list(struct io_wq_work_node *node,
947                                 struct io_ring_ctx **ctx, bool *uring_locked)
948 {
949         if (*ctx && !*uring_locked)
950                 spin_lock(&(*ctx)->completion_lock);
951
952         do {
953                 struct io_wq_work_node *next = node->next;
954                 struct io_kiocb *req = container_of(node, struct io_kiocb,
955                                                     io_task_work.node);
956
957                 prefetch(container_of(next, struct io_kiocb, io_task_work.node));
958
959                 if (req->ctx != *ctx) {
960                         if (unlikely(!*uring_locked && *ctx))
961                                 ctx_commit_and_unlock(*ctx);
962
963                         ctx_flush_and_put(*ctx, uring_locked);
964                         *ctx = req->ctx;
965                         /* if not contended, grab and improve batching */
966                         *uring_locked = mutex_trylock(&(*ctx)->uring_lock);
967                         percpu_ref_get(&(*ctx)->refs);
968                         if (unlikely(!*uring_locked))
969                                 spin_lock(&(*ctx)->completion_lock);
970                 }
971                 if (likely(*uring_locked)) {
972                         req->io_task_work.func(req, uring_locked);
973                 } else {
974                         req->cqe.flags = io_put_kbuf_comp(req);
975                         __io_req_complete_post(req);
976                 }
977                 node = next;
978         } while (node);
979
980         if (unlikely(!*uring_locked))
981                 ctx_commit_and_unlock(*ctx);
982 }
983
984 static void handle_tw_list(struct io_wq_work_node *node,
985                            struct io_ring_ctx **ctx, bool *locked)
986 {
987         do {
988                 struct io_wq_work_node *next = node->next;
989                 struct io_kiocb *req = container_of(node, struct io_kiocb,
990                                                     io_task_work.node);
991
992                 prefetch(container_of(next, struct io_kiocb, io_task_work.node));
993
994                 if (req->ctx != *ctx) {
995                         ctx_flush_and_put(*ctx, locked);
996                         *ctx = req->ctx;
997                         /* if not contended, grab and improve batching */
998                         *locked = mutex_trylock(&(*ctx)->uring_lock);
999                         percpu_ref_get(&(*ctx)->refs);
1000                 }
1001                 req->io_task_work.func(req, locked);
1002                 node = next;
1003         } while (node);
1004 }
1005
1006 void tctx_task_work(struct callback_head *cb)
1007 {
1008         bool uring_locked = false;
1009         struct io_ring_ctx *ctx = NULL;
1010         struct io_uring_task *tctx = container_of(cb, struct io_uring_task,
1011                                                   task_work);
1012
1013         while (1) {
1014                 struct io_wq_work_node *node1, *node2;
1015
1016                 spin_lock_irq(&tctx->task_lock);
1017                 node1 = tctx->prio_task_list.first;
1018                 node2 = tctx->task_list.first;
1019                 INIT_WQ_LIST(&tctx->task_list);
1020                 INIT_WQ_LIST(&tctx->prio_task_list);
1021                 if (!node2 && !node1)
1022                         tctx->task_running = false;
1023                 spin_unlock_irq(&tctx->task_lock);
1024                 if (!node2 && !node1)
1025                         break;
1026
1027                 if (node1)
1028                         handle_prev_tw_list(node1, &ctx, &uring_locked);
1029                 if (node2)
1030                         handle_tw_list(node2, &ctx, &uring_locked);
1031                 cond_resched();
1032
1033                 if (data_race(!tctx->task_list.first) &&
1034                     data_race(!tctx->prio_task_list.first) && uring_locked)
1035                         io_submit_flush_completions(ctx);
1036         }
1037
1038         ctx_flush_and_put(ctx, &uring_locked);
1039
1040         /* relaxed read is enough as only the task itself sets ->in_idle */
1041         if (unlikely(atomic_read(&tctx->in_idle)))
1042                 io_uring_drop_tctx_refs(current);
1043 }
1044
1045 static void __io_req_task_work_add(struct io_kiocb *req,
1046                                    struct io_uring_task *tctx,
1047                                    struct io_wq_work_list *list)
1048 {
1049         struct io_ring_ctx *ctx = req->ctx;
1050         struct io_wq_work_node *node;
1051         unsigned long flags;
1052         bool running;
1053
1054         spin_lock_irqsave(&tctx->task_lock, flags);
1055         wq_list_add_tail(&req->io_task_work.node, list);
1056         running = tctx->task_running;
1057         if (!running)
1058                 tctx->task_running = true;
1059         spin_unlock_irqrestore(&tctx->task_lock, flags);
1060
1061         /* task_work already pending, we're done */
1062         if (running)
1063                 return;
1064
1065         if (ctx->flags & IORING_SETUP_TASKRUN_FLAG)
1066                 atomic_or(IORING_SQ_TASKRUN, &ctx->rings->sq_flags);
1067
1068         if (likely(!task_work_add(req->task, &tctx->task_work, ctx->notify_method)))
1069                 return;
1070
1071         spin_lock_irqsave(&tctx->task_lock, flags);
1072         tctx->task_running = false;
1073         node = wq_list_merge(&tctx->prio_task_list, &tctx->task_list);
1074         spin_unlock_irqrestore(&tctx->task_lock, flags);
1075
1076         while (node) {
1077                 req = container_of(node, struct io_kiocb, io_task_work.node);
1078                 node = node->next;
1079                 if (llist_add(&req->io_task_work.fallback_node,
1080                               &req->ctx->fallback_llist))
1081                         schedule_delayed_work(&req->ctx->fallback_work, 1);
1082         }
1083 }
1084
1085 void io_req_task_work_add(struct io_kiocb *req)
1086 {
1087         struct io_uring_task *tctx = req->task->io_uring;
1088
1089         __io_req_task_work_add(req, tctx, &tctx->task_list);
1090 }
1091
1092 void io_req_task_prio_work_add(struct io_kiocb *req)
1093 {
1094         struct io_uring_task *tctx = req->task->io_uring;
1095
1096         if (req->ctx->flags & IORING_SETUP_SQPOLL)
1097                 __io_req_task_work_add(req, tctx, &tctx->prio_task_list);
1098         else
1099                 __io_req_task_work_add(req, tctx, &tctx->task_list);
1100 }
1101
1102 static void io_req_tw_post(struct io_kiocb *req, bool *locked)
1103 {
1104         io_req_complete_post(req);
1105 }
1106
1107 void io_req_tw_post_queue(struct io_kiocb *req, s32 res, u32 cflags)
1108 {
1109         io_req_set_res(req, res, cflags);
1110         req->io_task_work.func = io_req_tw_post;
1111         io_req_task_work_add(req);
1112 }
1113
1114 static void io_req_task_cancel(struct io_kiocb *req, bool *locked)
1115 {
1116         /* not needed for normal modes, but SQPOLL depends on it */
1117         io_tw_lock(req->ctx, locked);
1118         io_req_complete_failed(req, req->cqe.res);
1119 }
1120
1121 void io_req_task_submit(struct io_kiocb *req, bool *locked)
1122 {
1123         io_tw_lock(req->ctx, locked);
1124         /* req->task == current here, checking PF_EXITING is safe */
1125         if (likely(!(req->task->flags & PF_EXITING)))
1126                 io_queue_sqe(req);
1127         else
1128                 io_req_complete_failed(req, -EFAULT);
1129 }
1130
1131 void io_req_task_queue_fail(struct io_kiocb *req, int ret)
1132 {
1133         io_req_set_res(req, ret, 0);
1134         req->io_task_work.func = io_req_task_cancel;
1135         io_req_task_work_add(req);
1136 }
1137
1138 void io_req_task_queue(struct io_kiocb *req)
1139 {
1140         req->io_task_work.func = io_req_task_submit;
1141         io_req_task_work_add(req);
1142 }
1143
1144 void io_queue_next(struct io_kiocb *req)
1145 {
1146         struct io_kiocb *nxt = io_req_find_next(req);
1147
1148         if (nxt)
1149                 io_req_task_queue(nxt);
1150 }
1151
1152 void io_free_batch_list(struct io_ring_ctx *ctx, struct io_wq_work_node *node)
1153         __must_hold(&ctx->uring_lock)
1154 {
1155         struct task_struct *task = NULL;
1156         int task_refs = 0;
1157
1158         do {
1159                 struct io_kiocb *req = container_of(node, struct io_kiocb,
1160                                                     comp_list);
1161
1162                 if (unlikely(req->flags & IO_REQ_CLEAN_SLOW_FLAGS)) {
1163                         if (req->flags & REQ_F_REFCOUNT) {
1164                                 node = req->comp_list.next;
1165                                 if (!req_ref_put_and_test(req))
1166                                         continue;
1167                         }
1168                         if ((req->flags & REQ_F_POLLED) && req->apoll) {
1169                                 struct async_poll *apoll = req->apoll;
1170
1171                                 if (apoll->double_poll)
1172                                         kfree(apoll->double_poll);
1173                                 list_add(&apoll->poll.wait.entry,
1174                                                 &ctx->apoll_cache);
1175                                 req->flags &= ~REQ_F_POLLED;
1176                         }
1177                         if (req->flags & IO_REQ_LINK_FLAGS)
1178                                 io_queue_next(req);
1179                         if (unlikely(req->flags & IO_REQ_CLEAN_FLAGS))
1180                                 io_clean_op(req);
1181                 }
1182                 if (!(req->flags & REQ_F_FIXED_FILE))
1183                         io_put_file(req->file);
1184
1185                 io_req_put_rsrc_locked(req, ctx);
1186
1187                 if (req->task != task) {
1188                         if (task)
1189                                 io_put_task(task, task_refs);
1190                         task = req->task;
1191                         task_refs = 0;
1192                 }
1193                 task_refs++;
1194                 node = req->comp_list.next;
1195                 io_req_add_to_cache(req, ctx);
1196         } while (node);
1197
1198         if (task)
1199                 io_put_task(task, task_refs);
1200 }
1201
1202 static void __io_submit_flush_completions(struct io_ring_ctx *ctx)
1203         __must_hold(&ctx->uring_lock)
1204 {
1205         struct io_wq_work_node *node, *prev;
1206         struct io_submit_state *state = &ctx->submit_state;
1207
1208         if (state->flush_cqes) {
1209                 spin_lock(&ctx->completion_lock);
1210                 wq_list_for_each(node, prev, &state->compl_reqs) {
1211                         struct io_kiocb *req = container_of(node, struct io_kiocb,
1212                                                     comp_list);
1213
1214                         if (!(req->flags & REQ_F_CQE_SKIP))
1215                                 __io_fill_cqe_req(ctx, req);
1216                 }
1217
1218                 io_commit_cqring(ctx);
1219                 spin_unlock(&ctx->completion_lock);
1220                 io_cqring_ev_posted(ctx);
1221                 state->flush_cqes = false;
1222         }
1223
1224         io_free_batch_list(ctx, state->compl_reqs.first);
1225         INIT_WQ_LIST(&state->compl_reqs);
1226 }
1227
1228 /*
1229  * Drop reference to request, return next in chain (if there is one) if this
1230  * was the last reference to this request.
1231  */
1232 static inline struct io_kiocb *io_put_req_find_next(struct io_kiocb *req)
1233 {
1234         struct io_kiocb *nxt = NULL;
1235
1236         if (req_ref_put_and_test(req)) {
1237                 if (unlikely(req->flags & IO_REQ_LINK_FLAGS))
1238                         nxt = io_req_find_next(req);
1239                 io_free_req(req);
1240         }
1241         return nxt;
1242 }
1243
1244 static unsigned io_cqring_events(struct io_ring_ctx *ctx)
1245 {
1246         /* See comment at the top of this file */
1247         smp_rmb();
1248         return __io_cqring_events(ctx);
1249 }
1250
1251 /*
1252  * We can't just wait for polled events to come to us, we have to actively
1253  * find and complete them.
1254  */
1255 static __cold void io_iopoll_try_reap_events(struct io_ring_ctx *ctx)
1256 {
1257         if (!(ctx->flags & IORING_SETUP_IOPOLL))
1258                 return;
1259
1260         mutex_lock(&ctx->uring_lock);
1261         while (!wq_list_empty(&ctx->iopoll_list)) {
1262                 /* let it sleep and repeat later if can't complete a request */
1263                 if (io_do_iopoll(ctx, true) == 0)
1264                         break;
1265                 /*
1266                  * Ensure we allow local-to-the-cpu processing to take place,
1267                  * in this case we need to ensure that we reap all events.
1268                  * Also let task_work, etc. to progress by releasing the mutex
1269                  */
1270                 if (need_resched()) {
1271                         mutex_unlock(&ctx->uring_lock);
1272                         cond_resched();
1273                         mutex_lock(&ctx->uring_lock);
1274                 }
1275         }
1276         mutex_unlock(&ctx->uring_lock);
1277 }
1278
1279 static int io_iopoll_check(struct io_ring_ctx *ctx, long min)
1280 {
1281         unsigned int nr_events = 0;
1282         int ret = 0;
1283         unsigned long check_cq;
1284
1285         check_cq = READ_ONCE(ctx->check_cq);
1286         if (unlikely(check_cq)) {
1287                 if (check_cq & BIT(IO_CHECK_CQ_OVERFLOW_BIT))
1288                         __io_cqring_overflow_flush(ctx, false);
1289                 /*
1290                  * Similarly do not spin if we have not informed the user of any
1291                  * dropped CQE.
1292                  */
1293                 if (check_cq & BIT(IO_CHECK_CQ_DROPPED_BIT))
1294                         return -EBADR;
1295         }
1296         /*
1297          * Don't enter poll loop if we already have events pending.
1298          * If we do, we can potentially be spinning for commands that
1299          * already triggered a CQE (eg in error).
1300          */
1301         if (io_cqring_events(ctx))
1302                 return 0;
1303
1304         do {
1305                 /*
1306                  * If a submit got punted to a workqueue, we can have the
1307                  * application entering polling for a command before it gets
1308                  * issued. That app will hold the uring_lock for the duration
1309                  * of the poll right here, so we need to take a breather every
1310                  * now and then to ensure that the issue has a chance to add
1311                  * the poll to the issued list. Otherwise we can spin here
1312                  * forever, while the workqueue is stuck trying to acquire the
1313                  * very same mutex.
1314                  */
1315                 if (wq_list_empty(&ctx->iopoll_list)) {
1316                         u32 tail = ctx->cached_cq_tail;
1317
1318                         mutex_unlock(&ctx->uring_lock);
1319                         io_run_task_work();
1320                         mutex_lock(&ctx->uring_lock);
1321
1322                         /* some requests don't go through iopoll_list */
1323                         if (tail != ctx->cached_cq_tail ||
1324                             wq_list_empty(&ctx->iopoll_list))
1325                                 break;
1326                 }
1327                 ret = io_do_iopoll(ctx, !min);
1328                 if (ret < 0)
1329                         break;
1330                 nr_events += ret;
1331                 ret = 0;
1332         } while (nr_events < min && !need_resched());
1333
1334         return ret;
1335 }
1336
1337 void io_req_task_complete(struct io_kiocb *req, bool *locked)
1338 {
1339         if (req->flags & (REQ_F_BUFFER_SELECTED|REQ_F_BUFFER_RING)) {
1340                 unsigned issue_flags = *locked ? 0 : IO_URING_F_UNLOCKED;
1341
1342                 req->cqe.flags |= io_put_kbuf(req, issue_flags);
1343         }
1344
1345         if (*locked)
1346                 io_req_add_compl_list(req);
1347         else
1348                 io_req_complete_post(req);
1349 }
1350
1351 /*
1352  * After the iocb has been issued, it's safe to be found on the poll list.
1353  * Adding the kiocb to the list AFTER submission ensures that we don't
1354  * find it from a io_do_iopoll() thread before the issuer is done
1355  * accessing the kiocb cookie.
1356  */
1357 static void io_iopoll_req_issued(struct io_kiocb *req, unsigned int issue_flags)
1358 {
1359         struct io_ring_ctx *ctx = req->ctx;
1360         const bool needs_lock = issue_flags & IO_URING_F_UNLOCKED;
1361
1362         /* workqueue context doesn't hold uring_lock, grab it now */
1363         if (unlikely(needs_lock))
1364                 mutex_lock(&ctx->uring_lock);
1365
1366         /*
1367          * Track whether we have multiple files in our lists. This will impact
1368          * how we do polling eventually, not spinning if we're on potentially
1369          * different devices.
1370          */
1371         if (wq_list_empty(&ctx->iopoll_list)) {
1372                 ctx->poll_multi_queue = false;
1373         } else if (!ctx->poll_multi_queue) {
1374                 struct io_kiocb *list_req;
1375
1376                 list_req = container_of(ctx->iopoll_list.first, struct io_kiocb,
1377                                         comp_list);
1378                 if (list_req->file != req->file)
1379                         ctx->poll_multi_queue = true;
1380         }
1381
1382         /*
1383          * For fast devices, IO may have already completed. If it has, add
1384          * it to the front so we find it first.
1385          */
1386         if (READ_ONCE(req->iopoll_completed))
1387                 wq_list_add_head(&req->comp_list, &ctx->iopoll_list);
1388         else
1389                 wq_list_add_tail(&req->comp_list, &ctx->iopoll_list);
1390
1391         if (unlikely(needs_lock)) {
1392                 /*
1393                  * If IORING_SETUP_SQPOLL is enabled, sqes are either handle
1394                  * in sq thread task context or in io worker task context. If
1395                  * current task context is sq thread, we don't need to check
1396                  * whether should wake up sq thread.
1397                  */
1398                 if ((ctx->flags & IORING_SETUP_SQPOLL) &&
1399                     wq_has_sleeper(&ctx->sq_data->wait))
1400                         wake_up(&ctx->sq_data->wait);
1401
1402                 mutex_unlock(&ctx->uring_lock);
1403         }
1404 }
1405
1406 static bool io_bdev_nowait(struct block_device *bdev)
1407 {
1408         return !bdev || blk_queue_nowait(bdev_get_queue(bdev));
1409 }
1410
1411 /*
1412  * If we tracked the file through the SCM inflight mechanism, we could support
1413  * any file. For now, just ensure that anything potentially problematic is done
1414  * inline.
1415  */
1416 static bool __io_file_supports_nowait(struct file *file, umode_t mode)
1417 {
1418         if (S_ISBLK(mode)) {
1419                 if (IS_ENABLED(CONFIG_BLOCK) &&
1420                     io_bdev_nowait(I_BDEV(file->f_mapping->host)))
1421                         return true;
1422                 return false;
1423         }
1424         if (S_ISSOCK(mode))
1425                 return true;
1426         if (S_ISREG(mode)) {
1427                 if (IS_ENABLED(CONFIG_BLOCK) &&
1428                     io_bdev_nowait(file->f_inode->i_sb->s_bdev) &&
1429                     !io_is_uring_fops(file))
1430                         return true;
1431                 return false;
1432         }
1433
1434         /* any ->read/write should understand O_NONBLOCK */
1435         if (file->f_flags & O_NONBLOCK)
1436                 return true;
1437         return file->f_mode & FMODE_NOWAIT;
1438 }
1439
1440 /*
1441  * If we tracked the file through the SCM inflight mechanism, we could support
1442  * any file. For now, just ensure that anything potentially problematic is done
1443  * inline.
1444  */
1445 unsigned int io_file_get_flags(struct file *file)
1446 {
1447         umode_t mode = file_inode(file)->i_mode;
1448         unsigned int res = 0;
1449
1450         if (S_ISREG(mode))
1451                 res |= FFS_ISREG;
1452         if (__io_file_supports_nowait(file, mode))
1453                 res |= FFS_NOWAIT;
1454         if (io_file_need_scm(file))
1455                 res |= FFS_SCM;
1456         return res;
1457 }
1458
1459 bool io_alloc_async_data(struct io_kiocb *req)
1460 {
1461         WARN_ON_ONCE(!io_op_defs[req->opcode].async_size);
1462         req->async_data = kmalloc(io_op_defs[req->opcode].async_size, GFP_KERNEL);
1463         if (req->async_data) {
1464                 req->flags |= REQ_F_ASYNC_DATA;
1465                 return false;
1466         }
1467         return true;
1468 }
1469
1470 int io_req_prep_async(struct io_kiocb *req)
1471 {
1472         const struct io_op_def *def = &io_op_defs[req->opcode];
1473
1474         /* assign early for deferred execution for non-fixed file */
1475         if (def->needs_file && !(req->flags & REQ_F_FIXED_FILE))
1476                 req->file = io_file_get_normal(req, req->cqe.fd);
1477         if (!def->prep_async)
1478                 return 0;
1479         if (WARN_ON_ONCE(req_has_async_data(req)))
1480                 return -EFAULT;
1481         if (io_alloc_async_data(req))
1482                 return -EAGAIN;
1483
1484         return def->prep_async(req);
1485 }
1486
1487 static u32 io_get_sequence(struct io_kiocb *req)
1488 {
1489         u32 seq = req->ctx->cached_sq_head;
1490         struct io_kiocb *cur;
1491
1492         /* need original cached_sq_head, but it was increased for each req */
1493         io_for_each_link(cur, req)
1494                 seq--;
1495         return seq;
1496 }
1497
1498 static __cold void io_drain_req(struct io_kiocb *req)
1499 {
1500         struct io_ring_ctx *ctx = req->ctx;
1501         struct io_defer_entry *de;
1502         int ret;
1503         u32 seq = io_get_sequence(req);
1504
1505         /* Still need defer if there is pending req in defer list. */
1506         spin_lock(&ctx->completion_lock);
1507         if (!req_need_defer(req, seq) && list_empty_careful(&ctx->defer_list)) {
1508                 spin_unlock(&ctx->completion_lock);
1509 queue:
1510                 ctx->drain_active = false;
1511                 io_req_task_queue(req);
1512                 return;
1513         }
1514         spin_unlock(&ctx->completion_lock);
1515
1516         ret = io_req_prep_async(req);
1517         if (ret) {
1518 fail:
1519                 io_req_complete_failed(req, ret);
1520                 return;
1521         }
1522         io_prep_async_link(req);
1523         de = kmalloc(sizeof(*de), GFP_KERNEL);
1524         if (!de) {
1525                 ret = -ENOMEM;
1526                 goto fail;
1527         }
1528
1529         spin_lock(&ctx->completion_lock);
1530         if (!req_need_defer(req, seq) && list_empty(&ctx->defer_list)) {
1531                 spin_unlock(&ctx->completion_lock);
1532                 kfree(de);
1533                 goto queue;
1534         }
1535
1536         trace_io_uring_defer(ctx, req, req->cqe.user_data, req->opcode);
1537         de->req = req;
1538         de->seq = seq;
1539         list_add_tail(&de->list, &ctx->defer_list);
1540         spin_unlock(&ctx->completion_lock);
1541 }
1542
1543 static void io_clean_op(struct io_kiocb *req)
1544 {
1545         if (req->flags & REQ_F_BUFFER_SELECTED) {
1546                 spin_lock(&req->ctx->completion_lock);
1547                 io_put_kbuf_comp(req);
1548                 spin_unlock(&req->ctx->completion_lock);
1549         }
1550
1551         if (req->flags & REQ_F_NEED_CLEANUP) {
1552                 const struct io_op_def *def = &io_op_defs[req->opcode];
1553
1554                 if (def->cleanup)
1555                         def->cleanup(req);
1556         }
1557         if ((req->flags & REQ_F_POLLED) && req->apoll) {
1558                 kfree(req->apoll->double_poll);
1559                 kfree(req->apoll);
1560                 req->apoll = NULL;
1561         }
1562         if (req->flags & REQ_F_INFLIGHT) {
1563                 struct io_uring_task *tctx = req->task->io_uring;
1564
1565                 atomic_dec(&tctx->inflight_tracked);
1566         }
1567         if (req->flags & REQ_F_CREDS)
1568                 put_cred(req->creds);
1569         if (req->flags & REQ_F_ASYNC_DATA) {
1570                 kfree(req->async_data);
1571                 req->async_data = NULL;
1572         }
1573         req->flags &= ~IO_REQ_CLEAN_FLAGS;
1574 }
1575
1576 static bool io_assign_file(struct io_kiocb *req, unsigned int issue_flags)
1577 {
1578         if (req->file || !io_op_defs[req->opcode].needs_file)
1579                 return true;
1580
1581         if (req->flags & REQ_F_FIXED_FILE)
1582                 req->file = io_file_get_fixed(req, req->cqe.fd, issue_flags);
1583         else
1584                 req->file = io_file_get_normal(req, req->cqe.fd);
1585
1586         return !!req->file;
1587 }
1588
1589 static int io_issue_sqe(struct io_kiocb *req, unsigned int issue_flags)
1590 {
1591         const struct io_op_def *def = &io_op_defs[req->opcode];
1592         const struct cred *creds = NULL;
1593         int ret;
1594
1595         if (unlikely(!io_assign_file(req, issue_flags)))
1596                 return -EBADF;
1597
1598         if (unlikely((req->flags & REQ_F_CREDS) && req->creds != current_cred()))
1599                 creds = override_creds(req->creds);
1600
1601         if (!def->audit_skip)
1602                 audit_uring_entry(req->opcode);
1603
1604         ret = def->issue(req, issue_flags);
1605
1606         if (!def->audit_skip)
1607                 audit_uring_exit(!ret, ret);
1608
1609         if (creds)
1610                 revert_creds(creds);
1611
1612         if (ret == IOU_OK) {
1613                 if (issue_flags & IO_URING_F_COMPLETE_DEFER)
1614                         io_req_add_compl_list(req);
1615                 else
1616                         io_req_complete_post(req);
1617         } else if (ret != IOU_ISSUE_SKIP_COMPLETE)
1618                 return ret;
1619
1620         /* If the op doesn't have a file, we're not polling for it */
1621         if ((req->ctx->flags & IORING_SETUP_IOPOLL) && req->file)
1622                 io_iopoll_req_issued(req, issue_flags);
1623
1624         return 0;
1625 }
1626
1627 int io_poll_issue(struct io_kiocb *req, bool *locked)
1628 {
1629         io_tw_lock(req->ctx, locked);
1630         if (unlikely(req->task->flags & PF_EXITING))
1631                 return -EFAULT;
1632         return io_issue_sqe(req, IO_URING_F_NONBLOCK);
1633 }
1634
1635 struct io_wq_work *io_wq_free_work(struct io_wq_work *work)
1636 {
1637         struct io_kiocb *req = container_of(work, struct io_kiocb, work);
1638
1639         req = io_put_req_find_next(req);
1640         return req ? &req->work : NULL;
1641 }
1642
1643 void io_wq_submit_work(struct io_wq_work *work)
1644 {
1645         struct io_kiocb *req = container_of(work, struct io_kiocb, work);
1646         const struct io_op_def *def = &io_op_defs[req->opcode];
1647         unsigned int issue_flags = IO_URING_F_UNLOCKED;
1648         bool needs_poll = false;
1649         int ret = 0, err = -ECANCELED;
1650
1651         /* one will be dropped by ->io_free_work() after returning to io-wq */
1652         if (!(req->flags & REQ_F_REFCOUNT))
1653                 __io_req_set_refcount(req, 2);
1654         else
1655                 req_ref_get(req);
1656
1657         io_arm_ltimeout(req);
1658
1659         /* either cancelled or io-wq is dying, so don't touch tctx->iowq */
1660         if (work->flags & IO_WQ_WORK_CANCEL) {
1661 fail:
1662                 io_req_task_queue_fail(req, err);
1663                 return;
1664         }
1665         if (!io_assign_file(req, issue_flags)) {
1666                 err = -EBADF;
1667                 work->flags |= IO_WQ_WORK_CANCEL;
1668                 goto fail;
1669         }
1670
1671         if (req->flags & REQ_F_FORCE_ASYNC) {
1672                 bool opcode_poll = def->pollin || def->pollout;
1673
1674                 if (opcode_poll && file_can_poll(req->file)) {
1675                         needs_poll = true;
1676                         issue_flags |= IO_URING_F_NONBLOCK;
1677                 }
1678         }
1679
1680         do {
1681                 ret = io_issue_sqe(req, issue_flags);
1682                 if (ret != -EAGAIN)
1683                         break;
1684                 /*
1685                  * We can get EAGAIN for iopolled IO even though we're
1686                  * forcing a sync submission from here, since we can't
1687                  * wait for request slots on the block side.
1688                  */
1689                 if (!needs_poll) {
1690                         if (!(req->ctx->flags & IORING_SETUP_IOPOLL))
1691                                 break;
1692                         cond_resched();
1693                         continue;
1694                 }
1695
1696                 if (io_arm_poll_handler(req, issue_flags) == IO_APOLL_OK)
1697                         return;
1698                 /* aborted or ready, in either case retry blocking */
1699                 needs_poll = false;
1700                 issue_flags &= ~IO_URING_F_NONBLOCK;
1701         } while (1);
1702
1703         /* avoid locking problems by failing it from a clean context */
1704         if (ret < 0)
1705                 io_req_task_queue_fail(req, ret);
1706 }
1707
1708 inline struct file *io_file_get_fixed(struct io_kiocb *req, int fd,
1709                                       unsigned int issue_flags)
1710 {
1711         struct io_ring_ctx *ctx = req->ctx;
1712         struct file *file = NULL;
1713         unsigned long file_ptr;
1714
1715         io_ring_submit_lock(ctx, issue_flags);
1716
1717         if (unlikely((unsigned int)fd >= ctx->nr_user_files))
1718                 goto out;
1719         fd = array_index_nospec(fd, ctx->nr_user_files);
1720         file_ptr = io_fixed_file_slot(&ctx->file_table, fd)->file_ptr;
1721         file = (struct file *) (file_ptr & FFS_MASK);
1722         file_ptr &= ~FFS_MASK;
1723         /* mask in overlapping REQ_F and FFS bits */
1724         req->flags |= (file_ptr << REQ_F_SUPPORT_NOWAIT_BIT);
1725         io_req_set_rsrc_node(req, ctx, 0);
1726         WARN_ON_ONCE(file && !test_bit(fd, ctx->file_table.bitmap));
1727 out:
1728         io_ring_submit_unlock(ctx, issue_flags);
1729         return file;
1730 }
1731
1732 struct file *io_file_get_normal(struct io_kiocb *req, int fd)
1733 {
1734         struct file *file = fget(fd);
1735
1736         trace_io_uring_file_get(req->ctx, req, req->cqe.user_data, fd);
1737
1738         /* we don't allow fixed io_uring files */
1739         if (file && io_is_uring_fops(file))
1740                 io_req_track_inflight(req);
1741         return file;
1742 }
1743
1744 static void io_queue_async(struct io_kiocb *req, int ret)
1745         __must_hold(&req->ctx->uring_lock)
1746 {
1747         struct io_kiocb *linked_timeout;
1748
1749         if (ret != -EAGAIN || (req->flags & REQ_F_NOWAIT)) {
1750                 io_req_complete_failed(req, ret);
1751                 return;
1752         }
1753
1754         linked_timeout = io_prep_linked_timeout(req);
1755
1756         switch (io_arm_poll_handler(req, 0)) {
1757         case IO_APOLL_READY:
1758                 io_req_task_queue(req);
1759                 break;
1760         case IO_APOLL_ABORTED:
1761                 /*
1762                  * Queued up for async execution, worker will release
1763                  * submit reference when the iocb is actually submitted.
1764                  */
1765                 io_kbuf_recycle(req, 0);
1766                 io_queue_iowq(req, NULL);
1767                 break;
1768         case IO_APOLL_OK:
1769                 break;
1770         }
1771
1772         if (linked_timeout)
1773                 io_queue_linked_timeout(linked_timeout);
1774 }
1775
1776 static inline void io_queue_sqe(struct io_kiocb *req)
1777         __must_hold(&req->ctx->uring_lock)
1778 {
1779         int ret;
1780
1781         ret = io_issue_sqe(req, IO_URING_F_NONBLOCK|IO_URING_F_COMPLETE_DEFER);
1782
1783         /*
1784          * We async punt it if the file wasn't marked NOWAIT, or if the file
1785          * doesn't support non-blocking read/write attempts
1786          */
1787         if (likely(!ret))
1788                 io_arm_ltimeout(req);
1789         else
1790                 io_queue_async(req, ret);
1791 }
1792
1793 static void io_queue_sqe_fallback(struct io_kiocb *req)
1794         __must_hold(&req->ctx->uring_lock)
1795 {
1796         if (unlikely(req->flags & REQ_F_FAIL)) {
1797                 /*
1798                  * We don't submit, fail them all, for that replace hardlinks
1799                  * with normal links. Extra REQ_F_LINK is tolerated.
1800                  */
1801                 req->flags &= ~REQ_F_HARDLINK;
1802                 req->flags |= REQ_F_LINK;
1803                 io_req_complete_failed(req, req->cqe.res);
1804         } else if (unlikely(req->ctx->drain_active)) {
1805                 io_drain_req(req);
1806         } else {
1807                 int ret = io_req_prep_async(req);
1808
1809                 if (unlikely(ret))
1810                         io_req_complete_failed(req, ret);
1811                 else
1812                         io_queue_iowq(req, NULL);
1813         }
1814 }
1815
1816 /*
1817  * Check SQE restrictions (opcode and flags).
1818  *
1819  * Returns 'true' if SQE is allowed, 'false' otherwise.
1820  */
1821 static inline bool io_check_restriction(struct io_ring_ctx *ctx,
1822                                         struct io_kiocb *req,
1823                                         unsigned int sqe_flags)
1824 {
1825         if (!test_bit(req->opcode, ctx->restrictions.sqe_op))
1826                 return false;
1827
1828         if ((sqe_flags & ctx->restrictions.sqe_flags_required) !=
1829             ctx->restrictions.sqe_flags_required)
1830                 return false;
1831
1832         if (sqe_flags & ~(ctx->restrictions.sqe_flags_allowed |
1833                           ctx->restrictions.sqe_flags_required))
1834                 return false;
1835
1836         return true;
1837 }
1838
1839 static void io_init_req_drain(struct io_kiocb *req)
1840 {
1841         struct io_ring_ctx *ctx = req->ctx;
1842         struct io_kiocb *head = ctx->submit_state.link.head;
1843
1844         ctx->drain_active = true;
1845         if (head) {
1846                 /*
1847                  * If we need to drain a request in the middle of a link, drain
1848                  * the head request and the next request/link after the current
1849                  * link. Considering sequential execution of links,
1850                  * REQ_F_IO_DRAIN will be maintained for every request of our
1851                  * link.
1852                  */
1853                 head->flags |= REQ_F_IO_DRAIN | REQ_F_FORCE_ASYNC;
1854                 ctx->drain_next = true;
1855         }
1856 }
1857
1858 static int io_init_req(struct io_ring_ctx *ctx, struct io_kiocb *req,
1859                        const struct io_uring_sqe *sqe)
1860         __must_hold(&ctx->uring_lock)
1861 {
1862         const struct io_op_def *def;
1863         unsigned int sqe_flags;
1864         int personality;
1865         u8 opcode;
1866
1867         /* req is partially pre-initialised, see io_preinit_req() */
1868         req->opcode = opcode = READ_ONCE(sqe->opcode);
1869         /* same numerical values with corresponding REQ_F_*, safe to copy */
1870         req->flags = sqe_flags = READ_ONCE(sqe->flags);
1871         req->cqe.user_data = READ_ONCE(sqe->user_data);
1872         req->file = NULL;
1873         req->rsrc_node = NULL;
1874         req->task = current;
1875
1876         if (unlikely(opcode >= IORING_OP_LAST)) {
1877                 req->opcode = 0;
1878                 return -EINVAL;
1879         }
1880         def = &io_op_defs[opcode];
1881         if (unlikely(sqe_flags & ~SQE_COMMON_FLAGS)) {
1882                 /* enforce forwards compatibility on users */
1883                 if (sqe_flags & ~SQE_VALID_FLAGS)
1884                         return -EINVAL;
1885                 if (sqe_flags & IOSQE_BUFFER_SELECT) {
1886                         if (!def->buffer_select)
1887                                 return -EOPNOTSUPP;
1888                         req->buf_index = READ_ONCE(sqe->buf_group);
1889                 }
1890                 if (sqe_flags & IOSQE_CQE_SKIP_SUCCESS)
1891                         ctx->drain_disabled = true;
1892                 if (sqe_flags & IOSQE_IO_DRAIN) {
1893                         if (ctx->drain_disabled)
1894                                 return -EOPNOTSUPP;
1895                         io_init_req_drain(req);
1896                 }
1897         }
1898         if (unlikely(ctx->restricted || ctx->drain_active || ctx->drain_next)) {
1899                 if (ctx->restricted && !io_check_restriction(ctx, req, sqe_flags))
1900                         return -EACCES;
1901                 /* knock it to the slow queue path, will be drained there */
1902                 if (ctx->drain_active)
1903                         req->flags |= REQ_F_FORCE_ASYNC;
1904                 /* if there is no link, we're at "next" request and need to drain */
1905                 if (unlikely(ctx->drain_next) && !ctx->submit_state.link.head) {
1906                         ctx->drain_next = false;
1907                         ctx->drain_active = true;
1908                         req->flags |= REQ_F_IO_DRAIN | REQ_F_FORCE_ASYNC;
1909                 }
1910         }
1911
1912         if (!def->ioprio && sqe->ioprio)
1913                 return -EINVAL;
1914         if (!def->iopoll && (ctx->flags & IORING_SETUP_IOPOLL))
1915                 return -EINVAL;
1916
1917         if (def->needs_file) {
1918                 struct io_submit_state *state = &ctx->submit_state;
1919
1920                 req->cqe.fd = READ_ONCE(sqe->fd);
1921
1922                 /*
1923                  * Plug now if we have more than 2 IO left after this, and the
1924                  * target is potentially a read/write to block based storage.
1925                  */
1926                 if (state->need_plug && def->plug) {
1927                         state->plug_started = true;
1928                         state->need_plug = false;
1929                         blk_start_plug_nr_ios(&state->plug, state->submit_nr);
1930                 }
1931         }
1932
1933         personality = READ_ONCE(sqe->personality);
1934         if (personality) {
1935                 int ret;
1936
1937                 req->creds = xa_load(&ctx->personalities, personality);
1938                 if (!req->creds)
1939                         return -EINVAL;
1940                 get_cred(req->creds);
1941                 ret = security_uring_override_creds(req->creds);
1942                 if (ret) {
1943                         put_cred(req->creds);
1944                         return ret;
1945                 }
1946                 req->flags |= REQ_F_CREDS;
1947         }
1948
1949         return def->prep(req, sqe);
1950 }
1951
1952 static __cold int io_submit_fail_init(const struct io_uring_sqe *sqe,
1953                                       struct io_kiocb *req, int ret)
1954 {
1955         struct io_ring_ctx *ctx = req->ctx;
1956         struct io_submit_link *link = &ctx->submit_state.link;
1957         struct io_kiocb *head = link->head;
1958
1959         trace_io_uring_req_failed(sqe, ctx, req, ret);
1960
1961         /*
1962          * Avoid breaking links in the middle as it renders links with SQPOLL
1963          * unusable. Instead of failing eagerly, continue assembling the link if
1964          * applicable and mark the head with REQ_F_FAIL. The link flushing code
1965          * should find the flag and handle the rest.
1966          */
1967         req_fail_link_node(req, ret);
1968         if (head && !(head->flags & REQ_F_FAIL))
1969                 req_fail_link_node(head, -ECANCELED);
1970
1971         if (!(req->flags & IO_REQ_LINK_FLAGS)) {
1972                 if (head) {
1973                         link->last->link = req;
1974                         link->head = NULL;
1975                         req = head;
1976                 }
1977                 io_queue_sqe_fallback(req);
1978                 return ret;
1979         }
1980
1981         if (head)
1982                 link->last->link = req;
1983         else
1984                 link->head = req;
1985         link->last = req;
1986         return 0;
1987 }
1988
1989 static inline int io_submit_sqe(struct io_ring_ctx *ctx, struct io_kiocb *req,
1990                          const struct io_uring_sqe *sqe)
1991         __must_hold(&ctx->uring_lock)
1992 {
1993         struct io_submit_link *link = &ctx->submit_state.link;
1994         int ret;
1995
1996         ret = io_init_req(ctx, req, sqe);
1997         if (unlikely(ret))
1998                 return io_submit_fail_init(sqe, req, ret);
1999
2000         /* don't need @sqe from now on */
2001         trace_io_uring_submit_sqe(ctx, req, req->cqe.user_data, req->opcode,
2002                                   req->flags, true,
2003                                   ctx->flags & IORING_SETUP_SQPOLL);
2004
2005         /*
2006          * If we already have a head request, queue this one for async
2007          * submittal once the head completes. If we don't have a head but
2008          * IOSQE_IO_LINK is set in the sqe, start a new head. This one will be
2009          * submitted sync once the chain is complete. If none of those
2010          * conditions are true (normal request), then just queue it.
2011          */
2012         if (unlikely(link->head)) {
2013                 ret = io_req_prep_async(req);
2014                 if (unlikely(ret))
2015                         return io_submit_fail_init(sqe, req, ret);
2016
2017                 trace_io_uring_link(ctx, req, link->head);
2018                 link->last->link = req;
2019                 link->last = req;
2020
2021                 if (req->flags & IO_REQ_LINK_FLAGS)
2022                         return 0;
2023                 /* last request of the link, flush it */
2024                 req = link->head;
2025                 link->head = NULL;
2026                 if (req->flags & (REQ_F_FORCE_ASYNC | REQ_F_FAIL))
2027                         goto fallback;
2028
2029         } else if (unlikely(req->flags & (IO_REQ_LINK_FLAGS |
2030                                           REQ_F_FORCE_ASYNC | REQ_F_FAIL))) {
2031                 if (req->flags & IO_REQ_LINK_FLAGS) {
2032                         link->head = req;
2033                         link->last = req;
2034                 } else {
2035 fallback:
2036                         io_queue_sqe_fallback(req);
2037                 }
2038                 return 0;
2039         }
2040
2041         io_queue_sqe(req);
2042         return 0;
2043 }
2044
2045 /*
2046  * Batched submission is done, ensure local IO is flushed out.
2047  */
2048 static void io_submit_state_end(struct io_ring_ctx *ctx)
2049 {
2050         struct io_submit_state *state = &ctx->submit_state;
2051
2052         if (unlikely(state->link.head))
2053                 io_queue_sqe_fallback(state->link.head);
2054         /* flush only after queuing links as they can generate completions */
2055         io_submit_flush_completions(ctx);
2056         if (state->plug_started)
2057                 blk_finish_plug(&state->plug);
2058 }
2059
2060 /*
2061  * Start submission side cache.
2062  */
2063 static void io_submit_state_start(struct io_submit_state *state,
2064                                   unsigned int max_ios)
2065 {
2066         state->plug_started = false;
2067         state->need_plug = max_ios > 2;
2068         state->submit_nr = max_ios;
2069         /* set only head, no need to init link_last in advance */
2070         state->link.head = NULL;
2071 }
2072
2073 static void io_commit_sqring(struct io_ring_ctx *ctx)
2074 {
2075         struct io_rings *rings = ctx->rings;
2076
2077         /*
2078          * Ensure any loads from the SQEs are done at this point,
2079          * since once we write the new head, the application could
2080          * write new data to them.
2081          */
2082         smp_store_release(&rings->sq.head, ctx->cached_sq_head);
2083 }
2084
2085 /*
2086  * Fetch an sqe, if one is available. Note this returns a pointer to memory
2087  * that is mapped by userspace. This means that care needs to be taken to
2088  * ensure that reads are stable, as we cannot rely on userspace always
2089  * being a good citizen. If members of the sqe are validated and then later
2090  * used, it's important that those reads are done through READ_ONCE() to
2091  * prevent a re-load down the line.
2092  */
2093 static const struct io_uring_sqe *io_get_sqe(struct io_ring_ctx *ctx)
2094 {
2095         unsigned head, mask = ctx->sq_entries - 1;
2096         unsigned sq_idx = ctx->cached_sq_head++ & mask;
2097
2098         /*
2099          * The cached sq head (or cq tail) serves two purposes:
2100          *
2101          * 1) allows us to batch the cost of updating the user visible
2102          *    head updates.
2103          * 2) allows the kernel side to track the head on its own, even
2104          *    though the application is the one updating it.
2105          */
2106         head = READ_ONCE(ctx->sq_array[sq_idx]);
2107         if (likely(head < ctx->sq_entries)) {
2108                 /* double index for 128-byte SQEs, twice as long */
2109                 if (ctx->flags & IORING_SETUP_SQE128)
2110                         head <<= 1;
2111                 return &ctx->sq_sqes[head];
2112         }
2113
2114         /* drop invalid entries */
2115         ctx->cq_extra--;
2116         WRITE_ONCE(ctx->rings->sq_dropped,
2117                    READ_ONCE(ctx->rings->sq_dropped) + 1);
2118         return NULL;
2119 }
2120
2121 int io_submit_sqes(struct io_ring_ctx *ctx, unsigned int nr)
2122         __must_hold(&ctx->uring_lock)
2123 {
2124         unsigned int entries = io_sqring_entries(ctx);
2125         unsigned int left;
2126         int ret;
2127
2128         if (unlikely(!entries))
2129                 return 0;
2130         /* make sure SQ entry isn't read before tail */
2131         ret = left = min3(nr, ctx->sq_entries, entries);
2132         io_get_task_refs(left);
2133         io_submit_state_start(&ctx->submit_state, left);
2134
2135         do {
2136                 const struct io_uring_sqe *sqe;
2137                 struct io_kiocb *req;
2138
2139                 if (unlikely(!io_alloc_req_refill(ctx)))
2140                         break;
2141                 req = io_alloc_req(ctx);
2142                 sqe = io_get_sqe(ctx);
2143                 if (unlikely(!sqe)) {
2144                         io_req_add_to_cache(req, ctx);
2145                         break;
2146                 }
2147
2148                 /*
2149                  * Continue submitting even for sqe failure if the
2150                  * ring was setup with IORING_SETUP_SUBMIT_ALL
2151                  */
2152                 if (unlikely(io_submit_sqe(ctx, req, sqe)) &&
2153                     !(ctx->flags & IORING_SETUP_SUBMIT_ALL)) {
2154                         left--;
2155                         break;
2156                 }
2157         } while (--left);
2158
2159         if (unlikely(left)) {
2160                 ret -= left;
2161                 /* try again if it submitted nothing and can't allocate a req */
2162                 if (!ret && io_req_cache_empty(ctx))
2163                         ret = -EAGAIN;
2164                 current->io_uring->cached_refs += left;
2165         }
2166
2167         io_submit_state_end(ctx);
2168          /* Commit SQ ring head once we've consumed and submitted all SQEs */
2169         io_commit_sqring(ctx);
2170         return ret;
2171 }
2172
2173 struct io_wait_queue {
2174         struct wait_queue_entry wq;
2175         struct io_ring_ctx *ctx;
2176         unsigned cq_tail;
2177         unsigned nr_timeouts;
2178 };
2179
2180 static inline bool io_should_wake(struct io_wait_queue *iowq)
2181 {
2182         struct io_ring_ctx *ctx = iowq->ctx;
2183         int dist = ctx->cached_cq_tail - (int) iowq->cq_tail;
2184
2185         /*
2186          * Wake up if we have enough events, or if a timeout occurred since we
2187          * started waiting. For timeouts, we always want to return to userspace,
2188          * regardless of event count.
2189          */
2190         return dist >= 0 || atomic_read(&ctx->cq_timeouts) != iowq->nr_timeouts;
2191 }
2192
2193 static int io_wake_function(struct wait_queue_entry *curr, unsigned int mode,
2194                             int wake_flags, void *key)
2195 {
2196         struct io_wait_queue *iowq = container_of(curr, struct io_wait_queue,
2197                                                         wq);
2198
2199         /*
2200          * Cannot safely flush overflowed CQEs from here, ensure we wake up
2201          * the task, and the next invocation will do it.
2202          */
2203         if (io_should_wake(iowq) ||
2204             test_bit(IO_CHECK_CQ_OVERFLOW_BIT, &iowq->ctx->check_cq))
2205                 return autoremove_wake_function(curr, mode, wake_flags, key);
2206         return -1;
2207 }
2208
2209 int io_run_task_work_sig(void)
2210 {
2211         if (io_run_task_work())
2212                 return 1;
2213         if (test_thread_flag(TIF_NOTIFY_SIGNAL))
2214                 return -ERESTARTSYS;
2215         if (task_sigpending(current))
2216                 return -EINTR;
2217         return 0;
2218 }
2219
2220 /* when returns >0, the caller should retry */
2221 static inline int io_cqring_wait_schedule(struct io_ring_ctx *ctx,
2222                                           struct io_wait_queue *iowq,
2223                                           ktime_t timeout)
2224 {
2225         int ret;
2226         unsigned long check_cq;
2227
2228         /* make sure we run task_work before checking for signals */
2229         ret = io_run_task_work_sig();
2230         if (ret || io_should_wake(iowq))
2231                 return ret;
2232
2233         check_cq = READ_ONCE(ctx->check_cq);
2234         if (unlikely(check_cq)) {
2235                 /* let the caller flush overflows, retry */
2236                 if (check_cq & BIT(IO_CHECK_CQ_OVERFLOW_BIT))
2237                         return 1;
2238                 if (check_cq & BIT(IO_CHECK_CQ_DROPPED_BIT))
2239                         return -EBADR;
2240         }
2241         if (!schedule_hrtimeout(&timeout, HRTIMER_MODE_ABS))
2242                 return -ETIME;
2243         return 1;
2244 }
2245
2246 /*
2247  * Wait until events become available, if we don't already have some. The
2248  * application must reap them itself, as they reside on the shared cq ring.
2249  */
2250 static int io_cqring_wait(struct io_ring_ctx *ctx, int min_events,
2251                           const sigset_t __user *sig, size_t sigsz,
2252                           struct __kernel_timespec __user *uts)
2253 {
2254         struct io_wait_queue iowq;
2255         struct io_rings *rings = ctx->rings;
2256         ktime_t timeout = KTIME_MAX;
2257         int ret;
2258
2259         do {
2260                 io_cqring_overflow_flush(ctx);
2261                 if (io_cqring_events(ctx) >= min_events)
2262                         return 0;
2263                 if (!io_run_task_work())
2264                         break;
2265         } while (1);
2266
2267         if (sig) {
2268 #ifdef CONFIG_COMPAT
2269                 if (in_compat_syscall())
2270                         ret = set_compat_user_sigmask((const compat_sigset_t __user *)sig,
2271                                                       sigsz);
2272                 else
2273 #endif
2274                         ret = set_user_sigmask(sig, sigsz);
2275
2276                 if (ret)
2277                         return ret;
2278         }
2279
2280         if (uts) {
2281                 struct timespec64 ts;
2282
2283                 if (get_timespec64(&ts, uts))
2284                         return -EFAULT;
2285                 timeout = ktime_add_ns(timespec64_to_ktime(ts), ktime_get_ns());
2286         }
2287
2288         init_waitqueue_func_entry(&iowq.wq, io_wake_function);
2289         iowq.wq.private = current;
2290         INIT_LIST_HEAD(&iowq.wq.entry);
2291         iowq.ctx = ctx;
2292         iowq.nr_timeouts = atomic_read(&ctx->cq_timeouts);
2293         iowq.cq_tail = READ_ONCE(ctx->rings->cq.head) + min_events;
2294
2295         trace_io_uring_cqring_wait(ctx, min_events);
2296         do {
2297                 /* if we can't even flush overflow, don't wait for more */
2298                 if (!io_cqring_overflow_flush(ctx)) {
2299                         ret = -EBUSY;
2300                         break;
2301                 }
2302                 prepare_to_wait_exclusive(&ctx->cq_wait, &iowq.wq,
2303                                                 TASK_INTERRUPTIBLE);
2304                 ret = io_cqring_wait_schedule(ctx, &iowq, timeout);
2305                 cond_resched();
2306         } while (ret > 0);
2307
2308         finish_wait(&ctx->cq_wait, &iowq.wq);
2309         restore_saved_sigmask_unless(ret == -EINTR);
2310
2311         return READ_ONCE(rings->cq.head) == READ_ONCE(rings->cq.tail) ? ret : 0;
2312 }
2313
2314 static void io_mem_free(void *ptr)
2315 {
2316         struct page *page;
2317
2318         if (!ptr)
2319                 return;
2320
2321         page = virt_to_head_page(ptr);
2322         if (put_page_testzero(page))
2323                 free_compound_page(page);
2324 }
2325
2326 static void *io_mem_alloc(size_t size)
2327 {
2328         gfp_t gfp = GFP_KERNEL_ACCOUNT | __GFP_ZERO | __GFP_NOWARN | __GFP_COMP;
2329
2330         return (void *) __get_free_pages(gfp, get_order(size));
2331 }
2332
2333 static unsigned long rings_size(struct io_ring_ctx *ctx, unsigned int sq_entries,
2334                                 unsigned int cq_entries, size_t *sq_offset)
2335 {
2336         struct io_rings *rings;
2337         size_t off, sq_array_size;
2338
2339         off = struct_size(rings, cqes, cq_entries);
2340         if (off == SIZE_MAX)
2341                 return SIZE_MAX;
2342         if (ctx->flags & IORING_SETUP_CQE32) {
2343                 if (check_shl_overflow(off, 1, &off))
2344                         return SIZE_MAX;
2345         }
2346
2347 #ifdef CONFIG_SMP
2348         off = ALIGN(off, SMP_CACHE_BYTES);
2349         if (off == 0)
2350                 return SIZE_MAX;
2351 #endif
2352
2353         if (sq_offset)
2354                 *sq_offset = off;
2355
2356         sq_array_size = array_size(sizeof(u32), sq_entries);
2357         if (sq_array_size == SIZE_MAX)
2358                 return SIZE_MAX;
2359
2360         if (check_add_overflow(off, sq_array_size, &off))
2361                 return SIZE_MAX;
2362
2363         return off;
2364 }
2365
2366 static int io_eventfd_register(struct io_ring_ctx *ctx, void __user *arg,
2367                                unsigned int eventfd_async)
2368 {
2369         struct io_ev_fd *ev_fd;
2370         __s32 __user *fds = arg;
2371         int fd;
2372
2373         ev_fd = rcu_dereference_protected(ctx->io_ev_fd,
2374                                         lockdep_is_held(&ctx->uring_lock));
2375         if (ev_fd)
2376                 return -EBUSY;
2377
2378         if (copy_from_user(&fd, fds, sizeof(*fds)))
2379                 return -EFAULT;
2380
2381         ev_fd = kmalloc(sizeof(*ev_fd), GFP_KERNEL);
2382         if (!ev_fd)
2383                 return -ENOMEM;
2384
2385         ev_fd->cq_ev_fd = eventfd_ctx_fdget(fd);
2386         if (IS_ERR(ev_fd->cq_ev_fd)) {
2387                 int ret = PTR_ERR(ev_fd->cq_ev_fd);
2388                 kfree(ev_fd);
2389                 return ret;
2390         }
2391         ev_fd->eventfd_async = eventfd_async;
2392         ctx->has_evfd = true;
2393         rcu_assign_pointer(ctx->io_ev_fd, ev_fd);
2394         return 0;
2395 }
2396
2397 static void io_eventfd_put(struct rcu_head *rcu)
2398 {
2399         struct io_ev_fd *ev_fd = container_of(rcu, struct io_ev_fd, rcu);
2400
2401         eventfd_ctx_put(ev_fd->cq_ev_fd);
2402         kfree(ev_fd);
2403 }
2404
2405 static int io_eventfd_unregister(struct io_ring_ctx *ctx)
2406 {
2407         struct io_ev_fd *ev_fd;
2408
2409         ev_fd = rcu_dereference_protected(ctx->io_ev_fd,
2410                                         lockdep_is_held(&ctx->uring_lock));
2411         if (ev_fd) {
2412                 ctx->has_evfd = false;
2413                 rcu_assign_pointer(ctx->io_ev_fd, NULL);
2414                 call_rcu(&ev_fd->rcu, io_eventfd_put);
2415                 return 0;
2416         }
2417
2418         return -ENXIO;
2419 }
2420
2421 static void io_req_caches_free(struct io_ring_ctx *ctx)
2422 {
2423         struct io_submit_state *state = &ctx->submit_state;
2424         int nr = 0;
2425
2426         mutex_lock(&ctx->uring_lock);
2427         io_flush_cached_locked_reqs(ctx, state);
2428
2429         while (!io_req_cache_empty(ctx)) {
2430                 struct io_wq_work_node *node;
2431                 struct io_kiocb *req;
2432
2433                 node = wq_stack_extract(&state->free_list);
2434                 req = container_of(node, struct io_kiocb, comp_list);
2435                 kmem_cache_free(req_cachep, req);
2436                 nr++;
2437         }
2438         if (nr)
2439                 percpu_ref_put_many(&ctx->refs, nr);
2440         mutex_unlock(&ctx->uring_lock);
2441 }
2442
2443 static void io_flush_apoll_cache(struct io_ring_ctx *ctx)
2444 {
2445         struct async_poll *apoll;
2446
2447         while (!list_empty(&ctx->apoll_cache)) {
2448                 apoll = list_first_entry(&ctx->apoll_cache, struct async_poll,
2449                                                 poll.wait.entry);
2450                 list_del(&apoll->poll.wait.entry);
2451                 kfree(apoll);
2452         }
2453 }
2454
2455 static __cold void io_ring_ctx_free(struct io_ring_ctx *ctx)
2456 {
2457         io_sq_thread_finish(ctx);
2458
2459         if (ctx->mm_account) {
2460                 mmdrop(ctx->mm_account);
2461                 ctx->mm_account = NULL;
2462         }
2463
2464         io_rsrc_refs_drop(ctx);
2465         /* __io_rsrc_put_work() may need uring_lock to progress, wait w/o it */
2466         io_wait_rsrc_data(ctx->buf_data);
2467         io_wait_rsrc_data(ctx->file_data);
2468
2469         mutex_lock(&ctx->uring_lock);
2470         if (ctx->buf_data)
2471                 __io_sqe_buffers_unregister(ctx);
2472         if (ctx->file_data)
2473                 __io_sqe_files_unregister(ctx);
2474         if (ctx->rings)
2475                 __io_cqring_overflow_flush(ctx, true);
2476         io_eventfd_unregister(ctx);
2477         io_flush_apoll_cache(ctx);
2478         mutex_unlock(&ctx->uring_lock);
2479         io_destroy_buffers(ctx);
2480         if (ctx->sq_creds)
2481                 put_cred(ctx->sq_creds);
2482         if (ctx->submitter_task)
2483                 put_task_struct(ctx->submitter_task);
2484
2485         /* there are no registered resources left, nobody uses it */
2486         if (ctx->rsrc_node)
2487                 io_rsrc_node_destroy(ctx->rsrc_node);
2488         if (ctx->rsrc_backup_node)
2489                 io_rsrc_node_destroy(ctx->rsrc_backup_node);
2490         flush_delayed_work(&ctx->rsrc_put_work);
2491         flush_delayed_work(&ctx->fallback_work);
2492
2493         WARN_ON_ONCE(!list_empty(&ctx->rsrc_ref_list));
2494         WARN_ON_ONCE(!llist_empty(&ctx->rsrc_put_llist));
2495
2496 #if defined(CONFIG_UNIX)
2497         if (ctx->ring_sock) {
2498                 ctx->ring_sock->file = NULL; /* so that iput() is called */
2499                 sock_release(ctx->ring_sock);
2500         }
2501 #endif
2502         WARN_ON_ONCE(!list_empty(&ctx->ltimeout_list));
2503
2504         io_mem_free(ctx->rings);
2505         io_mem_free(ctx->sq_sqes);
2506
2507         percpu_ref_exit(&ctx->refs);
2508         free_uid(ctx->user);
2509         io_req_caches_free(ctx);
2510         if (ctx->hash_map)
2511                 io_wq_put_hash(ctx->hash_map);
2512         kfree(ctx->cancel_table.hbs);
2513         kfree(ctx->cancel_table_locked.hbs);
2514         kfree(ctx->dummy_ubuf);
2515         kfree(ctx->io_bl);
2516         xa_destroy(&ctx->io_bl_xa);
2517         kfree(ctx);
2518 }
2519
2520 static __poll_t io_uring_poll(struct file *file, poll_table *wait)
2521 {
2522         struct io_ring_ctx *ctx = file->private_data;
2523         __poll_t mask = 0;
2524
2525         poll_wait(file, &ctx->cq_wait, wait);
2526         /*
2527          * synchronizes with barrier from wq_has_sleeper call in
2528          * io_commit_cqring
2529          */
2530         smp_rmb();
2531         if (!io_sqring_full(ctx))
2532                 mask |= EPOLLOUT | EPOLLWRNORM;
2533
2534         /*
2535          * Don't flush cqring overflow list here, just do a simple check.
2536          * Otherwise there could possible be ABBA deadlock:
2537          *      CPU0                    CPU1
2538          *      ----                    ----
2539          * lock(&ctx->uring_lock);
2540          *                              lock(&ep->mtx);
2541          *                              lock(&ctx->uring_lock);
2542          * lock(&ep->mtx);
2543          *
2544          * Users may get EPOLLIN meanwhile seeing nothing in cqring, this
2545          * pushs them to do the flush.
2546          */
2547         if (io_cqring_events(ctx) ||
2548             test_bit(IO_CHECK_CQ_OVERFLOW_BIT, &ctx->check_cq))
2549                 mask |= EPOLLIN | EPOLLRDNORM;
2550
2551         return mask;
2552 }
2553
2554 static int io_unregister_personality(struct io_ring_ctx *ctx, unsigned id)
2555 {
2556         const struct cred *creds;
2557
2558         creds = xa_erase(&ctx->personalities, id);
2559         if (creds) {
2560                 put_cred(creds);
2561                 return 0;
2562         }
2563
2564         return -EINVAL;
2565 }
2566
2567 struct io_tctx_exit {
2568         struct callback_head            task_work;
2569         struct completion               completion;
2570         struct io_ring_ctx              *ctx;
2571 };
2572
2573 static __cold void io_tctx_exit_cb(struct callback_head *cb)
2574 {
2575         struct io_uring_task *tctx = current->io_uring;
2576         struct io_tctx_exit *work;
2577
2578         work = container_of(cb, struct io_tctx_exit, task_work);
2579         /*
2580          * When @in_idle, we're in cancellation and it's racy to remove the
2581          * node. It'll be removed by the end of cancellation, just ignore it.
2582          */
2583         if (!atomic_read(&tctx->in_idle))
2584                 io_uring_del_tctx_node((unsigned long)work->ctx);
2585         complete(&work->completion);
2586 }
2587
2588 static __cold bool io_cancel_ctx_cb(struct io_wq_work *work, void *data)
2589 {
2590         struct io_kiocb *req = container_of(work, struct io_kiocb, work);
2591
2592         return req->ctx == data;
2593 }
2594
2595 static __cold void io_ring_exit_work(struct work_struct *work)
2596 {
2597         struct io_ring_ctx *ctx = container_of(work, struct io_ring_ctx, exit_work);
2598         unsigned long timeout = jiffies + HZ * 60 * 5;
2599         unsigned long interval = HZ / 20;
2600         struct io_tctx_exit exit;
2601         struct io_tctx_node *node;
2602         int ret;
2603
2604         /*
2605          * If we're doing polled IO and end up having requests being
2606          * submitted async (out-of-line), then completions can come in while
2607          * we're waiting for refs to drop. We need to reap these manually,
2608          * as nobody else will be looking for them.
2609          */
2610         do {
2611                 io_uring_try_cancel_requests(ctx, NULL, true);
2612                 if (ctx->sq_data) {
2613                         struct io_sq_data *sqd = ctx->sq_data;
2614                         struct task_struct *tsk;
2615
2616                         io_sq_thread_park(sqd);
2617                         tsk = sqd->thread;
2618                         if (tsk && tsk->io_uring && tsk->io_uring->io_wq)
2619                                 io_wq_cancel_cb(tsk->io_uring->io_wq,
2620                                                 io_cancel_ctx_cb, ctx, true);
2621                         io_sq_thread_unpark(sqd);
2622                 }
2623
2624                 io_req_caches_free(ctx);
2625
2626                 if (WARN_ON_ONCE(time_after(jiffies, timeout))) {
2627                         /* there is little hope left, don't run it too often */
2628                         interval = HZ * 60;
2629                 }
2630         } while (!wait_for_completion_timeout(&ctx->ref_comp, interval));
2631
2632         init_completion(&exit.completion);
2633         init_task_work(&exit.task_work, io_tctx_exit_cb);
2634         exit.ctx = ctx;
2635         /*
2636          * Some may use context even when all refs and requests have been put,
2637          * and they are free to do so while still holding uring_lock or
2638          * completion_lock, see io_req_task_submit(). Apart from other work,
2639          * this lock/unlock section also waits them to finish.
2640          */
2641         mutex_lock(&ctx->uring_lock);
2642         while (!list_empty(&ctx->tctx_list)) {
2643                 WARN_ON_ONCE(time_after(jiffies, timeout));
2644
2645                 node = list_first_entry(&ctx->tctx_list, struct io_tctx_node,
2646                                         ctx_node);
2647                 /* don't spin on a single task if cancellation failed */
2648                 list_rotate_left(&ctx->tctx_list);
2649                 ret = task_work_add(node->task, &exit.task_work, TWA_SIGNAL);
2650                 if (WARN_ON_ONCE(ret))
2651                         continue;
2652
2653                 mutex_unlock(&ctx->uring_lock);
2654                 wait_for_completion(&exit.completion);
2655                 mutex_lock(&ctx->uring_lock);
2656         }
2657         mutex_unlock(&ctx->uring_lock);
2658         spin_lock(&ctx->completion_lock);
2659         spin_unlock(&ctx->completion_lock);
2660
2661         io_ring_ctx_free(ctx);
2662 }
2663
2664 static __cold void io_ring_ctx_wait_and_kill(struct io_ring_ctx *ctx)
2665 {
2666         unsigned long index;
2667         struct creds *creds;
2668
2669         mutex_lock(&ctx->uring_lock);
2670         percpu_ref_kill(&ctx->refs);
2671         if (ctx->rings)
2672                 __io_cqring_overflow_flush(ctx, true);
2673         xa_for_each(&ctx->personalities, index, creds)
2674                 io_unregister_personality(ctx, index);
2675         if (ctx->rings)
2676                 io_poll_remove_all(ctx, NULL, true);
2677         mutex_unlock(&ctx->uring_lock);
2678
2679         /* failed during ring init, it couldn't have issued any requests */
2680         if (ctx->rings) {
2681                 io_kill_timeouts(ctx, NULL, true);
2682                 /* if we failed setting up the ctx, we might not have any rings */
2683                 io_iopoll_try_reap_events(ctx);
2684         }
2685
2686         INIT_WORK(&ctx->exit_work, io_ring_exit_work);
2687         /*
2688          * Use system_unbound_wq to avoid spawning tons of event kworkers
2689          * if we're exiting a ton of rings at the same time. It just adds
2690          * noise and overhead, there's no discernable change in runtime
2691          * over using system_wq.
2692          */
2693         queue_work(system_unbound_wq, &ctx->exit_work);
2694 }
2695
2696 static int io_uring_release(struct inode *inode, struct file *file)
2697 {
2698         struct io_ring_ctx *ctx = file->private_data;
2699
2700         file->private_data = NULL;
2701         io_ring_ctx_wait_and_kill(ctx);
2702         return 0;
2703 }
2704
2705 struct io_task_cancel {
2706         struct task_struct *task;
2707         bool all;
2708 };
2709
2710 static bool io_cancel_task_cb(struct io_wq_work *work, void *data)
2711 {
2712         struct io_kiocb *req = container_of(work, struct io_kiocb, work);
2713         struct io_task_cancel *cancel = data;
2714
2715         return io_match_task_safe(req, cancel->task, cancel->all);
2716 }
2717
2718 static __cold bool io_cancel_defer_files(struct io_ring_ctx *ctx,
2719                                          struct task_struct *task,
2720                                          bool cancel_all)
2721 {
2722         struct io_defer_entry *de;
2723         LIST_HEAD(list);
2724
2725         spin_lock(&ctx->completion_lock);
2726         list_for_each_entry_reverse(de, &ctx->defer_list, list) {
2727                 if (io_match_task_safe(de->req, task, cancel_all)) {
2728                         list_cut_position(&list, &ctx->defer_list, &de->list);
2729                         break;
2730                 }
2731         }
2732         spin_unlock(&ctx->completion_lock);
2733         if (list_empty(&list))
2734                 return false;
2735
2736         while (!list_empty(&list)) {
2737                 de = list_first_entry(&list, struct io_defer_entry, list);
2738                 list_del_init(&de->list);
2739                 io_req_complete_failed(de->req, -ECANCELED);
2740                 kfree(de);
2741         }
2742         return true;
2743 }
2744
2745 static __cold bool io_uring_try_cancel_iowq(struct io_ring_ctx *ctx)
2746 {
2747         struct io_tctx_node *node;
2748         enum io_wq_cancel cret;
2749         bool ret = false;
2750
2751         mutex_lock(&ctx->uring_lock);
2752         list_for_each_entry(node, &ctx->tctx_list, ctx_node) {
2753                 struct io_uring_task *tctx = node->task->io_uring;
2754
2755                 /*
2756                  * io_wq will stay alive while we hold uring_lock, because it's
2757                  * killed after ctx nodes, which requires to take the lock.
2758                  */
2759                 if (!tctx || !tctx->io_wq)
2760                         continue;
2761                 cret = io_wq_cancel_cb(tctx->io_wq, io_cancel_ctx_cb, ctx, true);
2762                 ret |= (cret != IO_WQ_CANCEL_NOTFOUND);
2763         }
2764         mutex_unlock(&ctx->uring_lock);
2765
2766         return ret;
2767 }
2768
2769 static __cold void io_uring_try_cancel_requests(struct io_ring_ctx *ctx,
2770                                                 struct task_struct *task,
2771                                                 bool cancel_all)
2772 {
2773         struct io_task_cancel cancel = { .task = task, .all = cancel_all, };
2774         struct io_uring_task *tctx = task ? task->io_uring : NULL;
2775
2776         /* failed during ring init, it couldn't have issued any requests */
2777         if (!ctx->rings)
2778                 return;
2779
2780         while (1) {
2781                 enum io_wq_cancel cret;
2782                 bool ret = false;
2783
2784                 if (!task) {
2785                         ret |= io_uring_try_cancel_iowq(ctx);
2786                 } else if (tctx && tctx->io_wq) {
2787                         /*
2788                          * Cancels requests of all rings, not only @ctx, but
2789                          * it's fine as the task is in exit/exec.
2790                          */
2791                         cret = io_wq_cancel_cb(tctx->io_wq, io_cancel_task_cb,
2792                                                &cancel, true);
2793                         ret |= (cret != IO_WQ_CANCEL_NOTFOUND);
2794                 }
2795
2796                 /* SQPOLL thread does its own polling */
2797                 if ((!(ctx->flags & IORING_SETUP_SQPOLL) && cancel_all) ||
2798                     (ctx->sq_data && ctx->sq_data->thread == current)) {
2799                         while (!wq_list_empty(&ctx->iopoll_list)) {
2800                                 io_iopoll_try_reap_events(ctx);
2801                                 ret = true;
2802                         }
2803                 }
2804
2805                 ret |= io_cancel_defer_files(ctx, task, cancel_all);
2806                 mutex_lock(&ctx->uring_lock);
2807                 ret |= io_poll_remove_all(ctx, task, cancel_all);
2808                 mutex_unlock(&ctx->uring_lock);
2809                 ret |= io_kill_timeouts(ctx, task, cancel_all);
2810                 if (task)
2811                         ret |= io_run_task_work();
2812                 if (!ret)
2813                         break;
2814                 cond_resched();
2815         }
2816 }
2817
2818 static s64 tctx_inflight(struct io_uring_task *tctx, bool tracked)
2819 {
2820         if (tracked)
2821                 return atomic_read(&tctx->inflight_tracked);
2822         return percpu_counter_sum(&tctx->inflight);
2823 }
2824
2825 /*
2826  * Find any io_uring ctx that this task has registered or done IO on, and cancel
2827  * requests. @sqd should be not-null IFF it's an SQPOLL thread cancellation.
2828  */
2829 __cold void io_uring_cancel_generic(bool cancel_all, struct io_sq_data *sqd)
2830 {
2831         struct io_uring_task *tctx = current->io_uring;
2832         struct io_ring_ctx *ctx;
2833         s64 inflight;
2834         DEFINE_WAIT(wait);
2835
2836         WARN_ON_ONCE(sqd && sqd->thread != current);
2837
2838         if (!current->io_uring)
2839                 return;
2840         if (tctx->io_wq)
2841                 io_wq_exit_start(tctx->io_wq);
2842
2843         atomic_inc(&tctx->in_idle);
2844         do {
2845                 io_uring_drop_tctx_refs(current);
2846                 /* read completions before cancelations */
2847                 inflight = tctx_inflight(tctx, !cancel_all);
2848                 if (!inflight)
2849                         break;
2850
2851                 if (!sqd) {
2852                         struct io_tctx_node *node;
2853                         unsigned long index;
2854
2855                         xa_for_each(&tctx->xa, index, node) {
2856                                 /* sqpoll task will cancel all its requests */
2857                                 if (node->ctx->sq_data)
2858                                         continue;
2859                                 io_uring_try_cancel_requests(node->ctx, current,
2860                                                              cancel_all);
2861                         }
2862                 } else {
2863                         list_for_each_entry(ctx, &sqd->ctx_list, sqd_list)
2864                                 io_uring_try_cancel_requests(ctx, current,
2865                                                              cancel_all);
2866                 }
2867
2868                 prepare_to_wait(&tctx->wait, &wait, TASK_INTERRUPTIBLE);
2869                 io_run_task_work();
2870                 io_uring_drop_tctx_refs(current);
2871
2872                 /*
2873                  * If we've seen completions, retry without waiting. This
2874                  * avoids a race where a completion comes in before we did
2875                  * prepare_to_wait().
2876                  */
2877                 if (inflight == tctx_inflight(tctx, !cancel_all))
2878                         schedule();
2879                 finish_wait(&tctx->wait, &wait);
2880         } while (1);
2881
2882         io_uring_clean_tctx(tctx);
2883         if (cancel_all) {
2884                 /*
2885                  * We shouldn't run task_works after cancel, so just leave
2886                  * ->in_idle set for normal exit.
2887                  */
2888                 atomic_dec(&tctx->in_idle);
2889                 /* for exec all current's requests should be gone, kill tctx */
2890                 __io_uring_free(current);
2891         }
2892 }
2893
2894 void __io_uring_cancel(bool cancel_all)
2895 {
2896         io_uring_cancel_generic(cancel_all, NULL);
2897 }
2898
2899 static void *io_uring_validate_mmap_request(struct file *file,
2900                                             loff_t pgoff, size_t sz)
2901 {
2902         struct io_ring_ctx *ctx = file->private_data;
2903         loff_t offset = pgoff << PAGE_SHIFT;
2904         struct page *page;
2905         void *ptr;
2906
2907         switch (offset) {
2908         case IORING_OFF_SQ_RING:
2909         case IORING_OFF_CQ_RING:
2910                 ptr = ctx->rings;
2911                 break;
2912         case IORING_OFF_SQES:
2913                 ptr = ctx->sq_sqes;
2914                 break;
2915         default:
2916                 return ERR_PTR(-EINVAL);
2917         }
2918
2919         page = virt_to_head_page(ptr);
2920         if (sz > page_size(page))
2921                 return ERR_PTR(-EINVAL);
2922
2923         return ptr;
2924 }
2925
2926 #ifdef CONFIG_MMU
2927
2928 static __cold int io_uring_mmap(struct file *file, struct vm_area_struct *vma)
2929 {
2930         size_t sz = vma->vm_end - vma->vm_start;
2931         unsigned long pfn;
2932         void *ptr;
2933
2934         ptr = io_uring_validate_mmap_request(file, vma->vm_pgoff, sz);
2935         if (IS_ERR(ptr))
2936                 return PTR_ERR(ptr);
2937
2938         pfn = virt_to_phys(ptr) >> PAGE_SHIFT;
2939         return remap_pfn_range(vma, vma->vm_start, pfn, sz, vma->vm_page_prot);
2940 }
2941
2942 #else /* !CONFIG_MMU */
2943
2944 static int io_uring_mmap(struct file *file, struct vm_area_struct *vma)
2945 {
2946         return vma->vm_flags & (VM_SHARED | VM_MAYSHARE) ? 0 : -EINVAL;
2947 }
2948
2949 static unsigned int io_uring_nommu_mmap_capabilities(struct file *file)
2950 {
2951         return NOMMU_MAP_DIRECT | NOMMU_MAP_READ | NOMMU_MAP_WRITE;
2952 }
2953
2954 static unsigned long io_uring_nommu_get_unmapped_area(struct file *file,
2955         unsigned long addr, unsigned long len,
2956         unsigned long pgoff, unsigned long flags)
2957 {
2958         void *ptr;
2959
2960         ptr = io_uring_validate_mmap_request(file, pgoff, len);
2961         if (IS_ERR(ptr))
2962                 return PTR_ERR(ptr);
2963
2964         return (unsigned long) ptr;
2965 }
2966
2967 #endif /* !CONFIG_MMU */
2968
2969 static int io_validate_ext_arg(unsigned flags, const void __user *argp, size_t argsz)
2970 {
2971         if (flags & IORING_ENTER_EXT_ARG) {
2972                 struct io_uring_getevents_arg arg;
2973
2974                 if (argsz != sizeof(arg))
2975                         return -EINVAL;
2976                 if (copy_from_user(&arg, argp, sizeof(arg)))
2977                         return -EFAULT;
2978         }
2979         return 0;
2980 }
2981
2982 static int io_get_ext_arg(unsigned flags, const void __user *argp, size_t *argsz,
2983                           struct __kernel_timespec __user **ts,
2984                           const sigset_t __user **sig)
2985 {
2986         struct io_uring_getevents_arg arg;
2987
2988         /*
2989          * If EXT_ARG isn't set, then we have no timespec and the argp pointer
2990          * is just a pointer to the sigset_t.
2991          */
2992         if (!(flags & IORING_ENTER_EXT_ARG)) {
2993                 *sig = (const sigset_t __user *) argp;
2994                 *ts = NULL;
2995                 return 0;
2996         }
2997
2998         /*
2999          * EXT_ARG is set - ensure we agree on the size of it and copy in our
3000          * timespec and sigset_t pointers if good.
3001          */
3002         if (*argsz != sizeof(arg))
3003                 return -EINVAL;
3004         if (copy_from_user(&arg, argp, sizeof(arg)))
3005                 return -EFAULT;
3006         if (arg.pad)
3007                 return -EINVAL;
3008         *sig = u64_to_user_ptr(arg.sigmask);
3009         *argsz = arg.sigmask_sz;
3010         *ts = u64_to_user_ptr(arg.ts);
3011         return 0;
3012 }
3013
3014 SYSCALL_DEFINE6(io_uring_enter, unsigned int, fd, u32, to_submit,
3015                 u32, min_complete, u32, flags, const void __user *, argp,
3016                 size_t, argsz)
3017 {
3018         struct io_ring_ctx *ctx;
3019         struct fd f;
3020         long ret;
3021
3022         io_run_task_work();
3023
3024         if (unlikely(flags & ~(IORING_ENTER_GETEVENTS | IORING_ENTER_SQ_WAKEUP |
3025                                IORING_ENTER_SQ_WAIT | IORING_ENTER_EXT_ARG |
3026                                IORING_ENTER_REGISTERED_RING)))
3027                 return -EINVAL;
3028
3029         /*
3030          * Ring fd has been registered via IORING_REGISTER_RING_FDS, we
3031          * need only dereference our task private array to find it.
3032          */
3033         if (flags & IORING_ENTER_REGISTERED_RING) {
3034                 struct io_uring_task *tctx = current->io_uring;
3035
3036                 if (!tctx || fd >= IO_RINGFD_REG_MAX)
3037                         return -EINVAL;
3038                 fd = array_index_nospec(fd, IO_RINGFD_REG_MAX);
3039                 f.file = tctx->registered_rings[fd];
3040                 f.flags = 0;
3041         } else {
3042                 f = fdget(fd);
3043         }
3044
3045         if (unlikely(!f.file))
3046                 return -EBADF;
3047
3048         ret = -EOPNOTSUPP;
3049         if (unlikely(!io_is_uring_fops(f.file)))
3050                 goto out_fput;
3051
3052         ret = -ENXIO;
3053         ctx = f.file->private_data;
3054         if (unlikely(!percpu_ref_tryget(&ctx->refs)))
3055                 goto out_fput;
3056
3057         ret = -EBADFD;
3058         if (unlikely(ctx->flags & IORING_SETUP_R_DISABLED))
3059                 goto out;
3060
3061         /*
3062          * For SQ polling, the thread will do all submissions and completions.
3063          * Just return the requested submit count, and wake the thread if
3064          * we were asked to.
3065          */
3066         ret = 0;
3067         if (ctx->flags & IORING_SETUP_SQPOLL) {
3068                 io_cqring_overflow_flush(ctx);
3069
3070                 if (unlikely(ctx->sq_data->thread == NULL)) {
3071                         ret = -EOWNERDEAD;
3072                         goto out;
3073                 }
3074                 if (flags & IORING_ENTER_SQ_WAKEUP)
3075                         wake_up(&ctx->sq_data->wait);
3076                 if (flags & IORING_ENTER_SQ_WAIT) {
3077                         ret = io_sqpoll_wait_sq(ctx);
3078                         if (ret)
3079                                 goto out;
3080                 }
3081                 ret = to_submit;
3082         } else if (to_submit) {
3083                 ret = io_uring_add_tctx_node(ctx);
3084                 if (unlikely(ret))
3085                         goto out;
3086
3087                 mutex_lock(&ctx->uring_lock);
3088                 ret = io_submit_sqes(ctx, to_submit);
3089                 if (ret != to_submit) {
3090                         mutex_unlock(&ctx->uring_lock);
3091                         goto out;
3092                 }
3093                 if ((flags & IORING_ENTER_GETEVENTS) && ctx->syscall_iopoll)
3094                         goto iopoll_locked;
3095                 mutex_unlock(&ctx->uring_lock);
3096         }
3097         if (flags & IORING_ENTER_GETEVENTS) {
3098                 int ret2;
3099                 if (ctx->syscall_iopoll) {
3100                         /*
3101                          * We disallow the app entering submit/complete with
3102                          * polling, but we still need to lock the ring to
3103                          * prevent racing with polled issue that got punted to
3104                          * a workqueue.
3105                          */
3106                         mutex_lock(&ctx->uring_lock);
3107 iopoll_locked:
3108                         ret2 = io_validate_ext_arg(flags, argp, argsz);
3109                         if (likely(!ret2)) {
3110                                 min_complete = min(min_complete,
3111                                                    ctx->cq_entries);
3112                                 ret2 = io_iopoll_check(ctx, min_complete);
3113                         }
3114                         mutex_unlock(&ctx->uring_lock);
3115                 } else {
3116                         const sigset_t __user *sig;
3117                         struct __kernel_timespec __user *ts;
3118
3119                         ret2 = io_get_ext_arg(flags, argp, &argsz, &ts, &sig);
3120                         if (likely(!ret2)) {
3121                                 min_complete = min(min_complete,
3122                                                    ctx->cq_entries);
3123                                 ret2 = io_cqring_wait(ctx, min_complete, sig,
3124                                                       argsz, ts);
3125                         }
3126                 }
3127
3128                 if (!ret) {
3129                         ret = ret2;
3130
3131                         /*
3132                          * EBADR indicates that one or more CQE were dropped.
3133                          * Once the user has been informed we can clear the bit
3134                          * as they are obviously ok with those drops.
3135                          */
3136                         if (unlikely(ret2 == -EBADR))
3137                                 clear_bit(IO_CHECK_CQ_DROPPED_BIT,
3138                                           &ctx->check_cq);
3139                 }
3140         }
3141
3142 out:
3143         percpu_ref_put(&ctx->refs);
3144 out_fput:
3145         fdput(f);
3146         return ret;
3147 }
3148
3149 static const struct file_operations io_uring_fops = {
3150         .release        = io_uring_release,
3151         .mmap           = io_uring_mmap,
3152 #ifndef CONFIG_MMU
3153         .get_unmapped_area = io_uring_nommu_get_unmapped_area,
3154         .mmap_capabilities = io_uring_nommu_mmap_capabilities,
3155 #endif
3156         .poll           = io_uring_poll,
3157 #ifdef CONFIG_PROC_FS
3158         .show_fdinfo    = io_uring_show_fdinfo,
3159 #endif
3160 };
3161
3162 bool io_is_uring_fops(struct file *file)
3163 {
3164         return file->f_op == &io_uring_fops;
3165 }
3166
3167 static __cold int io_allocate_scq_urings(struct io_ring_ctx *ctx,
3168                                          struct io_uring_params *p)
3169 {
3170         struct io_rings *rings;
3171         size_t size, sq_array_offset;
3172
3173         /* make sure these are sane, as we already accounted them */
3174         ctx->sq_entries = p->sq_entries;
3175         ctx->cq_entries = p->cq_entries;
3176
3177         size = rings_size(ctx, p->sq_entries, p->cq_entries, &sq_array_offset);
3178         if (size == SIZE_MAX)
3179                 return -EOVERFLOW;
3180
3181         rings = io_mem_alloc(size);
3182         if (!rings)
3183                 return -ENOMEM;
3184
3185         ctx->rings = rings;
3186         ctx->sq_array = (u32 *)((char *)rings + sq_array_offset);
3187         rings->sq_ring_mask = p->sq_entries - 1;
3188         rings->cq_ring_mask = p->cq_entries - 1;
3189         rings->sq_ring_entries = p->sq_entries;
3190         rings->cq_ring_entries = p->cq_entries;
3191
3192         if (p->flags & IORING_SETUP_SQE128)
3193                 size = array_size(2 * sizeof(struct io_uring_sqe), p->sq_entries);
3194         else
3195                 size = array_size(sizeof(struct io_uring_sqe), p->sq_entries);
3196         if (size == SIZE_MAX) {
3197                 io_mem_free(ctx->rings);
3198                 ctx->rings = NULL;
3199                 return -EOVERFLOW;
3200         }
3201
3202         ctx->sq_sqes = io_mem_alloc(size);
3203         if (!ctx->sq_sqes) {
3204                 io_mem_free(ctx->rings);
3205                 ctx->rings = NULL;
3206                 return -ENOMEM;
3207         }
3208
3209         return 0;
3210 }
3211
3212 static int io_uring_install_fd(struct io_ring_ctx *ctx, struct file *file)
3213 {
3214         int ret, fd;
3215
3216         fd = get_unused_fd_flags(O_RDWR | O_CLOEXEC);
3217         if (fd < 0)
3218                 return fd;
3219
3220         ret = __io_uring_add_tctx_node(ctx, false);
3221         if (ret) {
3222                 put_unused_fd(fd);
3223                 return ret;
3224         }
3225         fd_install(fd, file);
3226         return fd;
3227 }
3228
3229 /*
3230  * Allocate an anonymous fd, this is what constitutes the application
3231  * visible backing of an io_uring instance. The application mmaps this
3232  * fd to gain access to the SQ/CQ ring details. If UNIX sockets are enabled,
3233  * we have to tie this fd to a socket for file garbage collection purposes.
3234  */
3235 static struct file *io_uring_get_file(struct io_ring_ctx *ctx)
3236 {
3237         struct file *file;
3238 #if defined(CONFIG_UNIX)
3239         int ret;
3240
3241         ret = sock_create_kern(&init_net, PF_UNIX, SOCK_RAW, IPPROTO_IP,
3242                                 &ctx->ring_sock);
3243         if (ret)
3244                 return ERR_PTR(ret);
3245 #endif
3246
3247         file = anon_inode_getfile_secure("[io_uring]", &io_uring_fops, ctx,
3248                                          O_RDWR | O_CLOEXEC, NULL);
3249 #if defined(CONFIG_UNIX)
3250         if (IS_ERR(file)) {
3251                 sock_release(ctx->ring_sock);
3252                 ctx->ring_sock = NULL;
3253         } else {
3254                 ctx->ring_sock->file = file;
3255         }
3256 #endif
3257         return file;
3258 }
3259
3260 static __cold int io_uring_create(unsigned entries, struct io_uring_params *p,
3261                                   struct io_uring_params __user *params)
3262 {
3263         struct io_ring_ctx *ctx;
3264         struct file *file;
3265         int ret;
3266
3267         if (!entries)
3268                 return -EINVAL;
3269         if (entries > IORING_MAX_ENTRIES) {
3270                 if (!(p->flags & IORING_SETUP_CLAMP))
3271                         return -EINVAL;
3272                 entries = IORING_MAX_ENTRIES;
3273         }
3274
3275         /*
3276          * Use twice as many entries for the CQ ring. It's possible for the
3277          * application to drive a higher depth than the size of the SQ ring,
3278          * since the sqes are only used at submission time. This allows for
3279          * some flexibility in overcommitting a bit. If the application has
3280          * set IORING_SETUP_CQSIZE, it will have passed in the desired number
3281          * of CQ ring entries manually.
3282          */
3283         p->sq_entries = roundup_pow_of_two(entries);
3284         if (p->flags & IORING_SETUP_CQSIZE) {
3285                 /*
3286                  * If IORING_SETUP_CQSIZE is set, we do the same roundup
3287                  * to a power-of-two, if it isn't already. We do NOT impose
3288                  * any cq vs sq ring sizing.
3289                  */
3290                 if (!p->cq_entries)
3291                         return -EINVAL;
3292                 if (p->cq_entries > IORING_MAX_CQ_ENTRIES) {
3293                         if (!(p->flags & IORING_SETUP_CLAMP))
3294                                 return -EINVAL;
3295                         p->cq_entries = IORING_MAX_CQ_ENTRIES;
3296                 }
3297                 p->cq_entries = roundup_pow_of_two(p->cq_entries);
3298                 if (p->cq_entries < p->sq_entries)
3299                         return -EINVAL;
3300         } else {
3301                 p->cq_entries = 2 * p->sq_entries;
3302         }
3303
3304         ctx = io_ring_ctx_alloc(p);
3305         if (!ctx)
3306                 return -ENOMEM;
3307
3308         /*
3309          * When SETUP_IOPOLL and SETUP_SQPOLL are both enabled, user
3310          * space applications don't need to do io completion events
3311          * polling again, they can rely on io_sq_thread to do polling
3312          * work, which can reduce cpu usage and uring_lock contention.
3313          */
3314         if (ctx->flags & IORING_SETUP_IOPOLL &&
3315             !(ctx->flags & IORING_SETUP_SQPOLL))
3316                 ctx->syscall_iopoll = 1;
3317
3318         ctx->compat = in_compat_syscall();
3319         if (!capable(CAP_IPC_LOCK))
3320                 ctx->user = get_uid(current_user());
3321
3322         /*
3323          * For SQPOLL, we just need a wakeup, always. For !SQPOLL, if
3324          * COOP_TASKRUN is set, then IPIs are never needed by the app.
3325          */
3326         ret = -EINVAL;
3327         if (ctx->flags & IORING_SETUP_SQPOLL) {
3328                 /* IPI related flags don't make sense with SQPOLL */
3329                 if (ctx->flags & (IORING_SETUP_COOP_TASKRUN |
3330                                   IORING_SETUP_TASKRUN_FLAG))
3331                         goto err;
3332                 ctx->notify_method = TWA_SIGNAL_NO_IPI;
3333         } else if (ctx->flags & IORING_SETUP_COOP_TASKRUN) {
3334                 ctx->notify_method = TWA_SIGNAL_NO_IPI;
3335         } else {
3336                 if (ctx->flags & IORING_SETUP_TASKRUN_FLAG)
3337                         goto err;
3338                 ctx->notify_method = TWA_SIGNAL;
3339         }
3340
3341         /*
3342          * This is just grabbed for accounting purposes. When a process exits,
3343          * the mm is exited and dropped before the files, hence we need to hang
3344          * on to this mm purely for the purposes of being able to unaccount
3345          * memory (locked/pinned vm). It's not used for anything else.
3346          */
3347         mmgrab(current->mm);
3348         ctx->mm_account = current->mm;
3349
3350         ret = io_allocate_scq_urings(ctx, p);
3351         if (ret)
3352                 goto err;
3353
3354         ret = io_sq_offload_create(ctx, p);
3355         if (ret)
3356                 goto err;
3357         /* always set a rsrc node */
3358         ret = io_rsrc_node_switch_start(ctx);
3359         if (ret)
3360                 goto err;
3361         io_rsrc_node_switch(ctx, NULL);
3362
3363         memset(&p->sq_off, 0, sizeof(p->sq_off));
3364         p->sq_off.head = offsetof(struct io_rings, sq.head);
3365         p->sq_off.tail = offsetof(struct io_rings, sq.tail);
3366         p->sq_off.ring_mask = offsetof(struct io_rings, sq_ring_mask);
3367         p->sq_off.ring_entries = offsetof(struct io_rings, sq_ring_entries);
3368         p->sq_off.flags = offsetof(struct io_rings, sq_flags);
3369         p->sq_off.dropped = offsetof(struct io_rings, sq_dropped);
3370         p->sq_off.array = (char *)ctx->sq_array - (char *)ctx->rings;
3371
3372         memset(&p->cq_off, 0, sizeof(p->cq_off));
3373         p->cq_off.head = offsetof(struct io_rings, cq.head);
3374         p->cq_off.tail = offsetof(struct io_rings, cq.tail);
3375         p->cq_off.ring_mask = offsetof(struct io_rings, cq_ring_mask);
3376         p->cq_off.ring_entries = offsetof(struct io_rings, cq_ring_entries);
3377         p->cq_off.overflow = offsetof(struct io_rings, cq_overflow);
3378         p->cq_off.cqes = offsetof(struct io_rings, cqes);
3379         p->cq_off.flags = offsetof(struct io_rings, cq_flags);
3380
3381         p->features = IORING_FEAT_SINGLE_MMAP | IORING_FEAT_NODROP |
3382                         IORING_FEAT_SUBMIT_STABLE | IORING_FEAT_RW_CUR_POS |
3383                         IORING_FEAT_CUR_PERSONALITY | IORING_FEAT_FAST_POLL |
3384                         IORING_FEAT_POLL_32BITS | IORING_FEAT_SQPOLL_NONFIXED |
3385                         IORING_FEAT_EXT_ARG | IORING_FEAT_NATIVE_WORKERS |
3386                         IORING_FEAT_RSRC_TAGS | IORING_FEAT_CQE_SKIP |
3387                         IORING_FEAT_LINKED_FILE;
3388
3389         if (copy_to_user(params, p, sizeof(*p))) {
3390                 ret = -EFAULT;
3391                 goto err;
3392         }
3393
3394         file = io_uring_get_file(ctx);
3395         if (IS_ERR(file)) {
3396                 ret = PTR_ERR(file);
3397                 goto err;
3398         }
3399
3400         /*
3401          * Install ring fd as the very last thing, so we don't risk someone
3402          * having closed it before we finish setup
3403          */
3404         ret = io_uring_install_fd(ctx, file);
3405         if (ret < 0) {
3406                 /* fput will clean it up */
3407                 fput(file);
3408                 return ret;
3409         }
3410
3411         trace_io_uring_create(ret, ctx, p->sq_entries, p->cq_entries, p->flags);
3412         return ret;
3413 err:
3414         io_ring_ctx_wait_and_kill(ctx);
3415         return ret;
3416 }
3417
3418 /*
3419  * Sets up an aio uring context, and returns the fd. Applications asks for a
3420  * ring size, we return the actual sq/cq ring sizes (among other things) in the
3421  * params structure passed in.
3422  */
3423 static long io_uring_setup(u32 entries, struct io_uring_params __user *params)
3424 {
3425         struct io_uring_params p;
3426         int i;
3427
3428         if (copy_from_user(&p, params, sizeof(p)))
3429                 return -EFAULT;
3430         for (i = 0; i < ARRAY_SIZE(p.resv); i++) {
3431                 if (p.resv[i])
3432                         return -EINVAL;
3433         }
3434
3435         if (p.flags & ~(IORING_SETUP_IOPOLL | IORING_SETUP_SQPOLL |
3436                         IORING_SETUP_SQ_AFF | IORING_SETUP_CQSIZE |
3437                         IORING_SETUP_CLAMP | IORING_SETUP_ATTACH_WQ |
3438                         IORING_SETUP_R_DISABLED | IORING_SETUP_SUBMIT_ALL |
3439                         IORING_SETUP_COOP_TASKRUN | IORING_SETUP_TASKRUN_FLAG |
3440                         IORING_SETUP_SQE128 | IORING_SETUP_CQE32 |
3441                         IORING_SETUP_SINGLE_ISSUER))
3442                 return -EINVAL;
3443
3444         return io_uring_create(entries, &p, params);
3445 }
3446
3447 SYSCALL_DEFINE2(io_uring_setup, u32, entries,
3448                 struct io_uring_params __user *, params)
3449 {
3450         return io_uring_setup(entries, params);
3451 }
3452
3453 static __cold int io_probe(struct io_ring_ctx *ctx, void __user *arg,
3454                            unsigned nr_args)
3455 {
3456         struct io_uring_probe *p;
3457         size_t size;
3458         int i, ret;
3459
3460         size = struct_size(p, ops, nr_args);
3461         if (size == SIZE_MAX)
3462                 return -EOVERFLOW;
3463         p = kzalloc(size, GFP_KERNEL);
3464         if (!p)
3465                 return -ENOMEM;
3466
3467         ret = -EFAULT;
3468         if (copy_from_user(p, arg, size))
3469                 goto out;
3470         ret = -EINVAL;
3471         if (memchr_inv(p, 0, size))
3472                 goto out;
3473
3474         p->last_op = IORING_OP_LAST - 1;
3475         if (nr_args > IORING_OP_LAST)
3476                 nr_args = IORING_OP_LAST;
3477
3478         for (i = 0; i < nr_args; i++) {
3479                 p->ops[i].op = i;
3480                 if (!io_op_defs[i].not_supported)
3481                         p->ops[i].flags = IO_URING_OP_SUPPORTED;
3482         }
3483         p->ops_len = i;
3484
3485         ret = 0;
3486         if (copy_to_user(arg, p, size))
3487                 ret = -EFAULT;
3488 out:
3489         kfree(p);
3490         return ret;
3491 }
3492
3493 static int io_register_personality(struct io_ring_ctx *ctx)
3494 {
3495         const struct cred *creds;
3496         u32 id;
3497         int ret;
3498
3499         creds = get_current_cred();
3500
3501         ret = xa_alloc_cyclic(&ctx->personalities, &id, (void *)creds,
3502                         XA_LIMIT(0, USHRT_MAX), &ctx->pers_next, GFP_KERNEL);
3503         if (ret < 0) {
3504                 put_cred(creds);
3505                 return ret;
3506         }
3507         return id;
3508 }
3509
3510 static __cold int io_register_restrictions(struct io_ring_ctx *ctx,
3511                                            void __user *arg, unsigned int nr_args)
3512 {
3513         struct io_uring_restriction *res;
3514         size_t size;
3515         int i, ret;
3516
3517         /* Restrictions allowed only if rings started disabled */
3518         if (!(ctx->flags & IORING_SETUP_R_DISABLED))
3519                 return -EBADFD;
3520
3521         /* We allow only a single restrictions registration */
3522         if (ctx->restrictions.registered)
3523                 return -EBUSY;
3524
3525         if (!arg || nr_args > IORING_MAX_RESTRICTIONS)
3526                 return -EINVAL;
3527
3528         size = array_size(nr_args, sizeof(*res));
3529         if (size == SIZE_MAX)
3530                 return -EOVERFLOW;
3531
3532         res = memdup_user(arg, size);
3533         if (IS_ERR(res))
3534                 return PTR_ERR(res);
3535
3536         ret = 0;
3537
3538         for (i = 0; i < nr_args; i++) {
3539                 switch (res[i].opcode) {
3540                 case IORING_RESTRICTION_REGISTER_OP:
3541                         if (res[i].register_op >= IORING_REGISTER_LAST) {
3542                                 ret = -EINVAL;
3543                                 goto out;
3544                         }
3545
3546                         __set_bit(res[i].register_op,
3547                                   ctx->restrictions.register_op);
3548                         break;
3549                 case IORING_RESTRICTION_SQE_OP:
3550                         if (res[i].sqe_op >= IORING_OP_LAST) {
3551                                 ret = -EINVAL;
3552                                 goto out;
3553                         }
3554
3555                         __set_bit(res[i].sqe_op, ctx->restrictions.sqe_op);
3556                         break;
3557                 case IORING_RESTRICTION_SQE_FLAGS_ALLOWED:
3558                         ctx->restrictions.sqe_flags_allowed = res[i].sqe_flags;
3559                         break;
3560                 case IORING_RESTRICTION_SQE_FLAGS_REQUIRED:
3561                         ctx->restrictions.sqe_flags_required = res[i].sqe_flags;
3562                         break;
3563                 default:
3564                         ret = -EINVAL;
3565                         goto out;
3566                 }
3567         }
3568
3569 out:
3570         /* Reset all restrictions if an error happened */
3571         if (ret != 0)
3572                 memset(&ctx->restrictions, 0, sizeof(ctx->restrictions));
3573         else
3574                 ctx->restrictions.registered = true;
3575
3576         kfree(res);
3577         return ret;
3578 }
3579
3580 static int io_register_enable_rings(struct io_ring_ctx *ctx)
3581 {
3582         if (!(ctx->flags & IORING_SETUP_R_DISABLED))
3583                 return -EBADFD;
3584
3585         if (ctx->restrictions.registered)
3586                 ctx->restricted = 1;
3587
3588         ctx->flags &= ~IORING_SETUP_R_DISABLED;
3589         if (ctx->sq_data && wq_has_sleeper(&ctx->sq_data->wait))
3590                 wake_up(&ctx->sq_data->wait);
3591         return 0;
3592 }
3593
3594 static __cold int io_register_iowq_aff(struct io_ring_ctx *ctx,
3595                                        void __user *arg, unsigned len)
3596 {
3597         struct io_uring_task *tctx = current->io_uring;
3598         cpumask_var_t new_mask;
3599         int ret;
3600
3601         if (!tctx || !tctx->io_wq)
3602                 return -EINVAL;
3603
3604         if (!alloc_cpumask_var(&new_mask, GFP_KERNEL))
3605                 return -ENOMEM;
3606
3607         cpumask_clear(new_mask);
3608         if (len > cpumask_size())
3609                 len = cpumask_size();
3610
3611         if (in_compat_syscall()) {
3612                 ret = compat_get_bitmap(cpumask_bits(new_mask),
3613                                         (const compat_ulong_t __user *)arg,
3614                                         len * 8 /* CHAR_BIT */);
3615         } else {
3616                 ret = copy_from_user(new_mask, arg, len);
3617         }
3618
3619         if (ret) {
3620                 free_cpumask_var(new_mask);
3621                 return -EFAULT;
3622         }
3623
3624         ret = io_wq_cpu_affinity(tctx->io_wq, new_mask);
3625         free_cpumask_var(new_mask);
3626         return ret;
3627 }
3628
3629 static __cold int io_unregister_iowq_aff(struct io_ring_ctx *ctx)
3630 {
3631         struct io_uring_task *tctx = current->io_uring;
3632
3633         if (!tctx || !tctx->io_wq)
3634                 return -EINVAL;
3635
3636         return io_wq_cpu_affinity(tctx->io_wq, NULL);
3637 }
3638
3639 static __cold int io_register_iowq_max_workers(struct io_ring_ctx *ctx,
3640                                                void __user *arg)
3641         __must_hold(&ctx->uring_lock)
3642 {
3643         struct io_tctx_node *node;
3644         struct io_uring_task *tctx = NULL;
3645         struct io_sq_data *sqd = NULL;
3646         __u32 new_count[2];
3647         int i, ret;
3648
3649         if (copy_from_user(new_count, arg, sizeof(new_count)))
3650                 return -EFAULT;
3651         for (i = 0; i < ARRAY_SIZE(new_count); i++)
3652                 if (new_count[i] > INT_MAX)
3653                         return -EINVAL;
3654
3655         if (ctx->flags & IORING_SETUP_SQPOLL) {
3656                 sqd = ctx->sq_data;
3657                 if (sqd) {
3658                         /*
3659                          * Observe the correct sqd->lock -> ctx->uring_lock
3660                          * ordering. Fine to drop uring_lock here, we hold
3661                          * a ref to the ctx.
3662                          */
3663                         refcount_inc(&sqd->refs);
3664                         mutex_unlock(&ctx->uring_lock);
3665                         mutex_lock(&sqd->lock);
3666                         mutex_lock(&ctx->uring_lock);
3667                         if (sqd->thread)
3668                                 tctx = sqd->thread->io_uring;
3669                 }
3670         } else {
3671                 tctx = current->io_uring;
3672         }
3673
3674         BUILD_BUG_ON(sizeof(new_count) != sizeof(ctx->iowq_limits));
3675
3676         for (i = 0; i < ARRAY_SIZE(new_count); i++)
3677                 if (new_count[i])
3678                         ctx->iowq_limits[i] = new_count[i];
3679         ctx->iowq_limits_set = true;
3680
3681         if (tctx && tctx->io_wq) {
3682                 ret = io_wq_max_workers(tctx->io_wq, new_count);
3683                 if (ret)
3684                         goto err;
3685         } else {
3686                 memset(new_count, 0, sizeof(new_count));
3687         }
3688
3689         if (sqd) {
3690                 mutex_unlock(&sqd->lock);
3691                 io_put_sq_data(sqd);
3692         }
3693
3694         if (copy_to_user(arg, new_count, sizeof(new_count)))
3695                 return -EFAULT;
3696
3697         /* that's it for SQPOLL, only the SQPOLL task creates requests */
3698         if (sqd)
3699                 return 0;
3700
3701         /* now propagate the restriction to all registered users */
3702         list_for_each_entry(node, &ctx->tctx_list, ctx_node) {
3703                 struct io_uring_task *tctx = node->task->io_uring;
3704
3705                 if (WARN_ON_ONCE(!tctx->io_wq))
3706                         continue;
3707
3708                 for (i = 0; i < ARRAY_SIZE(new_count); i++)
3709                         new_count[i] = ctx->iowq_limits[i];
3710                 /* ignore errors, it always returns zero anyway */
3711                 (void)io_wq_max_workers(tctx->io_wq, new_count);
3712         }
3713         return 0;
3714 err:
3715         if (sqd) {
3716                 mutex_unlock(&sqd->lock);
3717                 io_put_sq_data(sqd);
3718         }
3719         return ret;
3720 }
3721
3722 static int __io_uring_register(struct io_ring_ctx *ctx, unsigned opcode,
3723                                void __user *arg, unsigned nr_args)
3724         __releases(ctx->uring_lock)
3725         __acquires(ctx->uring_lock)
3726 {
3727         int ret;
3728
3729         /*
3730          * We're inside the ring mutex, if the ref is already dying, then
3731          * someone else killed the ctx or is already going through
3732          * io_uring_register().
3733          */
3734         if (percpu_ref_is_dying(&ctx->refs))
3735                 return -ENXIO;
3736
3737         if (ctx->restricted) {
3738                 if (opcode >= IORING_REGISTER_LAST)
3739                         return -EINVAL;
3740                 opcode = array_index_nospec(opcode, IORING_REGISTER_LAST);
3741                 if (!test_bit(opcode, ctx->restrictions.register_op))
3742                         return -EACCES;
3743         }
3744
3745         switch (opcode) {
3746         case IORING_REGISTER_BUFFERS:
3747                 ret = -EFAULT;
3748                 if (!arg)
3749                         break;
3750                 ret = io_sqe_buffers_register(ctx, arg, nr_args, NULL);
3751                 break;
3752         case IORING_UNREGISTER_BUFFERS:
3753                 ret = -EINVAL;
3754                 if (arg || nr_args)
3755                         break;
3756                 ret = io_sqe_buffers_unregister(ctx);
3757                 break;
3758         case IORING_REGISTER_FILES:
3759                 ret = -EFAULT;
3760                 if (!arg)
3761                         break;
3762                 ret = io_sqe_files_register(ctx, arg, nr_args, NULL);
3763                 break;
3764         case IORING_UNREGISTER_FILES:
3765                 ret = -EINVAL;
3766                 if (arg || nr_args)
3767                         break;
3768                 ret = io_sqe_files_unregister(ctx);
3769                 break;
3770         case IORING_REGISTER_FILES_UPDATE:
3771                 ret = io_register_files_update(ctx, arg, nr_args);
3772                 break;
3773         case IORING_REGISTER_EVENTFD:
3774                 ret = -EINVAL;
3775                 if (nr_args != 1)
3776                         break;
3777                 ret = io_eventfd_register(ctx, arg, 0);
3778                 break;
3779         case IORING_REGISTER_EVENTFD_ASYNC:
3780                 ret = -EINVAL;
3781                 if (nr_args != 1)
3782                         break;
3783                 ret = io_eventfd_register(ctx, arg, 1);
3784                 break;
3785         case IORING_UNREGISTER_EVENTFD:
3786                 ret = -EINVAL;
3787                 if (arg || nr_args)
3788                         break;
3789                 ret = io_eventfd_unregister(ctx);
3790                 break;
3791         case IORING_REGISTER_PROBE:
3792                 ret = -EINVAL;
3793                 if (!arg || nr_args > 256)
3794                         break;
3795                 ret = io_probe(ctx, arg, nr_args);
3796                 break;
3797         case IORING_REGISTER_PERSONALITY:
3798                 ret = -EINVAL;
3799                 if (arg || nr_args)
3800                         break;
3801                 ret = io_register_personality(ctx);
3802                 break;
3803         case IORING_UNREGISTER_PERSONALITY:
3804                 ret = -EINVAL;
3805                 if (arg)
3806                         break;
3807                 ret = io_unregister_personality(ctx, nr_args);
3808                 break;
3809         case IORING_REGISTER_ENABLE_RINGS:
3810                 ret = -EINVAL;
3811                 if (arg || nr_args)
3812                         break;
3813                 ret = io_register_enable_rings(ctx);
3814                 break;
3815         case IORING_REGISTER_RESTRICTIONS:
3816                 ret = io_register_restrictions(ctx, arg, nr_args);
3817                 break;
3818         case IORING_REGISTER_FILES2:
3819                 ret = io_register_rsrc(ctx, arg, nr_args, IORING_RSRC_FILE);
3820                 break;
3821         case IORING_REGISTER_FILES_UPDATE2:
3822                 ret = io_register_rsrc_update(ctx, arg, nr_args,
3823                                               IORING_RSRC_FILE);
3824                 break;
3825         case IORING_REGISTER_BUFFERS2:
3826                 ret = io_register_rsrc(ctx, arg, nr_args, IORING_RSRC_BUFFER);
3827                 break;
3828         case IORING_REGISTER_BUFFERS_UPDATE:
3829                 ret = io_register_rsrc_update(ctx, arg, nr_args,
3830                                               IORING_RSRC_BUFFER);
3831                 break;
3832         case IORING_REGISTER_IOWQ_AFF:
3833                 ret = -EINVAL;
3834                 if (!arg || !nr_args)
3835                         break;
3836                 ret = io_register_iowq_aff(ctx, arg, nr_args);
3837                 break;
3838         case IORING_UNREGISTER_IOWQ_AFF:
3839                 ret = -EINVAL;
3840                 if (arg || nr_args)
3841                         break;
3842                 ret = io_unregister_iowq_aff(ctx);
3843                 break;
3844         case IORING_REGISTER_IOWQ_MAX_WORKERS:
3845                 ret = -EINVAL;
3846                 if (!arg || nr_args != 2)
3847                         break;
3848                 ret = io_register_iowq_max_workers(ctx, arg);
3849                 break;
3850         case IORING_REGISTER_RING_FDS:
3851                 ret = io_ringfd_register(ctx, arg, nr_args);
3852                 break;
3853         case IORING_UNREGISTER_RING_FDS:
3854                 ret = io_ringfd_unregister(ctx, arg, nr_args);
3855                 break;
3856         case IORING_REGISTER_PBUF_RING:
3857                 ret = -EINVAL;
3858                 if (!arg || nr_args != 1)
3859                         break;
3860                 ret = io_register_pbuf_ring(ctx, arg);
3861                 break;
3862         case IORING_UNREGISTER_PBUF_RING:
3863                 ret = -EINVAL;
3864                 if (!arg || nr_args != 1)
3865                         break;
3866                 ret = io_unregister_pbuf_ring(ctx, arg);
3867                 break;
3868         default:
3869                 ret = -EINVAL;
3870                 break;
3871         }
3872
3873         return ret;
3874 }
3875
3876 SYSCALL_DEFINE4(io_uring_register, unsigned int, fd, unsigned int, opcode,
3877                 void __user *, arg, unsigned int, nr_args)
3878 {
3879         struct io_ring_ctx *ctx;
3880         long ret = -EBADF;
3881         struct fd f;
3882
3883         f = fdget(fd);
3884         if (!f.file)
3885                 return -EBADF;
3886
3887         ret = -EOPNOTSUPP;
3888         if (!io_is_uring_fops(f.file))
3889                 goto out_fput;
3890
3891         ctx = f.file->private_data;
3892
3893         io_run_task_work();
3894
3895         mutex_lock(&ctx->uring_lock);
3896         ret = __io_uring_register(ctx, opcode, arg, nr_args);
3897         mutex_unlock(&ctx->uring_lock);
3898         trace_io_uring_register(ctx, opcode, ctx->nr_user_files, ctx->nr_user_bufs, ret);
3899 out_fput:
3900         fdput(f);
3901         return ret;
3902 }
3903
3904 static int __init io_uring_init(void)
3905 {
3906 #define __BUILD_BUG_VERIFY_ELEMENT(stype, eoffset, etype, ename) do { \
3907         BUILD_BUG_ON(offsetof(stype, ename) != eoffset); \
3908         BUILD_BUG_ON(sizeof(etype) != sizeof_field(stype, ename)); \
3909 } while (0)
3910
3911 #define BUILD_BUG_SQE_ELEM(eoffset, etype, ename) \
3912         __BUILD_BUG_VERIFY_ELEMENT(struct io_uring_sqe, eoffset, etype, ename)
3913         BUILD_BUG_ON(sizeof(struct io_uring_sqe) != 64);
3914         BUILD_BUG_SQE_ELEM(0,  __u8,   opcode);
3915         BUILD_BUG_SQE_ELEM(1,  __u8,   flags);
3916         BUILD_BUG_SQE_ELEM(2,  __u16,  ioprio);
3917         BUILD_BUG_SQE_ELEM(4,  __s32,  fd);
3918         BUILD_BUG_SQE_ELEM(8,  __u64,  off);
3919         BUILD_BUG_SQE_ELEM(8,  __u64,  addr2);
3920         BUILD_BUG_SQE_ELEM(16, __u64,  addr);
3921         BUILD_BUG_SQE_ELEM(16, __u64,  splice_off_in);
3922         BUILD_BUG_SQE_ELEM(24, __u32,  len);
3923         BUILD_BUG_SQE_ELEM(28,     __kernel_rwf_t, rw_flags);
3924         BUILD_BUG_SQE_ELEM(28, /* compat */   int, rw_flags);
3925         BUILD_BUG_SQE_ELEM(28, /* compat */ __u32, rw_flags);
3926         BUILD_BUG_SQE_ELEM(28, __u32,  fsync_flags);
3927         BUILD_BUG_SQE_ELEM(28, /* compat */ __u16,  poll_events);
3928         BUILD_BUG_SQE_ELEM(28, __u32,  poll32_events);
3929         BUILD_BUG_SQE_ELEM(28, __u32,  sync_range_flags);
3930         BUILD_BUG_SQE_ELEM(28, __u32,  msg_flags);
3931         BUILD_BUG_SQE_ELEM(28, __u32,  timeout_flags);
3932         BUILD_BUG_SQE_ELEM(28, __u32,  accept_flags);
3933         BUILD_BUG_SQE_ELEM(28, __u32,  cancel_flags);
3934         BUILD_BUG_SQE_ELEM(28, __u32,  open_flags);
3935         BUILD_BUG_SQE_ELEM(28, __u32,  statx_flags);
3936         BUILD_BUG_SQE_ELEM(28, __u32,  fadvise_advice);
3937         BUILD_BUG_SQE_ELEM(28, __u32,  splice_flags);
3938         BUILD_BUG_SQE_ELEM(32, __u64,  user_data);
3939         BUILD_BUG_SQE_ELEM(40, __u16,  buf_index);
3940         BUILD_BUG_SQE_ELEM(40, __u16,  buf_group);
3941         BUILD_BUG_SQE_ELEM(42, __u16,  personality);
3942         BUILD_BUG_SQE_ELEM(44, __s32,  splice_fd_in);
3943         BUILD_BUG_SQE_ELEM(44, __u32,  file_index);
3944         BUILD_BUG_SQE_ELEM(48, __u64,  addr3);
3945
3946         BUILD_BUG_ON(sizeof(struct io_uring_files_update) !=
3947                      sizeof(struct io_uring_rsrc_update));
3948         BUILD_BUG_ON(sizeof(struct io_uring_rsrc_update) >
3949                      sizeof(struct io_uring_rsrc_update2));
3950
3951         /* ->buf_index is u16 */
3952         BUILD_BUG_ON(offsetof(struct io_uring_buf_ring, bufs) != 0);
3953         BUILD_BUG_ON(offsetof(struct io_uring_buf, resv) !=
3954                      offsetof(struct io_uring_buf_ring, tail));
3955
3956         /* should fit into one byte */
3957         BUILD_BUG_ON(SQE_VALID_FLAGS >= (1 << 8));
3958         BUILD_BUG_ON(SQE_COMMON_FLAGS >= (1 << 8));
3959         BUILD_BUG_ON((SQE_VALID_FLAGS | SQE_COMMON_FLAGS) != SQE_VALID_FLAGS);
3960
3961         BUILD_BUG_ON(__REQ_F_LAST_BIT > 8 * sizeof(int));
3962
3963         BUILD_BUG_ON(sizeof(atomic_t) != sizeof(u32));
3964
3965         io_uring_optable_init();
3966
3967         req_cachep = KMEM_CACHE(io_kiocb, SLAB_HWCACHE_ALIGN | SLAB_PANIC |
3968                                 SLAB_ACCOUNT);
3969         return 0;
3970 };
3971 __initcall(io_uring_init);