io_uring: wire up min batch wake timeout
authorJens Axboe <axboe@kernel.dk>
Thu, 4 Jan 2024 17:46:30 +0000 (10:46 -0700)
committerJens Axboe <axboe@kernel.dk>
Sun, 25 Aug 2024 14:27:01 +0000 (08:27 -0600)
Expose min_wait_usec in io_uring_getevents_arg, replacing the pad member
that is currently in there. The value is in usecs, which is explained in
the name as well.

Note that if min_wait_usec and a normal timeout is used in conjunction,
the normal timeout is still relative to the base time. For example, if
min_wait_usec is set to 100 and the normal timeout is 1000, the max
total time waited is still 1000. This also means that if the normal
timeout is shorter than min_wait_usec, then only the min_wait_usec will
take effect.

See previous commit for an explanation of how this works.

IORING_FEAT_MIN_TIMEOUT is added as a feature flag for this, as
applications doing submit_and_wait_timeout() style operations will
generally not see the -EINVAL from the wait side as they return the
number of IOs submitted. Only if no IOs are submitted will the -EINVAL
bubble back up to the application.

Signed-off-by: Jens Axboe <axboe@kernel.dk>
include/uapi/linux/io_uring.h
io_uring/io_uring.c

index 7af716136df93a33265b96460a82ba20a99d7b56..042eab793e26b3421030261fed2417260d76fabd 100644 (file)
@@ -543,6 +543,7 @@ struct io_uring_params {
 #define IORING_FEAT_LINKED_FILE                (1U << 12)
 #define IORING_FEAT_REG_REG_RING       (1U << 13)
 #define IORING_FEAT_RECVSEND_BUNDLE    (1U << 14)
+#define IORING_FEAT_MIN_TIMEOUT                (1U << 15)
 
 /*
  * io_uring_register(2) opcodes and arguments
@@ -766,7 +767,7 @@ enum io_uring_register_restriction_op {
 struct io_uring_getevents_arg {
        __u64   sigmask;
        __u32   sigmask_sz;
-       __u32   pad;
+       __u32   min_wait_usec;
        __u64   ts;
 };
 
index 968cd5fb3f79a3b3342ab73d3fc6689cf4558f61..80bb6e2374e9af3386f13e5b9cb951bf66955447 100644 (file)
@@ -2475,6 +2475,7 @@ struct ext_arg {
        size_t argsz;
        struct __kernel_timespec __user *ts;
        const sigset_t __user *sig;
+       ktime_t min_time;
 };
 
 /*
@@ -2508,7 +2509,7 @@ static int io_cqring_wait(struct io_ring_ctx *ctx, int min_events, u32 flags,
        iowq.cq_min_tail = READ_ONCE(ctx->rings->cq.tail);
        iowq.nr_timeouts = atomic_read(&ctx->cq_timeouts);
        iowq.hit_timeout = 0;
-       iowq.min_timeout = 0;
+       iowq.min_timeout = ext_arg->min_time;
        iowq.timeout = KTIME_MAX;
        start_time = io_get_time(ctx);
 
@@ -3239,8 +3240,7 @@ static int io_get_ext_arg(unsigned flags, const void __user *argp,
                return -EINVAL;
        if (copy_from_user(&arg, argp, sizeof(arg)))
                return -EFAULT;
-       if (arg.pad)
-               return -EINVAL;
+       ext_arg->min_time = arg.min_wait_usec * NSEC_PER_USEC;
        ext_arg->sig = u64_to_user_ptr(arg.sigmask);
        ext_arg->argsz = arg.sigmask_sz;
        ext_arg->ts = u64_to_user_ptr(arg.ts);
@@ -3641,7 +3641,7 @@ static __cold int io_uring_create(unsigned entries, struct io_uring_params *p,
                        IORING_FEAT_EXT_ARG | IORING_FEAT_NATIVE_WORKERS |
                        IORING_FEAT_RSRC_TAGS | IORING_FEAT_CQE_SKIP |
                        IORING_FEAT_LINKED_FILE | IORING_FEAT_REG_REG_RING |
-                       IORING_FEAT_RECVSEND_BUNDLE;
+                       IORING_FEAT_RECVSEND_BUNDLE | IORING_FEAT_MIN_TIMEOUT;
 
        if (copy_to_user(params, p, sizeof(*p))) {
                ret = -EFAULT;