rbd: fixed busy-loop when using eventfd polling
[fio.git] / engines / rbd.c
index ee2ce813b9ae2d6e3bb2ac3649a9e909573ea7f0..8e7bd87c64d6bc251856ef9ec162f3c1097dbb73 100644 (file)
@@ -36,6 +36,7 @@ struct rbd_data {
        struct io_u **aio_events;
        struct io_u **sort_events;
        int fd; /* add for poll */
+       bool connected;
 };
 
 struct rbd_options {
@@ -111,6 +112,8 @@ static int _fio_setup_rbd_data(struct thread_data *td,
        if (!rbd)
                goto failed;
 
+       rbd->connected = false;
+
        /* add for poll, init fd: -1 */
        rbd->fd = -1;
 
@@ -143,7 +146,7 @@ static bool _fio_rbd_setup_poll(struct rbd_data *rbd)
        int r;
 
        /* add for rbd poll */
-       rbd->fd = eventfd(0, EFD_NONBLOCK);
+       rbd->fd = eventfd(0, EFD_SEMAPHORE);
        if (rbd->fd < 0) {
                log_err("eventfd failed.\n");
                return false;
@@ -287,7 +290,7 @@ static void _fio_rbd_finish_aiocb(rbd_completion_t comp, void *data)
         */
        ret = rbd_aio_get_return_value(fri->completion);
        if (ret < 0) {
-               io_u->error = ret;
+               io_u->error = -ret;
                io_u->resid = io_u->xfer_buflen;
        } else
                io_u->error = 0;
@@ -363,25 +366,37 @@ static int rbd_iter_events(struct thread_data *td, unsigned int *events,
        int event_num = 0;
        struct fio_rbd_iou *fri = NULL;
        rbd_completion_t comps[min_evts];
+       uint64_t counter;
+       bool completed;
 
        struct pollfd pfd;
        pfd.fd = rbd->fd;
        pfd.events = POLLIN;
 
-       ret = poll(&pfd, 1, -1);
+       ret = poll(&pfd, 1, wait ? -1 : 0);
        if (ret <= 0)
                return 0;
-
-       assert(pfd.revents & POLLIN);
+       if (!(pfd.revents & POLLIN))
+               return 0;
 
        event_num = rbd_poll_io_events(rbd->image, comps, min_evts);
 
        for (i = 0; i < event_num; i++) {
                fri = rbd_aio_get_arg(comps[i]);
                io_u = fri->io_u;
+
+               /* best effort to decrement the semaphore */
+               ret = read(rbd->fd, &counter, sizeof(counter));
+               if (ret <= 0)
+                       log_err("rbd_iter_events failed to decrement semaphore.\n");
+
+               completed = fri_check_complete(rbd, io_u, events);
+               assert(completed);
+
+               this_events++;
+       }
 #else
        io_u_qiter(&td->io_u_all, io_u, i) {
-#endif
                if (!(io_u->flags & IO_U_F_FLIGHT))
                        continue;
                if (rbd_io_u_seen(io_u))
@@ -392,6 +407,7 @@ static int rbd_iter_events(struct thread_data *td, unsigned int *events,
                else if (wait)
                        rbd->sort_events[sidx++] = io_u;
        }
+#endif
 
        if (!wait || !sidx)
                return this_events;
@@ -514,6 +530,7 @@ static int fio_rbd_queue(struct thread_data *td, struct io_u *io_u)
        } else {
                dprint(FD_IO, "%s: Warning: unhandled ddir: %d\n", __func__,
                       io_u->ddir);
+               r = -EINVAL;
                goto failed_comp;
        }
 
@@ -521,7 +538,7 @@ static int fio_rbd_queue(struct thread_data *td, struct io_u *io_u)
 failed_comp:
        rbd_aio_release(fri->completion);
 failed:
-       io_u->error = r;
+       io_u->error = -r;
        td_verror(td, io_u->error, "xfer");
        return FIO_Q_COMPLETED;
 }
@@ -529,6 +546,10 @@ failed:
 static int fio_rbd_init(struct thread_data *td)
 {
        int r;
+       struct rbd_data *rbd = td->io_ops_data;
+
+       if (rbd->connected)
+               return 0;
 
        r = _fio_rbd_connect(td);
        if (r) {
@@ -559,13 +580,8 @@ static int fio_rbd_setup(struct thread_data *td)
        rbd_image_info_t info;
        struct fio_file *f;
        struct rbd_data *rbd = NULL;
-       int major, minor, extra;
        int r;
 
-       /* log version of librbd. No cluster connection required. */
-       rbd_version(&major, &minor, &extra);
-       log_info("rbd engine: RBD version: %d.%d.%d\n", major, minor, extra);
-
        /* allocate engine specific structure to deal with librbd. */
        r = _fio_setup_rbd_data(td, &rbd);
        if (r) {
@@ -589,19 +605,20 @@ static int fio_rbd_setup(struct thread_data *td)
                log_err("fio_rbd_connect failed.\n");
                goto cleanup;
        }
+       rbd->connected = true;
 
        /* get size of the RADOS block device */
        r = rbd_stat(rbd->image, &info, sizeof(info));
        if (r < 0) {
                log_err("rbd_status failed.\n");
-               goto disconnect;
+               goto cleanup;
        } else if (info.size == 0) {
                log_err("image size should be larger than zero.\n");
                r = -EINVAL;
-               goto disconnect;
+               goto cleanup;
        }
 
-       dprint(FD_IO, "rbd-engine: image size: %lu\n", info.size);
+       dprint(FD_IO, "rbd-engine: image size: %" PRIu64 "\n", info.size);
 
        /* taken from "net" engine. Pretend we deal with files,
         * even if we do not have any ideas about files.
@@ -615,14 +632,8 @@ static int fio_rbd_setup(struct thread_data *td)
        f = td->files[0];
        f->real_file_size = info.size;
 
-       /* disconnect, then we were only connected to determine
-        * the size of the RBD.
-        */
-       _fio_rbd_disconnect(rbd);
        return 0;
 
-disconnect:
-       _fio_rbd_disconnect(rbd);
 cleanup:
        fio_rbd_cleanup(td);
        return r;