Add strong madvise() hint for cache pruning
[fio.git] / engines / posixaio.c
index 7d9aaaf18314bffe3ea30fe211918d69e89b8095..3ffdcb6bccc8d062b1be302b27c3cb004bd57d11 100644 (file)
@@ -8,15 +8,15 @@
 #include <stdlib.h>
 #include <unistd.h>
 #include <errno.h>
-#include <assert.h>
+#include <fcntl.h>
 
 #include "../fio.h"
-#include "../os.h"
 
 #ifdef FIO_HAVE_POSIXAIO
 
 struct posixaio_data {
        struct io_u **aio_events;
+       unsigned int queued;
 };
 
 static int fill_timespec(struct timespec *ts)
@@ -77,40 +77,54 @@ static int fio_posixaio_prep(struct thread_data fio_unused *td,
        return 0;
 }
 
-static int fio_posixaio_getevents(struct thread_data *td, int min, int max,
-                                 struct timespec *t)
+#define SUSPEND_ENTRIES        8
+
+static int fio_posixaio_getevents(struct thread_data *td, unsigned int min,
+                                 unsigned int max, struct timespec *t)
 {
        struct posixaio_data *pd = td->io_ops->data;
-       struct list_head *entry;
+       struct aiocb *suspend_list[SUSPEND_ENTRIES];
+       struct flist_head *entry;
        struct timespec start;
-       int r, have_timeout = 0;
+       int have_timeout = 0;
+       int suspend_entries = 0;
+       unsigned int r;
 
        if (t && !fill_timespec(&start))
                have_timeout = 1;
 
        r = 0;
+       memset(suspend_list, 0, sizeof(*suspend_list));
 restart:
-       list_for_each(entry, &td->io_u_busylist) {
-               struct io_u *io_u = list_entry(entry, struct io_u, list);
+       flist_for_each(entry, &td->io_u_busylist) {
+               struct io_u *io_u = flist_entry(entry, struct io_u, list);
                int err;
 
                if (io_u->seen)
                        continue;
 
                err = aio_error(&io_u->aiocb);
-               switch (err) {
-                       default:
-                               io_u->error = err;
-                       case ECANCELED:
-                               io_u->resid = io_u->xfer_buflen;
-                       case 0:
-                               pd->aio_events[r++] = io_u;
-                               io_u->seen = 1;
-                               break;
-                       case EINPROGRESS:
-                               break;
+               if (err == EINPROGRESS) {
+                       if (suspend_entries < SUSPEND_ENTRIES) {
+                               suspend_list[suspend_entries] = &io_u->aiocb;
+                               suspend_entries++;
+                       }
+                       continue;
                }
 
+               io_u->seen = 1;
+               pd->queued--;
+               pd->aio_events[r++] = io_u;
+
+               if (err == ECANCELED)
+                       io_u->resid = io_u->xfer_buflen;
+               else if (!err) {
+                       ssize_t retval = aio_return(&io_u->aiocb);
+
+                       io_u->resid = io_u->xfer_buflen - retval;
+               } else
+                       io_u->error = err;
+
                if (r >= max)
                        break;
        }
@@ -127,10 +141,10 @@ restart:
        }
 
        /*
-        * hrmpf, we need to wait for more. we should use aio_suspend, for
-        * now just sleep a little and recheck status of busy-and-not-seen
+        * must have some in-flight, wait for at least one
         */
-       usleep(1000);
+       aio_suspend((const struct aiocb * const *)suspend_list,
+                                                       suspend_entries, t);
        goto restart;
 }
 
@@ -144,22 +158,37 @@ static struct io_u *fio_posixaio_event(struct thread_data *td, int event)
 static int fio_posixaio_queue(struct thread_data fio_unused *td,
                              struct io_u *io_u)
 {
+       struct posixaio_data *pd = td->io_ops->data;
        struct aiocb *aiocb = &io_u->aiocb;
        int ret;
 
+       fio_ro_check(td, io_u);
+
        if (io_u->ddir == DDIR_READ)
                ret = aio_read(aiocb);
        else if (io_u->ddir == DDIR_WRITE)
                ret = aio_write(aiocb);
-       else
+       else {
+#ifdef FIO_HAVE_POSIXAIO_FSYNC
                ret = aio_fsync(O_SYNC, aiocb);
+#else
+               if (pd->queued)
+                       return FIO_Q_BUSY;
+
+               if (fsync(io_u->file->fd) < 0)
+                       io_u->error = errno;
 
+               return FIO_Q_COMPLETED;
+#endif
+       }
+               
        if (ret) {
                io_u->error = errno;
                td_verror(td, io_u->error, "xfer");
                return FIO_Q_COMPLETED;
        }
 
+       pd->queued++;
        return FIO_Q_QUEUED;
 }
 
@@ -170,7 +199,6 @@ static void fio_posixaio_cleanup(struct thread_data *td)
        if (pd) {
                free(pd->aio_events);
                free(pd);
-               td->io_ops->data = NULL;
        }
 }
 
@@ -179,8 +207,8 @@ static int fio_posixaio_init(struct thread_data *td)
        struct posixaio_data *pd = malloc(sizeof(*pd));
 
        memset(pd, 0, sizeof(*pd));
-       pd->aio_events = malloc(td->iodepth * sizeof(struct io_u *));
-       memset(pd->aio_events, 0, td->iodepth * sizeof(struct io_u *));
+       pd->aio_events = malloc(td->o.iodepth * sizeof(struct io_u *));
+       memset(pd->aio_events, 0, td->o.iodepth * sizeof(struct io_u *));
 
        td->io_ops->data = pd;
        return 0;
@@ -198,6 +226,7 @@ static struct ioengine_ops ioengine = {
        .cleanup        = fio_posixaio_cleanup,
        .open_file      = generic_open_file,
        .close_file     = generic_close_file,
+       .get_file_size  = generic_get_file_size,
 };
 
 #else /* FIO_HAVE_POSIXAIO */