t/zbd: avoid test case 31 failure with small devices
[fio.git] / engines / rdma.c
index 7fbfad99fa3fa28d3ed9a30d8d31202542144a91..07336f3b889f1dc6441bcd787f49b673e56a733a 100644 (file)
@@ -30,7 +30,7 @@
 #include <netinet/in.h>
 #include <arpa/inet.h>
 #include <netdb.h>
-#include <sys/poll.h>
+#include <poll.h>
 #include <sys/types.h>
 #include <sys/socket.h>
 #include <sys/time.h>
@@ -44,7 +44,6 @@
 #include "../optgroup.h"
 
 #include <rdma/rdma_cma.h>
-#include <infiniband/arch.h>
 
 #define FIO_RDMA_MAX_IO_DEPTH    512
 
@@ -60,6 +59,7 @@ struct rdmaio_options {
        struct thread_data *td;
        unsigned int port;
        enum rdma_io_mode verb;
+       char *bindname;
 };
 
 static int str_hostname_cb(void *data, const char *input)
@@ -82,6 +82,16 @@ static struct fio_option options[] = {
                .category = FIO_OPT_C_ENGINE,
                .group  = FIO_OPT_G_RDMA,
        },
+       {
+               .name   = "bindname",
+               .lname  = "rdma engine bindname",
+               .type   = FIO_OPT_STR_STORE,
+               .off1   = offsetof(struct rdmaio_options, bindname),
+               .help   = "Bind for RDMA IO engine",
+               .def    = "",
+               .category = FIO_OPT_C_ENGINE,
+               .group  = FIO_OPT_G_RDMA,
+       },
        {
                .name   = "port",
                .lname  = "rdma engine port",
@@ -191,7 +201,7 @@ struct rdmaio_data {
 
 static int client_recv(struct thread_data *td, struct ibv_wc *wc)
 {
-       struct rdmaio_data *rd = td->io_ops->data;
+       struct rdmaio_data *rd = td->io_ops_data;
        unsigned int max_bs;
 
        if (wc->byte_len != sizeof(rd->recv_buf)) {
@@ -216,7 +226,8 @@ static int client_recv(struct thread_data *td, struct ibv_wc *wc)
                rd->rmt_nr = ntohl(rd->recv_buf.nr);
 
                for (i = 0; i < rd->rmt_nr; i++) {
-                       rd->rmt_us[i].buf = ntohll(rd->recv_buf.rmt_us[i].buf);
+                       rd->rmt_us[i].buf = __be64_to_cpu(
+                                               rd->recv_buf.rmt_us[i].buf);
                        rd->rmt_us[i].rkey = ntohl(rd->recv_buf.rmt_us[i].rkey);
                        rd->rmt_us[i].size = ntohl(rd->recv_buf.rmt_us[i].size);
 
@@ -232,7 +243,7 @@ static int client_recv(struct thread_data *td, struct ibv_wc *wc)
 
 static int server_recv(struct thread_data *td, struct ibv_wc *wc)
 {
-       struct rdmaio_data *rd = td->io_ops->data;
+       struct rdmaio_data *rd = td->io_ops_data;
        unsigned int max_bs;
 
        if (wc->wr_id == FIO_RDMA_MAX_IO_DEPTH) {
@@ -257,7 +268,7 @@ static int server_recv(struct thread_data *td, struct ibv_wc *wc)
 
 static int cq_event_handler(struct thread_data *td, enum ibv_wc_opcode opcode)
 {
-       struct rdmaio_data *rd = td->io_ops->data;
+       struct rdmaio_data *rd = td->io_ops_data;
        struct ibv_wc wc;
        struct rdma_io_u_data *r_io_u_d;
        int ret;
@@ -265,7 +276,6 @@ static int cq_event_handler(struct thread_data *td, enum ibv_wc_opcode opcode)
        int i;
 
        while ((ret = ibv_poll_cq(rd->cq, 1, &wc)) == 1) {
-               ret = 0;
                compevnum++;
 
                if (wc.status) {
@@ -368,7 +378,7 @@ static int cq_event_handler(struct thread_data *td, enum ibv_wc_opcode opcode)
  */
 static int rdma_poll_wait(struct thread_data *td, enum ibv_wc_opcode opcode)
 {
-       struct rdmaio_data *rd = td->io_ops->data;
+       struct rdmaio_data *rd = td->io_ops_data;
        struct ibv_cq *ev_cq;
        void *ev_ctx;
        int ret;
@@ -405,7 +415,7 @@ again:
 
 static int fio_rdmaio_setup_qp(struct thread_data *td)
 {
-       struct rdmaio_data *rd = td->io_ops->data;
+       struct rdmaio_data *rd = td->io_ops_data;
        struct ibv_qp_init_attr init_attr;
        int qp_depth = td->o.iodepth * 2;       /* 2 times of io depth */
 
@@ -485,7 +495,7 @@ err1:
 
 static int fio_rdmaio_setup_control_msg_buffers(struct thread_data *td)
 {
-       struct rdmaio_data *rd = td->io_ops->data;
+       struct rdmaio_data *rd = td->io_ops_data;
 
        rd->recv_mr = ibv_reg_mr(rd->pd, &rd->recv_buf, sizeof(rd->recv_buf),
                                 IBV_ACCESS_LOCAL_WRITE);
@@ -529,7 +539,7 @@ static int get_next_channel_event(struct thread_data *td,
                                  struct rdma_event_channel *channel,
                                  enum rdma_cm_event_type wait_event)
 {
-       struct rdmaio_data *rd = td->io_ops->data;
+       struct rdmaio_data *rd = td->io_ops_data;
        struct rdma_cm_event *event;
        int ret;
 
@@ -561,7 +571,7 @@ static int get_next_channel_event(struct thread_data *td,
 
 static int fio_rdmaio_prep(struct thread_data *td, struct io_u *io_u)
 {
-       struct rdmaio_data *rd = td->io_ops->data;
+       struct rdmaio_data *rd = td->io_ops_data;
        struct rdma_io_u_data *r_io_u_d;
 
        r_io_u_d = io_u->engine_data;
@@ -604,7 +614,7 @@ static int fio_rdmaio_prep(struct thread_data *td, struct io_u *io_u)
 
 static struct io_u *fio_rdmaio_event(struct thread_data *td, int event)
 {
-       struct rdmaio_data *rd = td->io_ops->data;
+       struct rdmaio_data *rd = td->io_ops_data;
        struct io_u *io_u;
        int i;
 
@@ -622,7 +632,7 @@ static struct io_u *fio_rdmaio_event(struct thread_data *td, int event)
 static int fio_rdmaio_getevents(struct thread_data *td, unsigned int min,
                                unsigned int max, const struct timespec *t)
 {
-       struct rdmaio_data *rd = td->io_ops->data;
+       struct rdmaio_data *rd = td->io_ops_data;
        enum ibv_wc_opcode comp_opcode;
        struct ibv_cq *ev_cq;
        void *ev_ctx;
@@ -684,7 +694,7 @@ again:
 static int fio_rdmaio_send(struct thread_data *td, struct io_u **io_us,
                           unsigned int nr)
 {
-       struct rdmaio_data *rd = td->io_ops->data;
+       struct rdmaio_data *rd = td->io_ops_data;
        struct ibv_send_wr *bad_wr;
 #if 0
        enum ibv_wc_opcode comp_opcode;
@@ -747,7 +757,7 @@ static int fio_rdmaio_send(struct thread_data *td, struct io_u **io_us,
 static int fio_rdmaio_recv(struct thread_data *td, struct io_u **io_us,
                           unsigned int nr)
 {
-       struct rdmaio_data *rd = td->io_ops->data;
+       struct rdmaio_data *rd = td->io_ops_data;
        struct ibv_recv_wr *bad_wr;
        struct rdma_io_u_data *r_io_u_d;
        int i;
@@ -781,9 +791,10 @@ static int fio_rdmaio_recv(struct thread_data *td, struct io_u **io_us,
        return i;
 }
 
-static int fio_rdmaio_queue(struct thread_data *td, struct io_u *io_u)
+static enum fio_q_status fio_rdmaio_queue(struct thread_data *td,
+                                         struct io_u *io_u)
 {
-       struct rdmaio_data *rd = td->io_ops->data;
+       struct rdmaio_data *rd = td->io_ops_data;
 
        fio_ro_check(td, io_u);
 
@@ -801,8 +812,8 @@ static int fio_rdmaio_queue(struct thread_data *td, struct io_u *io_u)
 static void fio_rdmaio_queued(struct thread_data *td, struct io_u **io_us,
                              unsigned int nr)
 {
-       struct rdmaio_data *rd = td->io_ops->data;
-       struct timeval now;
+       struct rdmaio_data *rd = td->io_ops_data;
+       struct timespec now;
        unsigned int i;
 
        if (!fio_fill_issue_time(td))
@@ -820,11 +831,17 @@ static void fio_rdmaio_queued(struct thread_data *td, struct io_u **io_us,
                memcpy(&io_u->issue_time, &now, sizeof(now));
                io_u_queued(td, io_u);
        }
+
+       /*
+        * only used for iolog
+        */
+       if (td->o.read_iolog_file)
+               memcpy(&td->last_issue, &now, sizeof(now));
 }
 
 static int fio_rdmaio_commit(struct thread_data *td)
 {
-       struct rdmaio_data *rd = td->io_ops->data;
+       struct rdmaio_data *rd = td->io_ops_data;
        struct io_u **io_us;
        int ret;
 
@@ -838,8 +855,6 @@ static int fio_rdmaio_commit(struct thread_data *td)
                        ret = fio_rdmaio_send(td, io_us, rd->io_u_queued_nr);
                else if (!rd->is_client)
                        ret = fio_rdmaio_recv(td, io_us, rd->io_u_queued_nr);
-               else
-                       ret = 0;        /* must be a SYNC */
 
                if (ret > 0) {
                        fio_rdmaio_queued(td, io_us, ret);
@@ -856,7 +871,7 @@ static int fio_rdmaio_commit(struct thread_data *td)
 
 static int fio_rdmaio_connect(struct thread_data *td, struct fio_file *f)
 {
-       struct rdmaio_data *rd = td->io_ops->data;
+       struct rdmaio_data *rd = td->io_ops_data;
        struct rdma_conn_param conn_param;
        struct ibv_send_wr *bad_wr;
 
@@ -881,7 +896,7 @@ static int fio_rdmaio_connect(struct thread_data *td, struct fio_file *f)
        rd->send_buf.nr = htonl(td->o.iodepth);
 
        if (ibv_post_send(rd->qp, &rd->sq_wr, &bad_wr) != 0) {
-               log_err("fio: ibv_post_send fail: %m");
+               log_err("fio: ibv_post_send fail: %m\n");
                return 1;
        }
 
@@ -907,7 +922,7 @@ static int fio_rdmaio_connect(struct thread_data *td, struct fio_file *f)
 
 static int fio_rdmaio_accept(struct thread_data *td, struct fio_file *f)
 {
-       struct rdmaio_data *rd = td->io_ops->data;
+       struct rdmaio_data *rd = td->io_ops_data;
        struct rdma_conn_param conn_param;
        struct ibv_send_wr *bad_wr;
        int ret = 0;
@@ -932,7 +947,7 @@ static int fio_rdmaio_accept(struct thread_data *td, struct fio_file *f)
        ret = rdma_poll_wait(td, IBV_WC_RECV) < 0;
 
        if (ibv_post_send(rd->qp, &rd->sq_wr, &bad_wr) != 0) {
-               log_err("fio: ibv_post_send fail: %m");
+               log_err("fio: ibv_post_send fail: %m\n");
                return 1;
        }
 
@@ -952,7 +967,7 @@ static int fio_rdmaio_open_file(struct thread_data *td, struct fio_file *f)
 
 static int fio_rdmaio_close_file(struct thread_data *td, struct fio_file *f)
 {
-       struct rdmaio_data *rd = td->io_ops->data;
+       struct rdmaio_data *rd = td->io_ops_data;
        struct ibv_send_wr *bad_wr;
 
        /* unregister rdma buffer */
@@ -965,7 +980,7 @@ static int fio_rdmaio_close_file(struct thread_data *td, struct fio_file *f)
                                     || (rd->rdma_protocol ==
                                         FIO_RDMA_MEM_READ))) {
                if (ibv_post_send(rd->qp, &rd->sq_wr, &bad_wr) != 0) {
-                       log_err("fio: ibv_post_send fail: %m");
+                       log_err("fio: ibv_post_send fail: %m\n");
                        return 1;
                }
 
@@ -1005,30 +1020,53 @@ static int fio_rdmaio_close_file(struct thread_data *td, struct fio_file *f)
        return 0;
 }
 
+static int aton(struct thread_data *td, const char *host,
+                    struct sockaddr_in *addr)
+{
+       if (inet_aton(host, &addr->sin_addr) != 1) {
+               struct hostent *hent;
+
+               hent = gethostbyname(host);
+               if (!hent) {
+                       td_verror(td, errno, "gethostbyname");
+                       return 1;
+               }
+
+               memcpy(&addr->sin_addr, hent->h_addr, 4);
+       }
+       return 0;
+}
+
 static int fio_rdmaio_setup_connect(struct thread_data *td, const char *host,
                                    unsigned short port)
 {
-       struct rdmaio_data *rd = td->io_ops->data;
+       struct rdmaio_data *rd = td->io_ops_data;
+       struct rdmaio_options *o = td->eo;
+       struct sockaddr_storage addrb;
        struct ibv_recv_wr *bad_wr;
        int err;
 
        rd->addr.sin_family = AF_INET;
        rd->addr.sin_port = htons(port);
 
-       if (inet_aton(host, &rd->addr.sin_addr) != 1) {
-               struct hostent *hent;
+       err = aton(td, host, &rd->addr);
+       if (err)
+               return err;
 
-               hent = gethostbyname(host);
-               if (!hent) {
-                       td_verror(td, errno, "gethostbyname");
-                       return 1;
-               }
+       /* resolve route */
+       if (o->bindname && strlen(o->bindname)) {
+               addrb.ss_family = AF_INET;
+               err = aton(td, o->bindname, (struct sockaddr_in *)&addrb);
+               if (err)
+                       return err;
+               err = rdma_resolve_addr(rd->cm_id, (struct sockaddr *)&addrb,
+                                       (struct sockaddr *)&rd->addr, 2000);
 
-               memcpy(&rd->addr.sin_addr, hent->h_addr, 4);
+       } else {
+               err = rdma_resolve_addr(rd->cm_id, NULL,
+                                       (struct sockaddr *)&rd->addr, 2000);
        }
 
-       /* resolve route */
-       err = rdma_resolve_addr(rd->cm_id, NULL, (struct sockaddr *)&rd->addr, 2000);
        if (err != 0) {
                log_err("fio: rdma_resolve_addr: %d\n", err);
                return 1;
@@ -1072,16 +1110,21 @@ static int fio_rdmaio_setup_connect(struct thread_data *td, const char *host,
 
 static int fio_rdmaio_setup_listen(struct thread_data *td, short port)
 {
-       struct rdmaio_data *rd = td->io_ops->data;
+       struct rdmaio_data *rd = td->io_ops_data;
+       struct rdmaio_options *o = td->eo;
        struct ibv_recv_wr *bad_wr;
        int state = td->runstate;
 
        td_set_runstate(td, TD_SETTING_UP);
 
        rd->addr.sin_family = AF_INET;
-       rd->addr.sin_addr.s_addr = htonl(INADDR_ANY);
        rd->addr.sin_port = htons(port);
 
+       if (!o->bindname || !strlen(o->bindname))
+               rd->addr.sin_addr.s_addr = htonl(INADDR_ANY);
+       else
+               rd->addr.sin_addr.s_addr = htonl(*o->bindname);
+
        /* rdma_listen */
        if (rdma_bind_addr(rd->cm_id, (struct sockaddr *)&rd->addr) != 0) {
                log_err("fio: rdma_bind_addr fail: %m\n");
@@ -1154,9 +1197,10 @@ static int check_set_rlimits(struct thread_data *td)
 
 static int compat_options(struct thread_data *td)
 {
-       // The original RDMA engine had an ugly / seperator
+       // The original RDMA engine had an ugly / separator
        // on the filename for it's options. This function
-       // retains backwards compatibility with it.100
+       // retains backwards compatibility with it. Note we do not
+       // support setting the bindname option is this legacy mode.
 
        struct rdmaio_options *o = td->eo;
        char *modep, *portp;
@@ -1207,10 +1251,9 @@ bad_host:
 
 static int fio_rdmaio_init(struct thread_data *td)
 {
-       struct rdmaio_data *rd = td->io_ops->data;
+       struct rdmaio_data *rd = td->io_ops_data;
        struct rdmaio_options *o = td->eo;
-       unsigned int max_bs;
-       int ret, i;
+       int ret;
 
        if (td_rw(td)) {
                log_err("fio: rdma connections must be read OR write\n");
@@ -1250,23 +1293,18 @@ static int fio_rdmaio_init(struct thread_data *td)
 
        if ((rd->rdma_protocol == FIO_RDMA_MEM_WRITE) ||
            (rd->rdma_protocol == FIO_RDMA_MEM_READ)) {
-               rd->rmt_us =
-                       malloc(FIO_RDMA_MAX_IO_DEPTH * sizeof(struct remote_u));
-               memset(rd->rmt_us, 0,
-                       FIO_RDMA_MAX_IO_DEPTH * sizeof(struct remote_u));
+               rd->rmt_us = calloc(FIO_RDMA_MAX_IO_DEPTH,
+                                   sizeof(struct remote_u));
                rd->rmt_nr = 0;
        }
 
-       rd->io_us_queued = malloc(td->o.iodepth * sizeof(struct io_u *));
-       memset(rd->io_us_queued, 0, td->o.iodepth * sizeof(struct io_u *));
+       rd->io_us_queued = calloc(td->o.iodepth, sizeof(struct io_u *));
        rd->io_u_queued_nr = 0;
 
-       rd->io_us_flight = malloc(td->o.iodepth * sizeof(struct io_u *));
-       memset(rd->io_us_flight, 0, td->o.iodepth * sizeof(struct io_u *));
+       rd->io_us_flight = calloc(td->o.iodepth, sizeof(struct io_u *));
        rd->io_u_flight_nr = 0;
 
-       rd->io_us_completed = malloc(td->o.iodepth * sizeof(struct io_u *));
-       memset(rd->io_us_completed, 0, td->o.iodepth * sizeof(struct io_u *));
+       rd->io_us_completed = calloc(td->o.iodepth, sizeof(struct io_u *));
        rd->io_u_completed_nr = 0;
 
        if (td_read(td)) {      /* READ as the server */
@@ -1278,6 +1316,13 @@ static int fio_rdmaio_init(struct thread_data *td)
                rd->is_client = 1;
                ret = fio_rdmaio_setup_connect(td, td->o.filename, o->port);
        }
+       return ret;
+}
+static int fio_rdmaio_post_init(struct thread_data *td)
+{
+       unsigned int max_bs;
+       int i;
+       struct rdmaio_data *rd = td->io_ops_data;
 
        max_bs = max(td->o.max_bs[DDIR_READ], td->o.max_bs[DDIR_WRITE]);
        rd->send_buf.max_bs = htonl(max_bs);
@@ -1286,8 +1331,7 @@ static int fio_rdmaio_init(struct thread_data *td)
        for (i = 0; i < td->io_u_freelist.nr; i++) {
                struct io_u *io_u = td->io_u_freelist.io_us[i];
 
-               io_u->engine_data = malloc(sizeof(struct rdma_io_u_data));
-               memset(io_u->engine_data, 0, sizeof(struct rdma_io_u_data));
+               io_u->engine_data = calloc(1, sizeof(struct rdma_io_u_data));
                ((struct rdma_io_u_data *)io_u->engine_data)->wr_id = i;
 
                io_u->mr = ibv_reg_mr(rd->pd, io_u->buf, max_bs,
@@ -1300,7 +1344,7 @@ static int fio_rdmaio_init(struct thread_data *td)
                }
 
                rd->send_buf.rmt_us[i].buf =
-                   htonll((uint64_t) (unsigned long)io_u->buf);
+                   cpu_to_be64((uint64_t) (unsigned long)io_u->buf);
                rd->send_buf.rmt_us[i].rkey = htonl(io_u->mr->rkey);
                rd->send_buf.rmt_us[i].size = htonl(max_bs);
 
@@ -1311,12 +1355,12 @@ static int fio_rdmaio_init(struct thread_data *td)
 
        rd->send_buf.nr = htonl(i);
 
-       return ret;
+       return 0;
 }
 
 static void fio_rdmaio_cleanup(struct thread_data *td)
 {
-       struct rdmaio_data *rd = td->io_ops->data;
+       struct rdmaio_data *rd = td->io_ops_data;
 
        if (rd)
                free(rd);
@@ -1332,22 +1376,21 @@ static int fio_rdmaio_setup(struct thread_data *td)
                td->o.open_files++;
        }
 
-       if (!td->io_ops->data) {
-               rd = malloc(sizeof(*rd));
-
-               memset(rd, 0, sizeof(*rd));
-               init_rand_seed(&rd->rand_state, (unsigned int) GOLDEN_RATIO_PRIME, 0);
-               td->io_ops->data = rd;
+       if (!td->io_ops_data) {
+               rd = calloc(1, sizeof(*rd));
+               init_rand_seed(&rd->rand_state, (unsigned int) GOLDEN_RATIO_64, 0);
+               td->io_ops_data = rd;
        }
 
        return 0;
 }
 
-static struct ioengine_ops ioengine_rw = {
+FIO_STATIC struct ioengine_ops ioengine = {
        .name                   = "rdma",
        .version                = FIO_IOOPS_VERSION,
        .setup                  = fio_rdmaio_setup,
        .init                   = fio_rdmaio_init,
+       .post_init              = fio_rdmaio_post_init,
        .prep                   = fio_rdmaio_prep,
        .queue                  = fio_rdmaio_queue,
        .commit                 = fio_rdmaio_commit,
@@ -1356,17 +1399,18 @@ static struct ioengine_ops ioengine_rw = {
        .cleanup                = fio_rdmaio_cleanup,
        .open_file              = fio_rdmaio_open_file,
        .close_file             = fio_rdmaio_close_file,
-       .flags                  = FIO_DISKLESSIO | FIO_UNIDIR | FIO_PIPEIO,
+       .flags                  = FIO_DISKLESSIO | FIO_UNIDIR | FIO_PIPEIO |
+                                       FIO_ASYNCIO_SETS_ISSUE_TIME,
        .options                = options,
        .option_struct_size     = sizeof(struct rdmaio_options),
 };
 
 static void fio_init fio_rdmaio_register(void)
 {
-       register_ioengine(&ioengine_rw);
+       register_ioengine(&ioengine);
 }
 
 static void fio_exit fio_rdmaio_unregister(void)
 {
-       unregister_ioengine(&ioengine_rw);
+       unregister_ioengine(&ioengine);
 }