zbd: don't lock zones outside working area
[fio.git] / zbd.c
diff --git a/zbd.c b/zbd.c
index b89d56c42fa428ab2db93a48ee087ff06a99bc6e..7185d85caa84ffca0c339047b86cf52b108a2e4b 100644 (file)
--- a/zbd.c
+++ b/zbd.c
@@ -7,11 +7,11 @@
 #include <errno.h>
 #include <string.h>
 #include <stdlib.h>
-#include <dirent.h>
 #include <fcntl.h>
 #include <sys/stat.h>
 #include <unistd.h>
 
+#include "os/os.h"
 #include "file.h"
 #include "fio.h"
 #include "lib/pow2.h"
@@ -31,7 +31,10 @@ int zbd_get_zoned_model(struct thread_data *td, struct fio_file *f,
 {
        int ret;
 
-       ret = blkzoned_get_zoned_model(td, f, model);
+       if (td->io_ops && td->io_ops->get_zoned_model)
+               ret = td->io_ops->get_zoned_model(td, f, model);
+       else
+               ret = blkzoned_get_zoned_model(td, f, model);
        if (ret < 0) {
                td_verror(td, errno, "get zoned model failed");
                log_err("%s: get zoned model failed (%d).\n",
@@ -62,7 +65,10 @@ int zbd_report_zones(struct thread_data *td, struct fio_file *f,
 {
        int ret;
 
-       ret = blkzoned_report_zones(td, f, offset, zones, nr_zones);
+       if (td->io_ops && td->io_ops->report_zones)
+               ret = td->io_ops->report_zones(td, f, offset, zones, nr_zones);
+       else
+               ret = blkzoned_report_zones(td, f, offset, zones, nr_zones);
        if (ret < 0) {
                td_verror(td, errno, "report zones failed");
                log_err("%s: report zones from sector %llu failed (%d).\n",
@@ -92,7 +98,10 @@ int zbd_reset_wp(struct thread_data *td, struct fio_file *f,
 {
        int ret;
 
-       ret = blkzoned_reset_wp(td, f, offset, length);
+       if (td->io_ops && td->io_ops->reset_wp)
+               ret = td->io_ops->reset_wp(td, f, offset, length);
+       else
+               ret = blkzoned_reset_wp(td, f, offset, length);
        if (ret < 0) {
                td_verror(td, errno, "resetting wp failed");
                log_err("%s: resetting wp for %llu sectors at sector %llu failed (%d).\n",
@@ -147,8 +156,14 @@ static bool zbd_zone_full(const struct fio_file *f, struct fio_zone_info *z,
                z->wp + required > z->start + f->zbd_info->zone_size;
 }
 
-static void zone_lock(struct thread_data *td, struct fio_zone_info *z)
+static void zone_lock(struct thread_data *td, struct fio_file *f, struct fio_zone_info *z)
 {
+       struct zoned_block_device_info *zbd = f->zbd_info;
+       uint32_t nz = z - zbd->zone_info;
+
+       /* A thread should never lock zones outside its working area. */
+       assert(f->min_zone <= nz && nz < f->max_zone);
+
        /*
         * Lock the io_u target zone. The zone will be unlocked if io_u offset
         * is changed or when io_u completes and zbd_put_io() executed.
@@ -253,7 +268,8 @@ static bool zbd_verify_sizes(void)
 
                        zone_idx = zbd_zone_idx(f, f->file_offset);
                        z = &f->zbd_info->zone_info[zone_idx];
-                       if (f->file_offset != z->start) {
+                       if ((f->file_offset != z->start) &&
+                           (td->o.td_ddir != TD_DDIR_READ)) {
                                new_offset = (z+1)->start;
                                if (new_offset >= f->file_offset + f->io_size) {
                                        log_info("%s: io_size must be at least one zone\n",
@@ -269,7 +285,8 @@ static bool zbd_verify_sizes(void)
                        zone_idx = zbd_zone_idx(f, f->file_offset + f->io_size);
                        z = &f->zbd_info->zone_info[zone_idx];
                        new_end = z->start;
-                       if (f->file_offset + f->io_size != new_end) {
+                       if ((td->o.td_ddir != TD_DDIR_READ) &&
+                           (f->file_offset + f->io_size != new_end)) {
                                if (new_end <= f->file_offset) {
                                        log_info("%s: io_size must be at least one zone\n",
                                                 f->file_name);
@@ -280,6 +297,9 @@ static bool zbd_verify_sizes(void)
                                         (unsigned long long) new_end - f->file_offset);
                                f->io_size = new_end - f->file_offset;
                        }
+
+                       f->min_zone = zbd_zone_idx(f, f->file_offset);
+                       f->max_zone = zbd_zone_idx(f, f->file_offset + f->io_size);
                }
        }
 
@@ -537,8 +557,7 @@ void zbd_free_zone_info(struct fio_file *f)
 {
        uint32_t refcount;
 
-       if (!f->zbd_info)
-               return;
+       assert(f->zbd_info);
 
        pthread_mutex_lock(&f->zbd_info->mutex);
        refcount = --f->zbd_info->refcount;
@@ -583,7 +602,7 @@ static int zbd_init_zone_info(struct thread_data *td, struct fio_file *file)
        return ret;
 }
 
-int zbd_init(struct thread_data *td)
+int zbd_setup_files(struct thread_data *td)
 {
        struct fio_file *f;
        int i;
@@ -623,7 +642,6 @@ static int zbd_reset_range(struct thread_data *td, struct fio_file *f,
        struct fio_zone_info *zb, *ze, *z;
        int ret = 0;
 
-       assert(f->fd != -1);
        assert(is_valid_offset(f, offset + length - 1));
 
        switch (f->zbd_info->model) {
@@ -679,6 +697,22 @@ static int zbd_reset_zone(struct thread_data *td, struct fio_file *f,
        return zbd_reset_range(td, f, z->start, (z+1)->start - z->start);
 }
 
+/* The caller must hold f->zbd_info->mutex */
+static void zbd_close_zone(struct thread_data *td, const struct fio_file *f,
+                          unsigned int open_zone_idx)
+{
+       uint32_t zone_idx;
+
+       assert(open_zone_idx < f->zbd_info->num_open_zones);
+       zone_idx = f->zbd_info->open_zones[open_zone_idx];
+       memmove(f->zbd_info->open_zones + open_zone_idx,
+               f->zbd_info->open_zones + open_zone_idx + 1,
+               (ZBD_MAX_OPEN_ZONES - (open_zone_idx + 1)) *
+               sizeof(f->zbd_info->open_zones[0]));
+       f->zbd_info->num_open_zones--;
+       f->zbd_info->zone_info[zone_idx].open = 0;
+}
+
 /*
  * Reset a range of zones. Returns 0 upon success and 1 upon failure.
  * @td: fio thread data.
@@ -697,16 +731,30 @@ static int zbd_reset_zones(struct thread_data *td, struct fio_file *f,
        bool reset_wp;
        int res = 0;
 
+       assert(min_bs);
+
        dprint(FD_ZBD, "%s: examining zones %u .. %u\n", f->file_name,
                zbd_zone_nr(f->zbd_info, zb), zbd_zone_nr(f->zbd_info, ze));
-       assert(f->fd != -1);
        for (z = zb; z < ze; z++) {
+               uint32_t nz = z - f->zbd_info->zone_info;
+
                if (!zbd_zone_swr(z))
                        continue;
-               zone_lock(td, z);
-               reset_wp = all_zones ? z->wp != z->start :
-                               (td->o.td_ddir & TD_DDIR_WRITE) &&
-                               z->wp % min_bs != 0;
+               zone_lock(td, f, z);
+               if (all_zones) {
+                       unsigned int i;
+
+                       pthread_mutex_lock(&f->zbd_info->mutex);
+                       for (i = 0; i < f->zbd_info->num_open_zones; i++) {
+                               if (f->zbd_info->open_zones[i] == nz)
+                                       zbd_close_zone(td, f, i);
+                       }
+                       pthread_mutex_unlock(&f->zbd_info->mutex);
+
+                       reset_wp = z->wp != z->start;
+               } else {
+                       reset_wp = z->wp % min_bs != 0;
+               }
                if (reset_wp) {
                        dprint(FD_ZBD, "%s: resetting zone %u\n",
                               f->file_name,
@@ -815,14 +863,12 @@ static void zbd_init_swd(struct fio_file *f)
 void zbd_file_reset(struct thread_data *td, struct fio_file *f)
 {
        struct fio_zone_info *zb, *ze;
-       uint32_t zone_idx_e;
 
-       if (!f->zbd_info)
+       if (!f->zbd_info || !td_write(td))
                return;
 
-       zb = &f->zbd_info->zone_info[zbd_zone_idx(f, f->file_offset)];
-       zone_idx_e = zbd_zone_idx(f, f->file_offset + f->io_size);
-       ze = &f->zbd_info->zone_info[zone_idx_e];
+       zb = &f->zbd_info->zone_info[f->min_zone];
+       ze = &f->zbd_info->zone_info[f->max_zone];
        zbd_init_swd(f);
        /*
         * If data verification is enabled reset the affected zones before
@@ -830,7 +876,6 @@ void zbd_file_reset(struct thread_data *td, struct fio_file *f)
         * writing data, which causes data loss.
         */
        zbd_reset_zones(td, f, zb, ze, td->o.verify != VERIFY_NONE &&
-                       (td->o.td_ddir & TD_DDIR_WRITE) &&
                        td->runstate != TD_VERIFYING);
        zbd_reset_write_cnt(td, f);
 }
@@ -896,22 +941,6 @@ out:
        return res;
 }
 
-/* The caller must hold f->zbd_info->mutex */
-static void zbd_close_zone(struct thread_data *td, const struct fio_file *f,
-                          unsigned int open_zone_idx)
-{
-       uint32_t zone_idx;
-
-       assert(open_zone_idx < f->zbd_info->num_open_zones);
-       zone_idx = f->zbd_info->open_zones[open_zone_idx];
-       memmove(f->zbd_info->open_zones + open_zone_idx,
-               f->zbd_info->open_zones + open_zone_idx + 1,
-               (ZBD_MAX_OPEN_ZONES - (open_zone_idx + 1)) *
-               sizeof(f->zbd_info->open_zones[0]));
-       f->zbd_info->num_open_zones--;
-       f->zbd_info->zone_info[zone_idx].open = 0;
-}
-
 /* Anything goes as long as it is not a constant. */
 static uint32_t pick_random_zone_idx(const struct fio_file *f,
                                     const struct io_u *io_u)
@@ -930,7 +959,7 @@ static struct fio_zone_info *zbd_convert_to_open_zone(struct thread_data *td,
                                                      struct io_u *io_u)
 {
        const uint32_t min_bs = td->o.min_bs[io_u->ddir];
-       const struct fio_file *f = io_u->file;
+       struct fio_file *f = io_u->file;
        struct fio_zone_info *z;
        unsigned int open_zone_idx = -1;
        uint32_t zone_idx, new_zone_idx;
@@ -947,6 +976,10 @@ static struct fio_zone_info *zbd_convert_to_open_zone(struct thread_data *td,
        } else {
                zone_idx = zbd_zone_idx(f, io_u->offset);
        }
+       if (zone_idx < f->min_zone)
+               zone_idx = f->min_zone;
+       else if (zone_idx >= f->max_zone)
+               zone_idx = f->max_zone - 1;
        dprint(FD_ZBD, "%s(%s): starting from zone %d (offset %lld, buflen %lld)\n",
               __func__, f->file_name, zone_idx, io_u->offset, io_u->buflen);
 
@@ -961,7 +994,7 @@ static struct fio_zone_info *zbd_convert_to_open_zone(struct thread_data *td,
 
                z = &f->zbd_info->zone_info[zone_idx];
 
-               zone_lock(td, z);
+               zone_lock(td, f, z);
                pthread_mutex_lock(&f->zbd_info->mutex);
                if (td->o.max_open_zones == 0)
                        goto examine_zone;
@@ -987,8 +1020,7 @@ static struct fio_zone_info *zbd_convert_to_open_zone(struct thread_data *td,
                        if (tmp_idx >= f->zbd_info->num_open_zones)
                                tmp_idx = 0;
                        tmpz = f->zbd_info->open_zones[tmp_idx];
-
-                       if (is_valid_offset(f, f->zbd_info->zone_info[tmpz].start)) {
+                       if (f->min_zone <= tmpz && tmpz < f->max_zone) {
                                open_zone_idx = tmp_idx;
                                goto found_candidate_zone;
                        }
@@ -998,6 +1030,8 @@ static struct fio_zone_info *zbd_convert_to_open_zone(struct thread_data *td,
 
                dprint(FD_ZBD, "%s(%s): no candidate zone\n",
                        __func__, f->file_name);
+               pthread_mutex_unlock(&f->zbd_info->mutex);
+               pthread_mutex_unlock(&z->mutex);
                return NULL;
 
 found_candidate_zone:
@@ -1031,11 +1065,11 @@ examine_zone:
                z++;
                if (!is_valid_offset(f, z->start)) {
                        /* Wrap-around. */
-                       zone_idx = zbd_zone_idx(f, f->file_offset);
+                       zone_idx = f->min_zone;
                        z = &f->zbd_info->zone_info[zone_idx];
                }
                assert(is_valid_offset(f, z->start));
-               zone_lock(td, z);
+               zone_lock(td, f, z);
                if (z->open)
                        continue;
                if (zbd_open_zone(td, io_u, zone_idx))
@@ -1048,12 +1082,14 @@ examine_zone:
        pthread_mutex_lock(&f->zbd_info->mutex);
        for (i = 0; i < f->zbd_info->num_open_zones; i++) {
                zone_idx = f->zbd_info->open_zones[i];
+               if (zone_idx < f->min_zone || zone_idx >= f->max_zone)
+                       continue;
                pthread_mutex_unlock(&f->zbd_info->mutex);
                pthread_mutex_unlock(&z->mutex);
 
                z = &f->zbd_info->zone_info[zone_idx];
 
-               zone_lock(td, z);
+               zone_lock(td, f, z);
                if (z->wp + min_bs <= (z+1)->start)
                        goto out;
                pthread_mutex_lock(&f->zbd_info->mutex);
@@ -1105,7 +1141,7 @@ zbd_find_zone(struct thread_data *td, struct io_u *io_u,
              struct fio_zone_info *zb, struct fio_zone_info *zl)
 {
        const uint32_t min_bs = td->o.min_bs[io_u->ddir];
-       const struct fio_file *f = io_u->file;
+       struct fio_file *f = io_u->file;
        struct fio_zone_info *z1, *z2;
        const struct fio_zone_info *const zf =
                &f->zbd_info->zone_info[zbd_zone_idx(f, f->file_offset)];
@@ -1116,7 +1152,7 @@ zbd_find_zone(struct thread_data *td, struct io_u *io_u,
         */
        for (z1 = zb + 1, z2 = zb - 1; z1 < zl || z2 >= zf; z1++, z2--) {
                if (z1 < zl && z1->cond != ZBD_ZONE_COND_OFFLINE) {
-                       pthread_mutex_lock(&z1->mutex);
+                       zone_lock(td, f, z1);
                        if (z1->start + min_bs <= z1->wp)
                                return z1;
                        pthread_mutex_unlock(&z1->mutex);
@@ -1125,7 +1161,7 @@ zbd_find_zone(struct thread_data *td, struct io_u *io_u,
                }
                if (td_random(td) && z2 >= zf &&
                    z2->cond != ZBD_ZONE_COND_OFFLINE) {
-                       pthread_mutex_lock(&z2->mutex);
+                       zone_lock(td, f, z2);
                        if (z2->start + min_bs <= z2->wp)
                                return z2;
                        pthread_mutex_unlock(&z2->mutex);
@@ -1209,6 +1245,7 @@ static void zbd_put_io(const struct io_u *io_u)
        struct zoned_block_device_info *zbd_info = f->zbd_info;
        struct fio_zone_info *z;
        uint32_t zone_idx;
+       int ret;
 
        if (!zbd_info)
                return;
@@ -1224,10 +1261,18 @@ static void zbd_put_io(const struct io_u *io_u)
               "%s: terminate I/O (%lld, %llu) for zone %u\n",
               f->file_name, io_u->offset, io_u->buflen, zone_idx);
 
-       assert(pthread_mutex_unlock(&z->mutex) == 0);
+       ret = pthread_mutex_unlock(&z->mutex);
+       assert(ret == 0);
        zbd_check_swd(f);
 }
 
+/*
+ * Windows and MacOS do not define this.
+ */
+#ifndef EREMOTEIO
+#define EREMOTEIO      121     /* POSIX value */
+#endif
+
 bool zbd_unaligned_write(int error_code)
 {
        switch (error_code) {
@@ -1297,6 +1342,34 @@ void setup_zbd_zone_mode(struct thread_data *td, struct io_u *io_u)
        }
 }
 
+/**
+ * zbd_adjust_ddir - Adjust an I/O direction for zonedmode=zbd.
+ *
+ * @td: FIO thread data.
+ * @io_u: FIO I/O unit.
+ * @ddir: I/O direction before adjustment.
+ *
+ * Return adjusted I/O direction.
+ */
+enum fio_ddir zbd_adjust_ddir(struct thread_data *td, struct io_u *io_u,
+                             enum fio_ddir ddir)
+{
+       /*
+        * In case read direction is chosen for the first random I/O, fio with
+        * zonemode=zbd stops because no data can be read from zoned block
+        * devices with all empty zones. Overwrite the first I/O direction as
+        * write to make sure data to read exists.
+        */
+       if (ddir != DDIR_READ || !td_rw(td))
+               return ddir;
+
+       if (io_u->file->zbd_info->sectors_with_data ||
+           td->o.read_beyond_wp)
+               return DDIR_READ;
+
+       return DDIR_WRITE;
+}
+
 /**
  * zbd_adjust_block - adjust the offset and length as necessary for ZBD drives
  * @td: FIO thread data.
@@ -1319,6 +1392,7 @@ enum io_u_action zbd_adjust_block(struct thread_data *td, struct io_u *io_u)
        if (!f->zbd_info)
                return io_u_accept;
 
+       assert(min_bs);
        assert(is_valid_offset(f, io_u->offset));
        assert(io_u->buflen);
        zone_idx_b = zbd_zone_idx(f, io_u->offset);
@@ -1339,12 +1413,13 @@ enum io_u_action zbd_adjust_block(struct thread_data *td, struct io_u *io_u)
 
        zbd_check_swd(f);
 
-       zone_lock(td, zb);
+       zone_lock(td, f, zb);
 
        switch (io_u->ddir) {
        case DDIR_READ:
                if (td->runstate == TD_VERIFYING) {
-                       zb = zbd_replay_write_order(td, io_u, zb);
+                       if (td_write(td))
+                               zb = zbd_replay_write_order(td, io_u, zb);
                        goto accept;
                }
                /*