block: Disable write plugging for zoned block devices
authorDamien Le Moal <damien.lemoal@wdc.com>
Wed, 10 Jul 2019 16:18:31 +0000 (01:18 +0900)
committerJens Axboe <axboe@kernel.dk>
Wed, 10 Jul 2019 20:18:01 +0000 (14:18 -0600)
Simultaneously writing to a sequential zone of a zoned block device
from multiple contexts requires mutual exclusion for BIO issuing to
ensure that writes happen sequentially. However, even for a well
behaved user correctly implementing such synchronization, BIO plugging
may interfere and result in BIOs from the different contextx to be
reordered if plugging is done outside of the mutual exclusion section,
e.g. the plug was started by a function higher in the call chain than
the function issuing BIOs.

         Context A                     Context B

   | blk_start_plug()
   | ...
   | seq_write_zone()
     | mutex_lock(zone)
     | bio-0->bi_iter.bi_sector = zone->wp
     | zone->wp += bio_sectors(bio-0)
     | submit_bio(bio-0)
     | bio-1->bi_iter.bi_sector = zone->wp
     | zone->wp += bio_sectors(bio-1)
     | submit_bio(bio-1)
     | mutex_unlock(zone)
     | return
   | -----------------------> | seq_write_zone()
   | mutex_lock(zone)
      | bio-2->bi_iter.bi_sector = zone->wp
      | zone->wp += bio_sectors(bio-2)
| submit_bio(bio-2)
| mutex_unlock(zone)
   | <------------------------- |
   | blk_finish_plug()

In the above example, despite the mutex synchronization ensuring the
correct BIO issuing order 0, 1, 2, context A BIOs 0 and 1 end up being
issued after BIO 2 of context B, when the plug is released with
blk_finish_plug().

While this problem can be addressed using the blk_flush_plug_list()
function (in the above example, the call must be inserted before the
zone mutex lock is released), a simple generic solution in the block
layer avoid this additional code in all zoned block device user code.
The simple generic solution implemented with this patch is to introduce
the internal helper function blk_mq_plug() to access the current
context plug on BIO submission. This helper returns the current plug
only if the target device is not a zoned block device or if the BIO to
be plugged is not a write operation. Otherwise, the caller context plug
is ignored and NULL returned, resulting is all writes to zoned block
device to never be plugged.

Signed-off-by: Damien Le Moal <damien.lemoal@wdc.com>
Signed-off-by: Jens Axboe <axboe@kernel.dk>
block/blk-core.c
block/blk-mq.c
block/blk-mq.h

index 260e36a2c34314e979875dd73c2e15a3c1354528..d0cc6e14d2f0748e91001d770cbebfa091066889 100644 (file)
@@ -688,7 +688,7 @@ bool blk_attempt_plug_merge(struct request_queue *q, struct bio *bio,
        struct request *rq;
        struct list_head *plug_list;
 
-       plug = current->plug;
+       plug = blk_mq_plug(q, bio);
        if (!plug)
                return false;
 
index e5ef40c603ca36d64fbbf3dc965fb4ac63db9ae4..b038ec680e843e14aa2f3a7b3d967bd802efd4db 100644 (file)
@@ -1973,7 +1973,7 @@ static blk_qc_t blk_mq_make_request(struct request_queue *q, struct bio *bio)
 
        blk_mq_bio_to_request(rq, bio, nr_segs);
 
-       plug = current->plug;
+       plug = blk_mq_plug(q, bio);
        if (unlikely(is_flush_fua)) {
                /* bypass scheduler for flush rq */
                blk_insert_flush(rq);
index f4bf5161333e3b2078800511f09c5c66fd16534c..32c62c64e6c2b86356621d5535fdacc21269652a 100644 (file)
@@ -233,4 +233,36 @@ static inline void blk_mq_clear_mq_map(struct blk_mq_queue_map *qmap)
                qmap->mq_map[cpu] = 0;
 }
 
+/*
+ * blk_mq_plug() - Get caller context plug
+ * @q: request queue
+ * @bio : the bio being submitted by the caller context
+ *
+ * Plugging, by design, may delay the insertion of BIOs into the elevator in
+ * order to increase BIO merging opportunities. This however can cause BIO
+ * insertion order to change from the order in which submit_bio() is being
+ * executed in the case of multiple contexts concurrently issuing BIOs to a
+ * device, even if these context are synchronized to tightly control BIO issuing
+ * order. While this is not a problem with regular block devices, this ordering
+ * change can cause write BIO failures with zoned block devices as these
+ * require sequential write patterns to zones. Prevent this from happening by
+ * ignoring the plug state of a BIO issuing context if the target request queue
+ * is for a zoned block device and the BIO to plug is a write operation.
+ *
+ * Return current->plug if the bio can be plugged and NULL otherwise
+ */
+static inline struct blk_plug *blk_mq_plug(struct request_queue *q,
+                                          struct bio *bio)
+{
+       /*
+        * For regular block devices or read operations, use the context plug
+        * which may be NULL if blk_start_plug() was not executed.
+        */
+       if (!blk_queue_is_zoned(q) || !op_is_write(bio_op(bio)))
+               return current->plug;
+
+       /* Zoned block device write operation case: do not plug the BIO */
+       return NULL;
+}
+
 #endif