x86/insn: Directly assign x86_64 state in insn_init()
[linux-2.6-block.git] / fs / btrfs / extent_io.c
1 // SPDX-License-Identifier: GPL-2.0
2
3 #include <linux/bitops.h>
4 #include <linux/slab.h>
5 #include <linux/bio.h>
6 #include <linux/mm.h>
7 #include <linux/pagemap.h>
8 #include <linux/page-flags.h>
9 #include <linux/sched/mm.h>
10 #include <linux/spinlock.h>
11 #include <linux/blkdev.h>
12 #include <linux/swap.h>
13 #include <linux/writeback.h>
14 #include <linux/pagevec.h>
15 #include <linux/prefetch.h>
16 #include <linux/fsverity.h>
17 #include "misc.h"
18 #include "extent_io.h"
19 #include "extent-io-tree.h"
20 #include "extent_map.h"
21 #include "ctree.h"
22 #include "btrfs_inode.h"
23 #include "bio.h"
24 #include "locking.h"
25 #include "rcu-string.h"
26 #include "backref.h"
27 #include "disk-io.h"
28 #include "subpage.h"
29 #include "zoned.h"
30 #include "block-group.h"
31 #include "compression.h"
32 #include "fs.h"
33 #include "accessors.h"
34 #include "file-item.h"
35 #include "file.h"
36 #include "dev-replace.h"
37 #include "super.h"
38 #include "transaction.h"
39
40 static struct kmem_cache *extent_buffer_cache;
41
42 #ifdef CONFIG_BTRFS_DEBUG
43 static inline void btrfs_leak_debug_add_eb(struct extent_buffer *eb)
44 {
45         struct btrfs_fs_info *fs_info = eb->fs_info;
46         unsigned long flags;
47
48         spin_lock_irqsave(&fs_info->eb_leak_lock, flags);
49         list_add(&eb->leak_list, &fs_info->allocated_ebs);
50         spin_unlock_irqrestore(&fs_info->eb_leak_lock, flags);
51 }
52
53 static inline void btrfs_leak_debug_del_eb(struct extent_buffer *eb)
54 {
55         struct btrfs_fs_info *fs_info = eb->fs_info;
56         unsigned long flags;
57
58         spin_lock_irqsave(&fs_info->eb_leak_lock, flags);
59         list_del(&eb->leak_list);
60         spin_unlock_irqrestore(&fs_info->eb_leak_lock, flags);
61 }
62
63 void btrfs_extent_buffer_leak_debug_check(struct btrfs_fs_info *fs_info)
64 {
65         struct extent_buffer *eb;
66         unsigned long flags;
67
68         /*
69          * If we didn't get into open_ctree our allocated_ebs will not be
70          * initialized, so just skip this.
71          */
72         if (!fs_info->allocated_ebs.next)
73                 return;
74
75         WARN_ON(!list_empty(&fs_info->allocated_ebs));
76         spin_lock_irqsave(&fs_info->eb_leak_lock, flags);
77         while (!list_empty(&fs_info->allocated_ebs)) {
78                 eb = list_first_entry(&fs_info->allocated_ebs,
79                                       struct extent_buffer, leak_list);
80                 pr_err(
81         "BTRFS: buffer leak start %llu len %lu refs %d bflags %lu owner %llu\n",
82                        eb->start, eb->len, atomic_read(&eb->refs), eb->bflags,
83                        btrfs_header_owner(eb));
84                 list_del(&eb->leak_list);
85                 kmem_cache_free(extent_buffer_cache, eb);
86         }
87         spin_unlock_irqrestore(&fs_info->eb_leak_lock, flags);
88 }
89 #else
90 #define btrfs_leak_debug_add_eb(eb)                     do {} while (0)
91 #define btrfs_leak_debug_del_eb(eb)                     do {} while (0)
92 #endif
93
94 /*
95  * Structure to record info about the bio being assembled, and other info like
96  * how many bytes are there before stripe/ordered extent boundary.
97  */
98 struct btrfs_bio_ctrl {
99         struct btrfs_bio *bbio;
100         enum btrfs_compression_type compress_type;
101         u32 len_to_oe_boundary;
102         blk_opf_t opf;
103         btrfs_bio_end_io_t end_io_func;
104         struct writeback_control *wbc;
105 };
106
107 static void submit_one_bio(struct btrfs_bio_ctrl *bio_ctrl)
108 {
109         struct btrfs_bio *bbio = bio_ctrl->bbio;
110
111         if (!bbio)
112                 return;
113
114         /* Caller should ensure the bio has at least some range added */
115         ASSERT(bbio->bio.bi_iter.bi_size);
116
117         if (btrfs_op(&bbio->bio) == BTRFS_MAP_READ &&
118             bio_ctrl->compress_type != BTRFS_COMPRESS_NONE)
119                 btrfs_submit_compressed_read(bbio);
120         else
121                 btrfs_submit_bio(bbio, 0);
122
123         /* The bbio is owned by the end_io handler now */
124         bio_ctrl->bbio = NULL;
125 }
126
127 /*
128  * Submit or fail the current bio in the bio_ctrl structure.
129  */
130 static void submit_write_bio(struct btrfs_bio_ctrl *bio_ctrl, int ret)
131 {
132         struct btrfs_bio *bbio = bio_ctrl->bbio;
133
134         if (!bbio)
135                 return;
136
137         if (ret) {
138                 ASSERT(ret < 0);
139                 btrfs_bio_end_io(bbio, errno_to_blk_status(ret));
140                 /* The bio is owned by the end_io handler now */
141                 bio_ctrl->bbio = NULL;
142         } else {
143                 submit_one_bio(bio_ctrl);
144         }
145 }
146
147 int __init extent_buffer_init_cachep(void)
148 {
149         extent_buffer_cache = kmem_cache_create("btrfs_extent_buffer",
150                         sizeof(struct extent_buffer), 0,
151                         SLAB_MEM_SPREAD, NULL);
152         if (!extent_buffer_cache)
153                 return -ENOMEM;
154
155         return 0;
156 }
157
158 void __cold extent_buffer_free_cachep(void)
159 {
160         /*
161          * Make sure all delayed rcu free are flushed before we
162          * destroy caches.
163          */
164         rcu_barrier();
165         kmem_cache_destroy(extent_buffer_cache);
166 }
167
168 void extent_range_clear_dirty_for_io(struct inode *inode, u64 start, u64 end)
169 {
170         unsigned long index = start >> PAGE_SHIFT;
171         unsigned long end_index = end >> PAGE_SHIFT;
172         struct page *page;
173
174         while (index <= end_index) {
175                 page = find_get_page(inode->i_mapping, index);
176                 BUG_ON(!page); /* Pages should be in the extent_io_tree */
177                 clear_page_dirty_for_io(page);
178                 put_page(page);
179                 index++;
180         }
181 }
182
183 static void process_one_page(struct btrfs_fs_info *fs_info,
184                              struct page *page, struct page *locked_page,
185                              unsigned long page_ops, u64 start, u64 end)
186 {
187         struct folio *folio = page_folio(page);
188         u32 len;
189
190         ASSERT(end + 1 - start != 0 && end + 1 - start < U32_MAX);
191         len = end + 1 - start;
192
193         if (page_ops & PAGE_SET_ORDERED)
194                 btrfs_folio_clamp_set_ordered(fs_info, folio, start, len);
195         if (page_ops & PAGE_START_WRITEBACK) {
196                 btrfs_folio_clamp_clear_dirty(fs_info, folio, start, len);
197                 btrfs_folio_clamp_set_writeback(fs_info, folio, start, len);
198         }
199         if (page_ops & PAGE_END_WRITEBACK)
200                 btrfs_folio_clamp_clear_writeback(fs_info, folio, start, len);
201
202         if (page != locked_page && (page_ops & PAGE_UNLOCK))
203                 btrfs_folio_end_writer_lock(fs_info, folio, start, len);
204 }
205
206 static void __process_pages_contig(struct address_space *mapping,
207                                    struct page *locked_page, u64 start, u64 end,
208                                    unsigned long page_ops)
209 {
210         struct btrfs_fs_info *fs_info = btrfs_sb(mapping->host->i_sb);
211         pgoff_t start_index = start >> PAGE_SHIFT;
212         pgoff_t end_index = end >> PAGE_SHIFT;
213         pgoff_t index = start_index;
214         struct folio_batch fbatch;
215         int i;
216
217         folio_batch_init(&fbatch);
218         while (index <= end_index) {
219                 int found_folios;
220
221                 found_folios = filemap_get_folios_contig(mapping, &index,
222                                 end_index, &fbatch);
223                 for (i = 0; i < found_folios; i++) {
224                         struct folio *folio = fbatch.folios[i];
225
226                         process_one_page(fs_info, &folio->page, locked_page,
227                                          page_ops, start, end);
228                 }
229                 folio_batch_release(&fbatch);
230                 cond_resched();
231         }
232 }
233
234 static noinline void __unlock_for_delalloc(struct inode *inode,
235                                            struct page *locked_page,
236                                            u64 start, u64 end)
237 {
238         unsigned long index = start >> PAGE_SHIFT;
239         unsigned long end_index = end >> PAGE_SHIFT;
240
241         ASSERT(locked_page);
242         if (index == locked_page->index && end_index == index)
243                 return;
244
245         __process_pages_contig(inode->i_mapping, locked_page, start, end,
246                                PAGE_UNLOCK);
247 }
248
249 static noinline int lock_delalloc_pages(struct inode *inode,
250                                         struct page *locked_page,
251                                         u64 start,
252                                         u64 end)
253 {
254         struct btrfs_fs_info *fs_info = btrfs_sb(inode->i_sb);
255         struct address_space *mapping = inode->i_mapping;
256         pgoff_t start_index = start >> PAGE_SHIFT;
257         pgoff_t end_index = end >> PAGE_SHIFT;
258         pgoff_t index = start_index;
259         u64 processed_end = start;
260         struct folio_batch fbatch;
261
262         if (index == locked_page->index && index == end_index)
263                 return 0;
264
265         folio_batch_init(&fbatch);
266         while (index <= end_index) {
267                 unsigned int found_folios, i;
268
269                 found_folios = filemap_get_folios_contig(mapping, &index,
270                                 end_index, &fbatch);
271                 if (found_folios == 0)
272                         goto out;
273
274                 for (i = 0; i < found_folios; i++) {
275                         struct folio *folio = fbatch.folios[i];
276                         struct page *page = folio_page(folio, 0);
277                         u32 len = end + 1 - start;
278
279                         if (page == locked_page)
280                                 continue;
281
282                         if (btrfs_folio_start_writer_lock(fs_info, folio, start,
283                                                           len))
284                                 goto out;
285
286                         if (!PageDirty(page) || page->mapping != mapping) {
287                                 btrfs_folio_end_writer_lock(fs_info, folio, start,
288                                                             len);
289                                 goto out;
290                         }
291
292                         processed_end = page_offset(page) + PAGE_SIZE - 1;
293                 }
294                 folio_batch_release(&fbatch);
295                 cond_resched();
296         }
297
298         return 0;
299 out:
300         folio_batch_release(&fbatch);
301         if (processed_end > start)
302                 __unlock_for_delalloc(inode, locked_page, start, processed_end);
303         return -EAGAIN;
304 }
305
306 /*
307  * Find and lock a contiguous range of bytes in the file marked as delalloc, no
308  * more than @max_bytes.
309  *
310  * @start:      The original start bytenr to search.
311  *              Will store the extent range start bytenr.
312  * @end:        The original end bytenr of the search range
313  *              Will store the extent range end bytenr.
314  *
315  * Return true if we find a delalloc range which starts inside the original
316  * range, and @start/@end will store the delalloc range start/end.
317  *
318  * Return false if we can't find any delalloc range which starts inside the
319  * original range, and @start/@end will be the non-delalloc range start/end.
320  */
321 EXPORT_FOR_TESTS
322 noinline_for_stack bool find_lock_delalloc_range(struct inode *inode,
323                                     struct page *locked_page, u64 *start,
324                                     u64 *end)
325 {
326         struct btrfs_fs_info *fs_info = btrfs_sb(inode->i_sb);
327         struct extent_io_tree *tree = &BTRFS_I(inode)->io_tree;
328         const u64 orig_start = *start;
329         const u64 orig_end = *end;
330         /* The sanity tests may not set a valid fs_info. */
331         u64 max_bytes = fs_info ? fs_info->max_extent_size : BTRFS_MAX_EXTENT_SIZE;
332         u64 delalloc_start;
333         u64 delalloc_end;
334         bool found;
335         struct extent_state *cached_state = NULL;
336         int ret;
337         int loops = 0;
338
339         /* Caller should pass a valid @end to indicate the search range end */
340         ASSERT(orig_end > orig_start);
341
342         /* The range should at least cover part of the page */
343         ASSERT(!(orig_start >= page_offset(locked_page) + PAGE_SIZE ||
344                  orig_end <= page_offset(locked_page)));
345 again:
346         /* step one, find a bunch of delalloc bytes starting at start */
347         delalloc_start = *start;
348         delalloc_end = 0;
349         found = btrfs_find_delalloc_range(tree, &delalloc_start, &delalloc_end,
350                                           max_bytes, &cached_state);
351         if (!found || delalloc_end <= *start || delalloc_start > orig_end) {
352                 *start = delalloc_start;
353
354                 /* @delalloc_end can be -1, never go beyond @orig_end */
355                 *end = min(delalloc_end, orig_end);
356                 free_extent_state(cached_state);
357                 return false;
358         }
359
360         /*
361          * start comes from the offset of locked_page.  We have to lock
362          * pages in order, so we can't process delalloc bytes before
363          * locked_page
364          */
365         if (delalloc_start < *start)
366                 delalloc_start = *start;
367
368         /*
369          * make sure to limit the number of pages we try to lock down
370          */
371         if (delalloc_end + 1 - delalloc_start > max_bytes)
372                 delalloc_end = delalloc_start + max_bytes - 1;
373
374         /* step two, lock all the pages after the page that has start */
375         ret = lock_delalloc_pages(inode, locked_page,
376                                   delalloc_start, delalloc_end);
377         ASSERT(!ret || ret == -EAGAIN);
378         if (ret == -EAGAIN) {
379                 /* some of the pages are gone, lets avoid looping by
380                  * shortening the size of the delalloc range we're searching
381                  */
382                 free_extent_state(cached_state);
383                 cached_state = NULL;
384                 if (!loops) {
385                         max_bytes = PAGE_SIZE;
386                         loops = 1;
387                         goto again;
388                 } else {
389                         found = false;
390                         goto out_failed;
391                 }
392         }
393
394         /* step three, lock the state bits for the whole range */
395         lock_extent(tree, delalloc_start, delalloc_end, &cached_state);
396
397         /* then test to make sure it is all still delalloc */
398         ret = test_range_bit(tree, delalloc_start, delalloc_end,
399                              EXTENT_DELALLOC, cached_state);
400         if (!ret) {
401                 unlock_extent(tree, delalloc_start, delalloc_end,
402                               &cached_state);
403                 __unlock_for_delalloc(inode, locked_page,
404                               delalloc_start, delalloc_end);
405                 cond_resched();
406                 goto again;
407         }
408         free_extent_state(cached_state);
409         *start = delalloc_start;
410         *end = delalloc_end;
411 out_failed:
412         return found;
413 }
414
415 void extent_clear_unlock_delalloc(struct btrfs_inode *inode, u64 start, u64 end,
416                                   struct page *locked_page,
417                                   u32 clear_bits, unsigned long page_ops)
418 {
419         clear_extent_bit(&inode->io_tree, start, end, clear_bits, NULL);
420
421         __process_pages_contig(inode->vfs_inode.i_mapping, locked_page,
422                                start, end, page_ops);
423 }
424
425 static bool btrfs_verify_page(struct page *page, u64 start)
426 {
427         if (!fsverity_active(page->mapping->host) ||
428             PageUptodate(page) ||
429             start >= i_size_read(page->mapping->host))
430                 return true;
431         return fsverity_verify_page(page);
432 }
433
434 static void end_page_read(struct page *page, bool uptodate, u64 start, u32 len)
435 {
436         struct btrfs_fs_info *fs_info = btrfs_sb(page->mapping->host->i_sb);
437         struct folio *folio = page_folio(page);
438
439         ASSERT(page_offset(page) <= start &&
440                start + len <= page_offset(page) + PAGE_SIZE);
441
442         if (uptodate && btrfs_verify_page(page, start))
443                 btrfs_folio_set_uptodate(fs_info, folio, start, len);
444         else
445                 btrfs_folio_clear_uptodate(fs_info, folio, start, len);
446
447         if (!btrfs_is_subpage(fs_info, page->mapping))
448                 unlock_page(page);
449         else
450                 btrfs_subpage_end_reader(fs_info, folio, start, len);
451 }
452
453 /*
454  * After a write IO is done, we need to:
455  *
456  * - clear the uptodate bits on error
457  * - clear the writeback bits in the extent tree for the range
458  * - filio_end_writeback()  if there is no more pending io for the folio
459  *
460  * Scheduling is not allowed, so the extent state tree is expected
461  * to have one and only one object corresponding to this IO.
462  */
463 static void end_bbio_data_write(struct btrfs_bio *bbio)
464 {
465         struct bio *bio = &bbio->bio;
466         int error = blk_status_to_errno(bio->bi_status);
467         struct folio_iter fi;
468
469         ASSERT(!bio_flagged(bio, BIO_CLONED));
470         bio_for_each_folio_all(fi, bio) {
471                 struct folio *folio = fi.folio;
472                 struct inode *inode = folio->mapping->host;
473                 struct btrfs_fs_info *fs_info = btrfs_sb(inode->i_sb);
474                 const u32 sectorsize = fs_info->sectorsize;
475                 u64 start = folio_pos(folio) + fi.offset;
476                 u32 len = fi.length;
477
478                 /* Only order 0 (single page) folios are allowed for data. */
479                 ASSERT(folio_order(folio) == 0);
480
481                 /* Our read/write should always be sector aligned. */
482                 if (!IS_ALIGNED(fi.offset, sectorsize))
483                         btrfs_err(fs_info,
484                 "partial page write in btrfs with offset %zu and length %zu",
485                                   fi.offset, fi.length);
486                 else if (!IS_ALIGNED(fi.length, sectorsize))
487                         btrfs_info(fs_info,
488                 "incomplete page write with offset %zu and length %zu",
489                                    fi.offset, fi.length);
490
491                 btrfs_finish_ordered_extent(bbio->ordered,
492                                 folio_page(folio, 0), start, len, !error);
493                 if (error)
494                         mapping_set_error(folio->mapping, error);
495                 btrfs_folio_clear_writeback(fs_info, folio, start, len);
496         }
497
498         bio_put(bio);
499 }
500
501 /*
502  * Record previously processed extent range
503  *
504  * For endio_readpage_release_extent() to handle a full extent range, reducing
505  * the extent io operations.
506  */
507 struct processed_extent {
508         struct btrfs_inode *inode;
509         /* Start of the range in @inode */
510         u64 start;
511         /* End of the range in @inode */
512         u64 end;
513         bool uptodate;
514 };
515
516 /*
517  * Try to release processed extent range
518  *
519  * May not release the extent range right now if the current range is
520  * contiguous to processed extent.
521  *
522  * Will release processed extent when any of @inode, @uptodate, the range is
523  * no longer contiguous to the processed range.
524  *
525  * Passing @inode == NULL will force processed extent to be released.
526  */
527 static void endio_readpage_release_extent(struct processed_extent *processed,
528                               struct btrfs_inode *inode, u64 start, u64 end,
529                               bool uptodate)
530 {
531         struct extent_state *cached = NULL;
532         struct extent_io_tree *tree;
533
534         /* The first extent, initialize @processed */
535         if (!processed->inode)
536                 goto update;
537
538         /*
539          * Contiguous to processed extent, just uptodate the end.
540          *
541          * Several things to notice:
542          *
543          * - bio can be merged as long as on-disk bytenr is contiguous
544          *   This means we can have page belonging to other inodes, thus need to
545          *   check if the inode still matches.
546          * - bvec can contain range beyond current page for multi-page bvec
547          *   Thus we need to do processed->end + 1 >= start check
548          */
549         if (processed->inode == inode && processed->uptodate == uptodate &&
550             processed->end + 1 >= start && end >= processed->end) {
551                 processed->end = end;
552                 return;
553         }
554
555         tree = &processed->inode->io_tree;
556         /*
557          * Now we don't have range contiguous to the processed range, release
558          * the processed range now.
559          */
560         unlock_extent(tree, processed->start, processed->end, &cached);
561
562 update:
563         /* Update processed to current range */
564         processed->inode = inode;
565         processed->start = start;
566         processed->end = end;
567         processed->uptodate = uptodate;
568 }
569
570 static void begin_page_read(struct btrfs_fs_info *fs_info, struct page *page)
571 {
572         struct folio *folio = page_folio(page);
573
574         ASSERT(folio_test_locked(folio));
575         if (!btrfs_is_subpage(fs_info, folio->mapping))
576                 return;
577
578         ASSERT(folio_test_private(folio));
579         btrfs_subpage_start_reader(fs_info, folio, page_offset(page), PAGE_SIZE);
580 }
581
582 /*
583  * After a data read IO is done, we need to:
584  *
585  * - clear the uptodate bits on error
586  * - set the uptodate bits if things worked
587  * - set the folio up to date if all extents in the tree are uptodate
588  * - clear the lock bit in the extent tree
589  * - unlock the folio if there are no other extents locked for it
590  *
591  * Scheduling is not allowed, so the extent state tree is expected
592  * to have one and only one object corresponding to this IO.
593  */
594 static void end_bbio_data_read(struct btrfs_bio *bbio)
595 {
596         struct bio *bio = &bbio->bio;
597         struct processed_extent processed = { 0 };
598         struct folio_iter fi;
599         /*
600          * The offset to the beginning of a bio, since one bio can never be
601          * larger than UINT_MAX, u32 here is enough.
602          */
603         u32 bio_offset = 0;
604
605         ASSERT(!bio_flagged(bio, BIO_CLONED));
606         bio_for_each_folio_all(fi, &bbio->bio) {
607                 bool uptodate = !bio->bi_status;
608                 struct folio *folio = fi.folio;
609                 struct inode *inode = folio->mapping->host;
610                 struct btrfs_fs_info *fs_info = btrfs_sb(inode->i_sb);
611                 const u32 sectorsize = fs_info->sectorsize;
612                 u64 start;
613                 u64 end;
614                 u32 len;
615
616                 /* For now only order 0 folios are supported for data. */
617                 ASSERT(folio_order(folio) == 0);
618                 btrfs_debug(fs_info,
619                         "%s: bi_sector=%llu, err=%d, mirror=%u",
620                         __func__, bio->bi_iter.bi_sector, bio->bi_status,
621                         bbio->mirror_num);
622
623                 /*
624                  * We always issue full-sector reads, but if some block in a
625                  * folio fails to read, blk_update_request() will advance
626                  * bv_offset and adjust bv_len to compensate.  Print a warning
627                  * for unaligned offsets, and an error if they don't add up to
628                  * a full sector.
629                  */
630                 if (!IS_ALIGNED(fi.offset, sectorsize))
631                         btrfs_err(fs_info,
632                 "partial page read in btrfs with offset %zu and length %zu",
633                                   fi.offset, fi.length);
634                 else if (!IS_ALIGNED(fi.offset + fi.length, sectorsize))
635                         btrfs_info(fs_info,
636                 "incomplete page read with offset %zu and length %zu",
637                                    fi.offset, fi.length);
638
639                 start = folio_pos(folio) + fi.offset;
640                 end = start + fi.length - 1;
641                 len = fi.length;
642
643                 if (likely(uptodate)) {
644                         loff_t i_size = i_size_read(inode);
645                         pgoff_t end_index = i_size >> folio_shift(folio);
646
647                         /*
648                          * Zero out the remaining part if this range straddles
649                          * i_size.
650                          *
651                          * Here we should only zero the range inside the folio,
652                          * not touch anything else.
653                          *
654                          * NOTE: i_size is exclusive while end is inclusive.
655                          */
656                         if (folio_index(folio) == end_index && i_size <= end) {
657                                 u32 zero_start = max(offset_in_folio(folio, i_size),
658                                                      offset_in_folio(folio, start));
659                                 u32 zero_len = offset_in_folio(folio, end) + 1 -
660                                                zero_start;
661
662                                 folio_zero_range(folio, zero_start, zero_len);
663                         }
664                 }
665
666                 /* Update page status and unlock. */
667                 end_page_read(folio_page(folio, 0), uptodate, start, len);
668                 endio_readpage_release_extent(&processed, BTRFS_I(inode),
669                                               start, end, uptodate);
670
671                 ASSERT(bio_offset + len > bio_offset);
672                 bio_offset += len;
673
674         }
675         /* Release the last extent */
676         endio_readpage_release_extent(&processed, NULL, 0, 0, false);
677         bio_put(bio);
678 }
679
680 /*
681  * Populate every free slot in a provided array with pages.
682  *
683  * @nr_pages:   number of pages to allocate
684  * @page_array: the array to fill with pages; any existing non-null entries in
685  *              the array will be skipped
686  * @extra_gfp:  the extra GFP flags for the allocation.
687  *
688  * Return: 0        if all pages were able to be allocated;
689  *         -ENOMEM  otherwise, the partially allocated pages would be freed and
690  *                  the array slots zeroed
691  */
692 int btrfs_alloc_page_array(unsigned int nr_pages, struct page **page_array,
693                            gfp_t extra_gfp)
694 {
695         unsigned int allocated;
696
697         for (allocated = 0; allocated < nr_pages;) {
698                 unsigned int last = allocated;
699
700                 allocated = alloc_pages_bulk_array(GFP_NOFS | extra_gfp,
701                                                    nr_pages, page_array);
702
703                 if (allocated == nr_pages)
704                         return 0;
705
706                 /*
707                  * During this iteration, no page could be allocated, even
708                  * though alloc_pages_bulk_array() falls back to alloc_page()
709                  * if  it could not bulk-allocate. So we must be out of memory.
710                  */
711                 if (allocated == last) {
712                         for (int i = 0; i < allocated; i++) {
713                                 __free_page(page_array[i]);
714                                 page_array[i] = NULL;
715                         }
716                         return -ENOMEM;
717                 }
718
719                 memalloc_retry_wait(GFP_NOFS);
720         }
721         return 0;
722 }
723
724 /*
725  * Populate needed folios for the extent buffer.
726  *
727  * For now, the folios populated are always in order 0 (aka, single page).
728  */
729 static int alloc_eb_folio_array(struct extent_buffer *eb, gfp_t extra_gfp)
730 {
731         struct page *page_array[INLINE_EXTENT_BUFFER_PAGES] = { 0 };
732         int num_pages = num_extent_pages(eb);
733         int ret;
734
735         ret = btrfs_alloc_page_array(num_pages, page_array, extra_gfp);
736         if (ret < 0)
737                 return ret;
738
739         for (int i = 0; i < num_pages; i++)
740                 eb->folios[i] = page_folio(page_array[i]);
741         return 0;
742 }
743
744 static bool btrfs_bio_is_contig(struct btrfs_bio_ctrl *bio_ctrl,
745                                 struct page *page, u64 disk_bytenr,
746                                 unsigned int pg_offset)
747 {
748         struct bio *bio = &bio_ctrl->bbio->bio;
749         struct bio_vec *bvec = bio_last_bvec_all(bio);
750         const sector_t sector = disk_bytenr >> SECTOR_SHIFT;
751
752         if (bio_ctrl->compress_type != BTRFS_COMPRESS_NONE) {
753                 /*
754                  * For compression, all IO should have its logical bytenr set
755                  * to the starting bytenr of the compressed extent.
756                  */
757                 return bio->bi_iter.bi_sector == sector;
758         }
759
760         /*
761          * The contig check requires the following conditions to be met:
762          *
763          * 1) The pages are belonging to the same inode
764          *    This is implied by the call chain.
765          *
766          * 2) The range has adjacent logical bytenr
767          *
768          * 3) The range has adjacent file offset
769          *    This is required for the usage of btrfs_bio->file_offset.
770          */
771         return bio_end_sector(bio) == sector &&
772                 page_offset(bvec->bv_page) + bvec->bv_offset + bvec->bv_len ==
773                 page_offset(page) + pg_offset;
774 }
775
776 static void alloc_new_bio(struct btrfs_inode *inode,
777                           struct btrfs_bio_ctrl *bio_ctrl,
778                           u64 disk_bytenr, u64 file_offset)
779 {
780         struct btrfs_fs_info *fs_info = inode->root->fs_info;
781         struct btrfs_bio *bbio;
782
783         bbio = btrfs_bio_alloc(BIO_MAX_VECS, bio_ctrl->opf, fs_info,
784                                bio_ctrl->end_io_func, NULL);
785         bbio->bio.bi_iter.bi_sector = disk_bytenr >> SECTOR_SHIFT;
786         bbio->inode = inode;
787         bbio->file_offset = file_offset;
788         bio_ctrl->bbio = bbio;
789         bio_ctrl->len_to_oe_boundary = U32_MAX;
790
791         /* Limit data write bios to the ordered boundary. */
792         if (bio_ctrl->wbc) {
793                 struct btrfs_ordered_extent *ordered;
794
795                 ordered = btrfs_lookup_ordered_extent(inode, file_offset);
796                 if (ordered) {
797                         bio_ctrl->len_to_oe_boundary = min_t(u32, U32_MAX,
798                                         ordered->file_offset +
799                                         ordered->disk_num_bytes - file_offset);
800                         bbio->ordered = ordered;
801                 }
802
803                 /*
804                  * Pick the last added device to support cgroup writeback.  For
805                  * multi-device file systems this means blk-cgroup policies have
806                  * to always be set on the last added/replaced device.
807                  * This is a bit odd but has been like that for a long time.
808                  */
809                 bio_set_dev(&bbio->bio, fs_info->fs_devices->latest_dev->bdev);
810                 wbc_init_bio(bio_ctrl->wbc, &bbio->bio);
811         }
812 }
813
814 /*
815  * @disk_bytenr: logical bytenr where the write will be
816  * @page:       page to add to the bio
817  * @size:       portion of page that we want to write to
818  * @pg_offset:  offset of the new bio or to check whether we are adding
819  *              a contiguous page to the previous one
820  *
821  * The will either add the page into the existing @bio_ctrl->bbio, or allocate a
822  * new one in @bio_ctrl->bbio.
823  * The mirror number for this IO should already be initizlied in
824  * @bio_ctrl->mirror_num.
825  */
826 static void submit_extent_page(struct btrfs_bio_ctrl *bio_ctrl,
827                                u64 disk_bytenr, struct page *page,
828                                size_t size, unsigned long pg_offset)
829 {
830         struct btrfs_inode *inode = BTRFS_I(page->mapping->host);
831
832         ASSERT(pg_offset + size <= PAGE_SIZE);
833         ASSERT(bio_ctrl->end_io_func);
834
835         if (bio_ctrl->bbio &&
836             !btrfs_bio_is_contig(bio_ctrl, page, disk_bytenr, pg_offset))
837                 submit_one_bio(bio_ctrl);
838
839         do {
840                 u32 len = size;
841
842                 /* Allocate new bio if needed */
843                 if (!bio_ctrl->bbio) {
844                         alloc_new_bio(inode, bio_ctrl, disk_bytenr,
845                                       page_offset(page) + pg_offset);
846                 }
847
848                 /* Cap to the current ordered extent boundary if there is one. */
849                 if (len > bio_ctrl->len_to_oe_boundary) {
850                         ASSERT(bio_ctrl->compress_type == BTRFS_COMPRESS_NONE);
851                         ASSERT(is_data_inode(&inode->vfs_inode));
852                         len = bio_ctrl->len_to_oe_boundary;
853                 }
854
855                 if (bio_add_page(&bio_ctrl->bbio->bio, page, len, pg_offset) != len) {
856                         /* bio full: move on to a new one */
857                         submit_one_bio(bio_ctrl);
858                         continue;
859                 }
860
861                 if (bio_ctrl->wbc)
862                         wbc_account_cgroup_owner(bio_ctrl->wbc, page, len);
863
864                 size -= len;
865                 pg_offset += len;
866                 disk_bytenr += len;
867
868                 /*
869                  * len_to_oe_boundary defaults to U32_MAX, which isn't page or
870                  * sector aligned.  alloc_new_bio() then sets it to the end of
871                  * our ordered extent for writes into zoned devices.
872                  *
873                  * When len_to_oe_boundary is tracking an ordered extent, we
874                  * trust the ordered extent code to align things properly, and
875                  * the check above to cap our write to the ordered extent
876                  * boundary is correct.
877                  *
878                  * When len_to_oe_boundary is U32_MAX, the cap above would
879                  * result in a 4095 byte IO for the last page right before
880                  * we hit the bio limit of UINT_MAX.  bio_add_page() has all
881                  * the checks required to make sure we don't overflow the bio,
882                  * and we should just ignore len_to_oe_boundary completely
883                  * unless we're using it to track an ordered extent.
884                  *
885                  * It's pretty hard to make a bio sized U32_MAX, but it can
886                  * happen when the page cache is able to feed us contiguous
887                  * pages for large extents.
888                  */
889                 if (bio_ctrl->len_to_oe_boundary != U32_MAX)
890                         bio_ctrl->len_to_oe_boundary -= len;
891
892                 /* Ordered extent boundary: move on to a new bio. */
893                 if (bio_ctrl->len_to_oe_boundary == 0)
894                         submit_one_bio(bio_ctrl);
895         } while (size);
896 }
897
898 static int attach_extent_buffer_folio(struct extent_buffer *eb,
899                                       struct folio *folio,
900                                       struct btrfs_subpage *prealloc)
901 {
902         struct btrfs_fs_info *fs_info = eb->fs_info;
903         int ret = 0;
904
905         /*
906          * If the page is mapped to btree inode, we should hold the private
907          * lock to prevent race.
908          * For cloned or dummy extent buffers, their pages are not mapped and
909          * will not race with any other ebs.
910          */
911         if (folio->mapping)
912                 lockdep_assert_held(&folio->mapping->i_private_lock);
913
914         if (fs_info->nodesize >= PAGE_SIZE) {
915                 if (!folio_test_private(folio))
916                         folio_attach_private(folio, eb);
917                 else
918                         WARN_ON(folio_get_private(folio) != eb);
919                 return 0;
920         }
921
922         /* Already mapped, just free prealloc */
923         if (folio_test_private(folio)) {
924                 btrfs_free_subpage(prealloc);
925                 return 0;
926         }
927
928         if (prealloc)
929                 /* Has preallocated memory for subpage */
930                 folio_attach_private(folio, prealloc);
931         else
932                 /* Do new allocation to attach subpage */
933                 ret = btrfs_attach_subpage(fs_info, folio, BTRFS_SUBPAGE_METADATA);
934         return ret;
935 }
936
937 int set_page_extent_mapped(struct page *page)
938 {
939         struct folio *folio = page_folio(page);
940         struct btrfs_fs_info *fs_info;
941
942         ASSERT(page->mapping);
943
944         if (folio_test_private(folio))
945                 return 0;
946
947         fs_info = btrfs_sb(page->mapping->host->i_sb);
948
949         if (btrfs_is_subpage(fs_info, page->mapping))
950                 return btrfs_attach_subpage(fs_info, folio, BTRFS_SUBPAGE_DATA);
951
952         folio_attach_private(folio, (void *)EXTENT_FOLIO_PRIVATE);
953         return 0;
954 }
955
956 void clear_page_extent_mapped(struct page *page)
957 {
958         struct folio *folio = page_folio(page);
959         struct btrfs_fs_info *fs_info;
960
961         ASSERT(page->mapping);
962
963         if (!folio_test_private(folio))
964                 return;
965
966         fs_info = btrfs_sb(page->mapping->host->i_sb);
967         if (btrfs_is_subpage(fs_info, page->mapping))
968                 return btrfs_detach_subpage(fs_info, folio);
969
970         folio_detach_private(folio);
971 }
972
973 static struct extent_map *
974 __get_extent_map(struct inode *inode, struct page *page, size_t pg_offset,
975                  u64 start, u64 len, struct extent_map **em_cached)
976 {
977         struct extent_map *em;
978
979         if (em_cached && *em_cached) {
980                 em = *em_cached;
981                 if (extent_map_in_tree(em) && start >= em->start &&
982                     start < extent_map_end(em)) {
983                         refcount_inc(&em->refs);
984                         return em;
985                 }
986
987                 free_extent_map(em);
988                 *em_cached = NULL;
989         }
990
991         em = btrfs_get_extent(BTRFS_I(inode), page, pg_offset, start, len);
992         if (em_cached && !IS_ERR(em)) {
993                 BUG_ON(*em_cached);
994                 refcount_inc(&em->refs);
995                 *em_cached = em;
996         }
997         return em;
998 }
999 /*
1000  * basic readpage implementation.  Locked extent state structs are inserted
1001  * into the tree that are removed when the IO is done (by the end_io
1002  * handlers)
1003  * XXX JDM: This needs looking at to ensure proper page locking
1004  * return 0 on success, otherwise return error
1005  */
1006 static int btrfs_do_readpage(struct page *page, struct extent_map **em_cached,
1007                       struct btrfs_bio_ctrl *bio_ctrl, u64 *prev_em_start)
1008 {
1009         struct inode *inode = page->mapping->host;
1010         struct btrfs_fs_info *fs_info = btrfs_sb(inode->i_sb);
1011         u64 start = page_offset(page);
1012         const u64 end = start + PAGE_SIZE - 1;
1013         u64 cur = start;
1014         u64 extent_offset;
1015         u64 last_byte = i_size_read(inode);
1016         u64 block_start;
1017         struct extent_map *em;
1018         int ret = 0;
1019         size_t pg_offset = 0;
1020         size_t iosize;
1021         size_t blocksize = inode->i_sb->s_blocksize;
1022         struct extent_io_tree *tree = &BTRFS_I(inode)->io_tree;
1023
1024         ret = set_page_extent_mapped(page);
1025         if (ret < 0) {
1026                 unlock_extent(tree, start, end, NULL);
1027                 unlock_page(page);
1028                 return ret;
1029         }
1030
1031         if (page->index == last_byte >> PAGE_SHIFT) {
1032                 size_t zero_offset = offset_in_page(last_byte);
1033
1034                 if (zero_offset) {
1035                         iosize = PAGE_SIZE - zero_offset;
1036                         memzero_page(page, zero_offset, iosize);
1037                 }
1038         }
1039         bio_ctrl->end_io_func = end_bbio_data_read;
1040         begin_page_read(fs_info, page);
1041         while (cur <= end) {
1042                 enum btrfs_compression_type compress_type = BTRFS_COMPRESS_NONE;
1043                 bool force_bio_submit = false;
1044                 u64 disk_bytenr;
1045
1046                 ASSERT(IS_ALIGNED(cur, fs_info->sectorsize));
1047                 if (cur >= last_byte) {
1048                         iosize = PAGE_SIZE - pg_offset;
1049                         memzero_page(page, pg_offset, iosize);
1050                         unlock_extent(tree, cur, cur + iosize - 1, NULL);
1051                         end_page_read(page, true, cur, iosize);
1052                         break;
1053                 }
1054                 em = __get_extent_map(inode, page, pg_offset, cur,
1055                                       end - cur + 1, em_cached);
1056                 if (IS_ERR(em)) {
1057                         unlock_extent(tree, cur, end, NULL);
1058                         end_page_read(page, false, cur, end + 1 - cur);
1059                         return PTR_ERR(em);
1060                 }
1061                 extent_offset = cur - em->start;
1062                 BUG_ON(extent_map_end(em) <= cur);
1063                 BUG_ON(end < cur);
1064
1065                 compress_type = extent_map_compression(em);
1066
1067                 iosize = min(extent_map_end(em) - cur, end - cur + 1);
1068                 iosize = ALIGN(iosize, blocksize);
1069                 if (compress_type != BTRFS_COMPRESS_NONE)
1070                         disk_bytenr = em->block_start;
1071                 else
1072                         disk_bytenr = em->block_start + extent_offset;
1073                 block_start = em->block_start;
1074                 if (em->flags & EXTENT_FLAG_PREALLOC)
1075                         block_start = EXTENT_MAP_HOLE;
1076
1077                 /*
1078                  * If we have a file range that points to a compressed extent
1079                  * and it's followed by a consecutive file range that points
1080                  * to the same compressed extent (possibly with a different
1081                  * offset and/or length, so it either points to the whole extent
1082                  * or only part of it), we must make sure we do not submit a
1083                  * single bio to populate the pages for the 2 ranges because
1084                  * this makes the compressed extent read zero out the pages
1085                  * belonging to the 2nd range. Imagine the following scenario:
1086                  *
1087                  *  File layout
1088                  *  [0 - 8K]                     [8K - 24K]
1089                  *    |                               |
1090                  *    |                               |
1091                  * points to extent X,         points to extent X,
1092                  * offset 4K, length of 8K     offset 0, length 16K
1093                  *
1094                  * [extent X, compressed length = 4K uncompressed length = 16K]
1095                  *
1096                  * If the bio to read the compressed extent covers both ranges,
1097                  * it will decompress extent X into the pages belonging to the
1098                  * first range and then it will stop, zeroing out the remaining
1099                  * pages that belong to the other range that points to extent X.
1100                  * So here we make sure we submit 2 bios, one for the first
1101                  * range and another one for the third range. Both will target
1102                  * the same physical extent from disk, but we can't currently
1103                  * make the compressed bio endio callback populate the pages
1104                  * for both ranges because each compressed bio is tightly
1105                  * coupled with a single extent map, and each range can have
1106                  * an extent map with a different offset value relative to the
1107                  * uncompressed data of our extent and different lengths. This
1108                  * is a corner case so we prioritize correctness over
1109                  * non-optimal behavior (submitting 2 bios for the same extent).
1110                  */
1111                 if (compress_type != BTRFS_COMPRESS_NONE &&
1112                     prev_em_start && *prev_em_start != (u64)-1 &&
1113                     *prev_em_start != em->start)
1114                         force_bio_submit = true;
1115
1116                 if (prev_em_start)
1117                         *prev_em_start = em->start;
1118
1119                 free_extent_map(em);
1120                 em = NULL;
1121
1122                 /* we've found a hole, just zero and go on */
1123                 if (block_start == EXTENT_MAP_HOLE) {
1124                         memzero_page(page, pg_offset, iosize);
1125
1126                         unlock_extent(tree, cur, cur + iosize - 1, NULL);
1127                         end_page_read(page, true, cur, iosize);
1128                         cur = cur + iosize;
1129                         pg_offset += iosize;
1130                         continue;
1131                 }
1132                 /* the get_extent function already copied into the page */
1133                 if (block_start == EXTENT_MAP_INLINE) {
1134                         unlock_extent(tree, cur, cur + iosize - 1, NULL);
1135                         end_page_read(page, true, cur, iosize);
1136                         cur = cur + iosize;
1137                         pg_offset += iosize;
1138                         continue;
1139                 }
1140
1141                 if (bio_ctrl->compress_type != compress_type) {
1142                         submit_one_bio(bio_ctrl);
1143                         bio_ctrl->compress_type = compress_type;
1144                 }
1145
1146                 if (force_bio_submit)
1147                         submit_one_bio(bio_ctrl);
1148                 submit_extent_page(bio_ctrl, disk_bytenr, page, iosize,
1149                                    pg_offset);
1150                 cur = cur + iosize;
1151                 pg_offset += iosize;
1152         }
1153
1154         return 0;
1155 }
1156
1157 int btrfs_read_folio(struct file *file, struct folio *folio)
1158 {
1159         struct page *page = &folio->page;
1160         struct btrfs_inode *inode = BTRFS_I(page->mapping->host);
1161         u64 start = page_offset(page);
1162         u64 end = start + PAGE_SIZE - 1;
1163         struct btrfs_bio_ctrl bio_ctrl = { .opf = REQ_OP_READ };
1164         int ret;
1165
1166         btrfs_lock_and_flush_ordered_range(inode, start, end, NULL);
1167
1168         ret = btrfs_do_readpage(page, NULL, &bio_ctrl, NULL);
1169         /*
1170          * If btrfs_do_readpage() failed we will want to submit the assembled
1171          * bio to do the cleanup.
1172          */
1173         submit_one_bio(&bio_ctrl);
1174         return ret;
1175 }
1176
1177 static inline void contiguous_readpages(struct page *pages[], int nr_pages,
1178                                         u64 start, u64 end,
1179                                         struct extent_map **em_cached,
1180                                         struct btrfs_bio_ctrl *bio_ctrl,
1181                                         u64 *prev_em_start)
1182 {
1183         struct btrfs_inode *inode = BTRFS_I(pages[0]->mapping->host);
1184         int index;
1185
1186         btrfs_lock_and_flush_ordered_range(inode, start, end, NULL);
1187
1188         for (index = 0; index < nr_pages; index++) {
1189                 btrfs_do_readpage(pages[index], em_cached, bio_ctrl,
1190                                   prev_em_start);
1191                 put_page(pages[index]);
1192         }
1193 }
1194
1195 /*
1196  * helper for __extent_writepage, doing all of the delayed allocation setup.
1197  *
1198  * This returns 1 if btrfs_run_delalloc_range function did all the work required
1199  * to write the page (copy into inline extent).  In this case the IO has
1200  * been started and the page is already unlocked.
1201  *
1202  * This returns 0 if all went well (page still locked)
1203  * This returns < 0 if there were errors (page still locked)
1204  */
1205 static noinline_for_stack int writepage_delalloc(struct btrfs_inode *inode,
1206                 struct page *page, struct writeback_control *wbc)
1207 {
1208         const u64 page_start = page_offset(page);
1209         const u64 page_end = page_start + PAGE_SIZE - 1;
1210         u64 delalloc_start = page_start;
1211         u64 delalloc_end = page_end;
1212         u64 delalloc_to_write = 0;
1213         int ret = 0;
1214
1215         while (delalloc_start < page_end) {
1216                 delalloc_end = page_end;
1217                 if (!find_lock_delalloc_range(&inode->vfs_inode, page,
1218                                               &delalloc_start, &delalloc_end)) {
1219                         delalloc_start = delalloc_end + 1;
1220                         continue;
1221                 }
1222
1223                 ret = btrfs_run_delalloc_range(inode, page, delalloc_start,
1224                                                delalloc_end, wbc);
1225                 if (ret < 0)
1226                         return ret;
1227
1228                 delalloc_start = delalloc_end + 1;
1229         }
1230
1231         /*
1232          * delalloc_end is already one less than the total length, so
1233          * we don't subtract one from PAGE_SIZE
1234          */
1235         delalloc_to_write +=
1236                 DIV_ROUND_UP(delalloc_end + 1 - page_start, PAGE_SIZE);
1237
1238         /*
1239          * If btrfs_run_dealloc_range() already started I/O and unlocked
1240          * the pages, we just need to account for them here.
1241          */
1242         if (ret == 1) {
1243                 wbc->nr_to_write -= delalloc_to_write;
1244                 return 1;
1245         }
1246
1247         if (wbc->nr_to_write < delalloc_to_write) {
1248                 int thresh = 8192;
1249
1250                 if (delalloc_to_write < thresh * 2)
1251                         thresh = delalloc_to_write;
1252                 wbc->nr_to_write = min_t(u64, delalloc_to_write,
1253                                          thresh);
1254         }
1255
1256         return 0;
1257 }
1258
1259 /*
1260  * Find the first byte we need to write.
1261  *
1262  * For subpage, one page can contain several sectors, and
1263  * __extent_writepage_io() will just grab all extent maps in the page
1264  * range and try to submit all non-inline/non-compressed extents.
1265  *
1266  * This is a big problem for subpage, we shouldn't re-submit already written
1267  * data at all.
1268  * This function will lookup subpage dirty bit to find which range we really
1269  * need to submit.
1270  *
1271  * Return the next dirty range in [@start, @end).
1272  * If no dirty range is found, @start will be page_offset(page) + PAGE_SIZE.
1273  */
1274 static void find_next_dirty_byte(struct btrfs_fs_info *fs_info,
1275                                  struct page *page, u64 *start, u64 *end)
1276 {
1277         struct folio *folio = page_folio(page);
1278         struct btrfs_subpage *subpage = folio_get_private(folio);
1279         struct btrfs_subpage_info *spi = fs_info->subpage_info;
1280         u64 orig_start = *start;
1281         /* Declare as unsigned long so we can use bitmap ops */
1282         unsigned long flags;
1283         int range_start_bit;
1284         int range_end_bit;
1285
1286         /*
1287          * For regular sector size == page size case, since one page only
1288          * contains one sector, we return the page offset directly.
1289          */
1290         if (!btrfs_is_subpage(fs_info, page->mapping)) {
1291                 *start = page_offset(page);
1292                 *end = page_offset(page) + PAGE_SIZE;
1293                 return;
1294         }
1295
1296         range_start_bit = spi->dirty_offset +
1297                           (offset_in_page(orig_start) >> fs_info->sectorsize_bits);
1298
1299         /* We should have the page locked, but just in case */
1300         spin_lock_irqsave(&subpage->lock, flags);
1301         bitmap_next_set_region(subpage->bitmaps, &range_start_bit, &range_end_bit,
1302                                spi->dirty_offset + spi->bitmap_nr_bits);
1303         spin_unlock_irqrestore(&subpage->lock, flags);
1304
1305         range_start_bit -= spi->dirty_offset;
1306         range_end_bit -= spi->dirty_offset;
1307
1308         *start = page_offset(page) + range_start_bit * fs_info->sectorsize;
1309         *end = page_offset(page) + range_end_bit * fs_info->sectorsize;
1310 }
1311
1312 /*
1313  * helper for __extent_writepage.  This calls the writepage start hooks,
1314  * and does the loop to map the page into extents and bios.
1315  *
1316  * We return 1 if the IO is started and the page is unlocked,
1317  * 0 if all went well (page still locked)
1318  * < 0 if there were errors (page still locked)
1319  */
1320 static noinline_for_stack int __extent_writepage_io(struct btrfs_inode *inode,
1321                                  struct page *page,
1322                                  struct btrfs_bio_ctrl *bio_ctrl,
1323                                  loff_t i_size,
1324                                  int *nr_ret)
1325 {
1326         struct btrfs_fs_info *fs_info = inode->root->fs_info;
1327         u64 cur = page_offset(page);
1328         u64 end = cur + PAGE_SIZE - 1;
1329         u64 extent_offset;
1330         u64 block_start;
1331         struct extent_map *em;
1332         int ret = 0;
1333         int nr = 0;
1334
1335         ret = btrfs_writepage_cow_fixup(page);
1336         if (ret) {
1337                 /* Fixup worker will requeue */
1338                 redirty_page_for_writepage(bio_ctrl->wbc, page);
1339                 unlock_page(page);
1340                 return 1;
1341         }
1342
1343         bio_ctrl->end_io_func = end_bbio_data_write;
1344         while (cur <= end) {
1345                 u32 len = end - cur + 1;
1346                 u64 disk_bytenr;
1347                 u64 em_end;
1348                 u64 dirty_range_start = cur;
1349                 u64 dirty_range_end;
1350                 u32 iosize;
1351
1352                 if (cur >= i_size) {
1353                         btrfs_mark_ordered_io_finished(inode, page, cur, len,
1354                                                        true);
1355                         /*
1356                          * This range is beyond i_size, thus we don't need to
1357                          * bother writing back.
1358                          * But we still need to clear the dirty subpage bit, or
1359                          * the next time the page gets dirtied, we will try to
1360                          * writeback the sectors with subpage dirty bits,
1361                          * causing writeback without ordered extent.
1362                          */
1363                         btrfs_folio_clear_dirty(fs_info, page_folio(page), cur, len);
1364                         break;
1365                 }
1366
1367                 find_next_dirty_byte(fs_info, page, &dirty_range_start,
1368                                      &dirty_range_end);
1369                 if (cur < dirty_range_start) {
1370                         cur = dirty_range_start;
1371                         continue;
1372                 }
1373
1374                 em = btrfs_get_extent(inode, NULL, 0, cur, len);
1375                 if (IS_ERR(em)) {
1376                         ret = PTR_ERR_OR_ZERO(em);
1377                         goto out_error;
1378                 }
1379
1380                 extent_offset = cur - em->start;
1381                 em_end = extent_map_end(em);
1382                 ASSERT(cur <= em_end);
1383                 ASSERT(cur < end);
1384                 ASSERT(IS_ALIGNED(em->start, fs_info->sectorsize));
1385                 ASSERT(IS_ALIGNED(em->len, fs_info->sectorsize));
1386
1387                 block_start = em->block_start;
1388                 disk_bytenr = em->block_start + extent_offset;
1389
1390                 ASSERT(!extent_map_is_compressed(em));
1391                 ASSERT(block_start != EXTENT_MAP_HOLE);
1392                 ASSERT(block_start != EXTENT_MAP_INLINE);
1393
1394                 /*
1395                  * Note that em_end from extent_map_end() and dirty_range_end from
1396                  * find_next_dirty_byte() are all exclusive
1397                  */
1398                 iosize = min(min(em_end, end + 1), dirty_range_end) - cur;
1399                 free_extent_map(em);
1400                 em = NULL;
1401
1402                 btrfs_set_range_writeback(inode, cur, cur + iosize - 1);
1403                 if (!PageWriteback(page)) {
1404                         btrfs_err(inode->root->fs_info,
1405                                    "page %lu not writeback, cur %llu end %llu",
1406                                page->index, cur, end);
1407                 }
1408
1409                 /*
1410                  * Although the PageDirty bit is cleared before entering this
1411                  * function, subpage dirty bit is not cleared.
1412                  * So clear subpage dirty bit here so next time we won't submit
1413                  * page for range already written to disk.
1414                  */
1415                 btrfs_folio_clear_dirty(fs_info, page_folio(page), cur, iosize);
1416
1417                 submit_extent_page(bio_ctrl, disk_bytenr, page, iosize,
1418                                    cur - page_offset(page));
1419                 cur += iosize;
1420                 nr++;
1421         }
1422
1423         btrfs_folio_assert_not_dirty(fs_info, page_folio(page));
1424         *nr_ret = nr;
1425         return 0;
1426
1427 out_error:
1428         /*
1429          * If we finish without problem, we should not only clear page dirty,
1430          * but also empty subpage dirty bits
1431          */
1432         *nr_ret = nr;
1433         return ret;
1434 }
1435
1436 /*
1437  * the writepage semantics are similar to regular writepage.  extent
1438  * records are inserted to lock ranges in the tree, and as dirty areas
1439  * are found, they are marked writeback.  Then the lock bits are removed
1440  * and the end_io handler clears the writeback ranges
1441  *
1442  * Return 0 if everything goes well.
1443  * Return <0 for error.
1444  */
1445 static int __extent_writepage(struct page *page, struct btrfs_bio_ctrl *bio_ctrl)
1446 {
1447         struct folio *folio = page_folio(page);
1448         struct inode *inode = page->mapping->host;
1449         const u64 page_start = page_offset(page);
1450         int ret;
1451         int nr = 0;
1452         size_t pg_offset;
1453         loff_t i_size = i_size_read(inode);
1454         unsigned long end_index = i_size >> PAGE_SHIFT;
1455
1456         trace___extent_writepage(page, inode, bio_ctrl->wbc);
1457
1458         WARN_ON(!PageLocked(page));
1459
1460         pg_offset = offset_in_page(i_size);
1461         if (page->index > end_index ||
1462            (page->index == end_index && !pg_offset)) {
1463                 folio_invalidate(folio, 0, folio_size(folio));
1464                 folio_unlock(folio);
1465                 return 0;
1466         }
1467
1468         if (page->index == end_index)
1469                 memzero_page(page, pg_offset, PAGE_SIZE - pg_offset);
1470
1471         ret = set_page_extent_mapped(page);
1472         if (ret < 0)
1473                 goto done;
1474
1475         ret = writepage_delalloc(BTRFS_I(inode), page, bio_ctrl->wbc);
1476         if (ret == 1)
1477                 return 0;
1478         if (ret)
1479                 goto done;
1480
1481         ret = __extent_writepage_io(BTRFS_I(inode), page, bio_ctrl, i_size, &nr);
1482         if (ret == 1)
1483                 return 0;
1484
1485         bio_ctrl->wbc->nr_to_write--;
1486
1487 done:
1488         if (nr == 0) {
1489                 /* make sure the mapping tag for page dirty gets cleared */
1490                 set_page_writeback(page);
1491                 end_page_writeback(page);
1492         }
1493         if (ret) {
1494                 btrfs_mark_ordered_io_finished(BTRFS_I(inode), page, page_start,
1495                                                PAGE_SIZE, !ret);
1496                 mapping_set_error(page->mapping, ret);
1497         }
1498         unlock_page(page);
1499         ASSERT(ret <= 0);
1500         return ret;
1501 }
1502
1503 void wait_on_extent_buffer_writeback(struct extent_buffer *eb)
1504 {
1505         wait_on_bit_io(&eb->bflags, EXTENT_BUFFER_WRITEBACK,
1506                        TASK_UNINTERRUPTIBLE);
1507 }
1508
1509 /*
1510  * Lock extent buffer status and pages for writeback.
1511  *
1512  * Return %false if the extent buffer doesn't need to be submitted (e.g. the
1513  * extent buffer is not dirty)
1514  * Return %true is the extent buffer is submitted to bio.
1515  */
1516 static noinline_for_stack bool lock_extent_buffer_for_io(struct extent_buffer *eb,
1517                           struct writeback_control *wbc)
1518 {
1519         struct btrfs_fs_info *fs_info = eb->fs_info;
1520         bool ret = false;
1521
1522         btrfs_tree_lock(eb);
1523         while (test_bit(EXTENT_BUFFER_WRITEBACK, &eb->bflags)) {
1524                 btrfs_tree_unlock(eb);
1525                 if (wbc->sync_mode != WB_SYNC_ALL)
1526                         return false;
1527                 wait_on_extent_buffer_writeback(eb);
1528                 btrfs_tree_lock(eb);
1529         }
1530
1531         /*
1532          * We need to do this to prevent races in people who check if the eb is
1533          * under IO since we can end up having no IO bits set for a short period
1534          * of time.
1535          */
1536         spin_lock(&eb->refs_lock);
1537         if (test_and_clear_bit(EXTENT_BUFFER_DIRTY, &eb->bflags)) {
1538                 set_bit(EXTENT_BUFFER_WRITEBACK, &eb->bflags);
1539                 spin_unlock(&eb->refs_lock);
1540                 btrfs_set_header_flag(eb, BTRFS_HEADER_FLAG_WRITTEN);
1541                 percpu_counter_add_batch(&fs_info->dirty_metadata_bytes,
1542                                          -eb->len,
1543                                          fs_info->dirty_metadata_batch);
1544                 ret = true;
1545         } else {
1546                 spin_unlock(&eb->refs_lock);
1547         }
1548         btrfs_tree_unlock(eb);
1549         return ret;
1550 }
1551
1552 static void set_btree_ioerr(struct extent_buffer *eb)
1553 {
1554         struct btrfs_fs_info *fs_info = eb->fs_info;
1555
1556         set_bit(EXTENT_BUFFER_WRITE_ERR, &eb->bflags);
1557
1558         /*
1559          * A read may stumble upon this buffer later, make sure that it gets an
1560          * error and knows there was an error.
1561          */
1562         clear_bit(EXTENT_BUFFER_UPTODATE, &eb->bflags);
1563
1564         /*
1565          * We need to set the mapping with the io error as well because a write
1566          * error will flip the file system readonly, and then syncfs() will
1567          * return a 0 because we are readonly if we don't modify the err seq for
1568          * the superblock.
1569          */
1570         mapping_set_error(eb->fs_info->btree_inode->i_mapping, -EIO);
1571
1572         /*
1573          * If writeback for a btree extent that doesn't belong to a log tree
1574          * failed, increment the counter transaction->eb_write_errors.
1575          * We do this because while the transaction is running and before it's
1576          * committing (when we call filemap_fdata[write|wait]_range against
1577          * the btree inode), we might have
1578          * btree_inode->i_mapping->a_ops->writepages() called by the VM - if it
1579          * returns an error or an error happens during writeback, when we're
1580          * committing the transaction we wouldn't know about it, since the pages
1581          * can be no longer dirty nor marked anymore for writeback (if a
1582          * subsequent modification to the extent buffer didn't happen before the
1583          * transaction commit), which makes filemap_fdata[write|wait]_range not
1584          * able to find the pages tagged with SetPageError at transaction
1585          * commit time. So if this happens we must abort the transaction,
1586          * otherwise we commit a super block with btree roots that point to
1587          * btree nodes/leafs whose content on disk is invalid - either garbage
1588          * or the content of some node/leaf from a past generation that got
1589          * cowed or deleted and is no longer valid.
1590          *
1591          * Note: setting AS_EIO/AS_ENOSPC in the btree inode's i_mapping would
1592          * not be enough - we need to distinguish between log tree extents vs
1593          * non-log tree extents, and the next filemap_fdatawait_range() call
1594          * will catch and clear such errors in the mapping - and that call might
1595          * be from a log sync and not from a transaction commit. Also, checking
1596          * for the eb flag EXTENT_BUFFER_WRITE_ERR at transaction commit time is
1597          * not done and would not be reliable - the eb might have been released
1598          * from memory and reading it back again means that flag would not be
1599          * set (since it's a runtime flag, not persisted on disk).
1600          *
1601          * Using the flags below in the btree inode also makes us achieve the
1602          * goal of AS_EIO/AS_ENOSPC when writepages() returns success, started
1603          * writeback for all dirty pages and before filemap_fdatawait_range()
1604          * is called, the writeback for all dirty pages had already finished
1605          * with errors - because we were not using AS_EIO/AS_ENOSPC,
1606          * filemap_fdatawait_range() would return success, as it could not know
1607          * that writeback errors happened (the pages were no longer tagged for
1608          * writeback).
1609          */
1610         switch (eb->log_index) {
1611         case -1:
1612                 set_bit(BTRFS_FS_BTREE_ERR, &fs_info->flags);
1613                 break;
1614         case 0:
1615                 set_bit(BTRFS_FS_LOG1_ERR, &fs_info->flags);
1616                 break;
1617         case 1:
1618                 set_bit(BTRFS_FS_LOG2_ERR, &fs_info->flags);
1619                 break;
1620         default:
1621                 BUG(); /* unexpected, logic error */
1622         }
1623 }
1624
1625 /*
1626  * The endio specific version which won't touch any unsafe spinlock in endio
1627  * context.
1628  */
1629 static struct extent_buffer *find_extent_buffer_nolock(
1630                 struct btrfs_fs_info *fs_info, u64 start)
1631 {
1632         struct extent_buffer *eb;
1633
1634         rcu_read_lock();
1635         eb = radix_tree_lookup(&fs_info->buffer_radix,
1636                                start >> fs_info->sectorsize_bits);
1637         if (eb && atomic_inc_not_zero(&eb->refs)) {
1638                 rcu_read_unlock();
1639                 return eb;
1640         }
1641         rcu_read_unlock();
1642         return NULL;
1643 }
1644
1645 static void end_bbio_meta_write(struct btrfs_bio *bbio)
1646 {
1647         struct extent_buffer *eb = bbio->private;
1648         struct btrfs_fs_info *fs_info = eb->fs_info;
1649         bool uptodate = !bbio->bio.bi_status;
1650         struct folio_iter fi;
1651         u32 bio_offset = 0;
1652
1653         if (!uptodate)
1654                 set_btree_ioerr(eb);
1655
1656         bio_for_each_folio_all(fi, &bbio->bio) {
1657                 u64 start = eb->start + bio_offset;
1658                 struct folio *folio = fi.folio;
1659                 u32 len = fi.length;
1660
1661                 btrfs_folio_clear_writeback(fs_info, folio, start, len);
1662                 bio_offset += len;
1663         }
1664
1665         clear_bit(EXTENT_BUFFER_WRITEBACK, &eb->bflags);
1666         smp_mb__after_atomic();
1667         wake_up_bit(&eb->bflags, EXTENT_BUFFER_WRITEBACK);
1668
1669         bio_put(&bbio->bio);
1670 }
1671
1672 static void prepare_eb_write(struct extent_buffer *eb)
1673 {
1674         u32 nritems;
1675         unsigned long start;
1676         unsigned long end;
1677
1678         clear_bit(EXTENT_BUFFER_WRITE_ERR, &eb->bflags);
1679
1680         /* Set btree blocks beyond nritems with 0 to avoid stale content */
1681         nritems = btrfs_header_nritems(eb);
1682         if (btrfs_header_level(eb) > 0) {
1683                 end = btrfs_node_key_ptr_offset(eb, nritems);
1684                 memzero_extent_buffer(eb, end, eb->len - end);
1685         } else {
1686                 /*
1687                  * Leaf:
1688                  * header 0 1 2 .. N ... data_N .. data_2 data_1 data_0
1689                  */
1690                 start = btrfs_item_nr_offset(eb, nritems);
1691                 end = btrfs_item_nr_offset(eb, 0);
1692                 if (nritems == 0)
1693                         end += BTRFS_LEAF_DATA_SIZE(eb->fs_info);
1694                 else
1695                         end += btrfs_item_offset(eb, nritems - 1);
1696                 memzero_extent_buffer(eb, start, end - start);
1697         }
1698 }
1699
1700 static noinline_for_stack void write_one_eb(struct extent_buffer *eb,
1701                                             struct writeback_control *wbc)
1702 {
1703         struct btrfs_fs_info *fs_info = eb->fs_info;
1704         struct btrfs_bio *bbio;
1705
1706         prepare_eb_write(eb);
1707
1708         bbio = btrfs_bio_alloc(INLINE_EXTENT_BUFFER_PAGES,
1709                                REQ_OP_WRITE | REQ_META | wbc_to_write_flags(wbc),
1710                                eb->fs_info, end_bbio_meta_write, eb);
1711         bbio->bio.bi_iter.bi_sector = eb->start >> SECTOR_SHIFT;
1712         bio_set_dev(&bbio->bio, fs_info->fs_devices->latest_dev->bdev);
1713         wbc_init_bio(wbc, &bbio->bio);
1714         bbio->inode = BTRFS_I(eb->fs_info->btree_inode);
1715         bbio->file_offset = eb->start;
1716         if (fs_info->nodesize < PAGE_SIZE) {
1717                 struct folio *folio = eb->folios[0];
1718                 bool ret;
1719
1720                 folio_lock(folio);
1721                 btrfs_subpage_set_writeback(fs_info, folio, eb->start, eb->len);
1722                 if (btrfs_subpage_clear_and_test_dirty(fs_info, folio, eb->start,
1723                                                        eb->len)) {
1724                         folio_clear_dirty_for_io(folio);
1725                         wbc->nr_to_write--;
1726                 }
1727                 ret = bio_add_folio(&bbio->bio, folio, eb->len,
1728                                     eb->start - folio_pos(folio));
1729                 ASSERT(ret);
1730                 wbc_account_cgroup_owner(wbc, folio_page(folio, 0), eb->len);
1731                 folio_unlock(folio);
1732         } else {
1733                 int num_folios = num_extent_folios(eb);
1734
1735                 for (int i = 0; i < num_folios; i++) {
1736                         struct folio *folio = eb->folios[i];
1737                         bool ret;
1738
1739                         folio_lock(folio);
1740                         folio_clear_dirty_for_io(folio);
1741                         folio_start_writeback(folio);
1742                         ret = bio_add_folio(&bbio->bio, folio, folio_size(folio), 0);
1743                         ASSERT(ret);
1744                         wbc_account_cgroup_owner(wbc, folio_page(folio, 0),
1745                                                  folio_size(folio));
1746                         wbc->nr_to_write -= folio_nr_pages(folio);
1747                         folio_unlock(folio);
1748                 }
1749         }
1750         btrfs_submit_bio(bbio, 0);
1751 }
1752
1753 /*
1754  * Submit one subpage btree page.
1755  *
1756  * The main difference to submit_eb_page() is:
1757  * - Page locking
1758  *   For subpage, we don't rely on page locking at all.
1759  *
1760  * - Flush write bio
1761  *   We only flush bio if we may be unable to fit current extent buffers into
1762  *   current bio.
1763  *
1764  * Return >=0 for the number of submitted extent buffers.
1765  * Return <0 for fatal error.
1766  */
1767 static int submit_eb_subpage(struct page *page, struct writeback_control *wbc)
1768 {
1769         struct btrfs_fs_info *fs_info = btrfs_sb(page->mapping->host->i_sb);
1770         struct folio *folio = page_folio(page);
1771         int submitted = 0;
1772         u64 page_start = page_offset(page);
1773         int bit_start = 0;
1774         int sectors_per_node = fs_info->nodesize >> fs_info->sectorsize_bits;
1775
1776         /* Lock and write each dirty extent buffers in the range */
1777         while (bit_start < fs_info->subpage_info->bitmap_nr_bits) {
1778                 struct btrfs_subpage *subpage = folio_get_private(folio);
1779                 struct extent_buffer *eb;
1780                 unsigned long flags;
1781                 u64 start;
1782
1783                 /*
1784                  * Take private lock to ensure the subpage won't be detached
1785                  * in the meantime.
1786                  */
1787                 spin_lock(&page->mapping->i_private_lock);
1788                 if (!folio_test_private(folio)) {
1789                         spin_unlock(&page->mapping->i_private_lock);
1790                         break;
1791                 }
1792                 spin_lock_irqsave(&subpage->lock, flags);
1793                 if (!test_bit(bit_start + fs_info->subpage_info->dirty_offset,
1794                               subpage->bitmaps)) {
1795                         spin_unlock_irqrestore(&subpage->lock, flags);
1796                         spin_unlock(&page->mapping->i_private_lock);
1797                         bit_start++;
1798                         continue;
1799                 }
1800
1801                 start = page_start + bit_start * fs_info->sectorsize;
1802                 bit_start += sectors_per_node;
1803
1804                 /*
1805                  * Here we just want to grab the eb without touching extra
1806                  * spin locks, so call find_extent_buffer_nolock().
1807                  */
1808                 eb = find_extent_buffer_nolock(fs_info, start);
1809                 spin_unlock_irqrestore(&subpage->lock, flags);
1810                 spin_unlock(&page->mapping->i_private_lock);
1811
1812                 /*
1813                  * The eb has already reached 0 refs thus find_extent_buffer()
1814                  * doesn't return it. We don't need to write back such eb
1815                  * anyway.
1816                  */
1817                 if (!eb)
1818                         continue;
1819
1820                 if (lock_extent_buffer_for_io(eb, wbc)) {
1821                         write_one_eb(eb, wbc);
1822                         submitted++;
1823                 }
1824                 free_extent_buffer(eb);
1825         }
1826         return submitted;
1827 }
1828
1829 /*
1830  * Submit all page(s) of one extent buffer.
1831  *
1832  * @page:       the page of one extent buffer
1833  * @eb_context: to determine if we need to submit this page, if current page
1834  *              belongs to this eb, we don't need to submit
1835  *
1836  * The caller should pass each page in their bytenr order, and here we use
1837  * @eb_context to determine if we have submitted pages of one extent buffer.
1838  *
1839  * If we have, we just skip until we hit a new page that doesn't belong to
1840  * current @eb_context.
1841  *
1842  * If not, we submit all the page(s) of the extent buffer.
1843  *
1844  * Return >0 if we have submitted the extent buffer successfully.
1845  * Return 0 if we don't need to submit the page, as it's already submitted by
1846  * previous call.
1847  * Return <0 for fatal error.
1848  */
1849 static int submit_eb_page(struct page *page, struct btrfs_eb_write_context *ctx)
1850 {
1851         struct writeback_control *wbc = ctx->wbc;
1852         struct address_space *mapping = page->mapping;
1853         struct folio *folio = page_folio(page);
1854         struct extent_buffer *eb;
1855         int ret;
1856
1857         if (!folio_test_private(folio))
1858                 return 0;
1859
1860         if (btrfs_sb(page->mapping->host->i_sb)->nodesize < PAGE_SIZE)
1861                 return submit_eb_subpage(page, wbc);
1862
1863         spin_lock(&mapping->i_private_lock);
1864         if (!folio_test_private(folio)) {
1865                 spin_unlock(&mapping->i_private_lock);
1866                 return 0;
1867         }
1868
1869         eb = folio_get_private(folio);
1870
1871         /*
1872          * Shouldn't happen and normally this would be a BUG_ON but no point
1873          * crashing the machine for something we can survive anyway.
1874          */
1875         if (WARN_ON(!eb)) {
1876                 spin_unlock(&mapping->i_private_lock);
1877                 return 0;
1878         }
1879
1880         if (eb == ctx->eb) {
1881                 spin_unlock(&mapping->i_private_lock);
1882                 return 0;
1883         }
1884         ret = atomic_inc_not_zero(&eb->refs);
1885         spin_unlock(&mapping->i_private_lock);
1886         if (!ret)
1887                 return 0;
1888
1889         ctx->eb = eb;
1890
1891         ret = btrfs_check_meta_write_pointer(eb->fs_info, ctx);
1892         if (ret) {
1893                 if (ret == -EBUSY)
1894                         ret = 0;
1895                 free_extent_buffer(eb);
1896                 return ret;
1897         }
1898
1899         if (!lock_extent_buffer_for_io(eb, wbc)) {
1900                 free_extent_buffer(eb);
1901                 return 0;
1902         }
1903         /* Implies write in zoned mode. */
1904         if (ctx->zoned_bg) {
1905                 /* Mark the last eb in the block group. */
1906                 btrfs_schedule_zone_finish_bg(ctx->zoned_bg, eb);
1907                 ctx->zoned_bg->meta_write_pointer += eb->len;
1908         }
1909         write_one_eb(eb, wbc);
1910         free_extent_buffer(eb);
1911         return 1;
1912 }
1913
1914 int btree_write_cache_pages(struct address_space *mapping,
1915                                    struct writeback_control *wbc)
1916 {
1917         struct btrfs_eb_write_context ctx = { .wbc = wbc };
1918         struct btrfs_fs_info *fs_info = BTRFS_I(mapping->host)->root->fs_info;
1919         int ret = 0;
1920         int done = 0;
1921         int nr_to_write_done = 0;
1922         struct folio_batch fbatch;
1923         unsigned int nr_folios;
1924         pgoff_t index;
1925         pgoff_t end;            /* Inclusive */
1926         int scanned = 0;
1927         xa_mark_t tag;
1928
1929         folio_batch_init(&fbatch);
1930         if (wbc->range_cyclic) {
1931                 index = mapping->writeback_index; /* Start from prev offset */
1932                 end = -1;
1933                 /*
1934                  * Start from the beginning does not need to cycle over the
1935                  * range, mark it as scanned.
1936                  */
1937                 scanned = (index == 0);
1938         } else {
1939                 index = wbc->range_start >> PAGE_SHIFT;
1940                 end = wbc->range_end >> PAGE_SHIFT;
1941                 scanned = 1;
1942         }
1943         if (wbc->sync_mode == WB_SYNC_ALL)
1944                 tag = PAGECACHE_TAG_TOWRITE;
1945         else
1946                 tag = PAGECACHE_TAG_DIRTY;
1947         btrfs_zoned_meta_io_lock(fs_info);
1948 retry:
1949         if (wbc->sync_mode == WB_SYNC_ALL)
1950                 tag_pages_for_writeback(mapping, index, end);
1951         while (!done && !nr_to_write_done && (index <= end) &&
1952                (nr_folios = filemap_get_folios_tag(mapping, &index, end,
1953                                             tag, &fbatch))) {
1954                 unsigned i;
1955
1956                 for (i = 0; i < nr_folios; i++) {
1957                         struct folio *folio = fbatch.folios[i];
1958
1959                         ret = submit_eb_page(&folio->page, &ctx);
1960                         if (ret == 0)
1961                                 continue;
1962                         if (ret < 0) {
1963                                 done = 1;
1964                                 break;
1965                         }
1966
1967                         /*
1968                          * the filesystem may choose to bump up nr_to_write.
1969                          * We have to make sure to honor the new nr_to_write
1970                          * at any time
1971                          */
1972                         nr_to_write_done = wbc->nr_to_write <= 0;
1973                 }
1974                 folio_batch_release(&fbatch);
1975                 cond_resched();
1976         }
1977         if (!scanned && !done) {
1978                 /*
1979                  * We hit the last page and there is more work to be done: wrap
1980                  * back to the start of the file
1981                  */
1982                 scanned = 1;
1983                 index = 0;
1984                 goto retry;
1985         }
1986         /*
1987          * If something went wrong, don't allow any metadata write bio to be
1988          * submitted.
1989          *
1990          * This would prevent use-after-free if we had dirty pages not
1991          * cleaned up, which can still happen by fuzzed images.
1992          *
1993          * - Bad extent tree
1994          *   Allowing existing tree block to be allocated for other trees.
1995          *
1996          * - Log tree operations
1997          *   Exiting tree blocks get allocated to log tree, bumps its
1998          *   generation, then get cleaned in tree re-balance.
1999          *   Such tree block will not be written back, since it's clean,
2000          *   thus no WRITTEN flag set.
2001          *   And after log writes back, this tree block is not traced by
2002          *   any dirty extent_io_tree.
2003          *
2004          * - Offending tree block gets re-dirtied from its original owner
2005          *   Since it has bumped generation, no WRITTEN flag, it can be
2006          *   reused without COWing. This tree block will not be traced
2007          *   by btrfs_transaction::dirty_pages.
2008          *
2009          *   Now such dirty tree block will not be cleaned by any dirty
2010          *   extent io tree. Thus we don't want to submit such wild eb
2011          *   if the fs already has error.
2012          *
2013          * We can get ret > 0 from submit_extent_page() indicating how many ebs
2014          * were submitted. Reset it to 0 to avoid false alerts for the caller.
2015          */
2016         if (ret > 0)
2017                 ret = 0;
2018         if (!ret && BTRFS_FS_ERROR(fs_info))
2019                 ret = -EROFS;
2020
2021         if (ctx.zoned_bg)
2022                 btrfs_put_block_group(ctx.zoned_bg);
2023         btrfs_zoned_meta_io_unlock(fs_info);
2024         return ret;
2025 }
2026
2027 /*
2028  * Walk the list of dirty pages of the given address space and write all of them.
2029  *
2030  * @mapping:   address space structure to write
2031  * @wbc:       subtract the number of written pages from *@wbc->nr_to_write
2032  * @bio_ctrl:  holds context for the write, namely the bio
2033  *
2034  * If a page is already under I/O, write_cache_pages() skips it, even
2035  * if it's dirty.  This is desirable behaviour for memory-cleaning writeback,
2036  * but it is INCORRECT for data-integrity system calls such as fsync().  fsync()
2037  * and msync() need to guarantee that all the data which was dirty at the time
2038  * the call was made get new I/O started against them.  If wbc->sync_mode is
2039  * WB_SYNC_ALL then we were called for data integrity and we must wait for
2040  * existing IO to complete.
2041  */
2042 static int extent_write_cache_pages(struct address_space *mapping,
2043                              struct btrfs_bio_ctrl *bio_ctrl)
2044 {
2045         struct writeback_control *wbc = bio_ctrl->wbc;
2046         struct inode *inode = mapping->host;
2047         int ret = 0;
2048         int done = 0;
2049         int nr_to_write_done = 0;
2050         struct folio_batch fbatch;
2051         unsigned int nr_folios;
2052         pgoff_t index;
2053         pgoff_t end;            /* Inclusive */
2054         pgoff_t done_index;
2055         int range_whole = 0;
2056         int scanned = 0;
2057         xa_mark_t tag;
2058
2059         /*
2060          * We have to hold onto the inode so that ordered extents can do their
2061          * work when the IO finishes.  The alternative to this is failing to add
2062          * an ordered extent if the igrab() fails there and that is a huge pain
2063          * to deal with, so instead just hold onto the inode throughout the
2064          * writepages operation.  If it fails here we are freeing up the inode
2065          * anyway and we'd rather not waste our time writing out stuff that is
2066          * going to be truncated anyway.
2067          */
2068         if (!igrab(inode))
2069                 return 0;
2070
2071         folio_batch_init(&fbatch);
2072         if (wbc->range_cyclic) {
2073                 index = mapping->writeback_index; /* Start from prev offset */
2074                 end = -1;
2075                 /*
2076                  * Start from the beginning does not need to cycle over the
2077                  * range, mark it as scanned.
2078                  */
2079                 scanned = (index == 0);
2080         } else {
2081                 index = wbc->range_start >> PAGE_SHIFT;
2082                 end = wbc->range_end >> PAGE_SHIFT;
2083                 if (wbc->range_start == 0 && wbc->range_end == LLONG_MAX)
2084                         range_whole = 1;
2085                 scanned = 1;
2086         }
2087
2088         /*
2089          * We do the tagged writepage as long as the snapshot flush bit is set
2090          * and we are the first one who do the filemap_flush() on this inode.
2091          *
2092          * The nr_to_write == LONG_MAX is needed to make sure other flushers do
2093          * not race in and drop the bit.
2094          */
2095         if (range_whole && wbc->nr_to_write == LONG_MAX &&
2096             test_and_clear_bit(BTRFS_INODE_SNAPSHOT_FLUSH,
2097                                &BTRFS_I(inode)->runtime_flags))
2098                 wbc->tagged_writepages = 1;
2099
2100         if (wbc->sync_mode == WB_SYNC_ALL || wbc->tagged_writepages)
2101                 tag = PAGECACHE_TAG_TOWRITE;
2102         else
2103                 tag = PAGECACHE_TAG_DIRTY;
2104 retry:
2105         if (wbc->sync_mode == WB_SYNC_ALL || wbc->tagged_writepages)
2106                 tag_pages_for_writeback(mapping, index, end);
2107         done_index = index;
2108         while (!done && !nr_to_write_done && (index <= end) &&
2109                         (nr_folios = filemap_get_folios_tag(mapping, &index,
2110                                                         end, tag, &fbatch))) {
2111                 unsigned i;
2112
2113                 for (i = 0; i < nr_folios; i++) {
2114                         struct folio *folio = fbatch.folios[i];
2115
2116                         done_index = folio_next_index(folio);
2117                         /*
2118                          * At this point we hold neither the i_pages lock nor
2119                          * the page lock: the page may be truncated or
2120                          * invalidated (changing page->mapping to NULL),
2121                          * or even swizzled back from swapper_space to
2122                          * tmpfs file mapping
2123                          */
2124                         if (!folio_trylock(folio)) {
2125                                 submit_write_bio(bio_ctrl, 0);
2126                                 folio_lock(folio);
2127                         }
2128
2129                         if (unlikely(folio->mapping != mapping)) {
2130                                 folio_unlock(folio);
2131                                 continue;
2132                         }
2133
2134                         if (!folio_test_dirty(folio)) {
2135                                 /* Someone wrote it for us. */
2136                                 folio_unlock(folio);
2137                                 continue;
2138                         }
2139
2140                         if (wbc->sync_mode != WB_SYNC_NONE) {
2141                                 if (folio_test_writeback(folio))
2142                                         submit_write_bio(bio_ctrl, 0);
2143                                 folio_wait_writeback(folio);
2144                         }
2145
2146                         if (folio_test_writeback(folio) ||
2147                             !folio_clear_dirty_for_io(folio)) {
2148                                 folio_unlock(folio);
2149                                 continue;
2150                         }
2151
2152                         ret = __extent_writepage(&folio->page, bio_ctrl);
2153                         if (ret < 0) {
2154                                 done = 1;
2155                                 break;
2156                         }
2157
2158                         /*
2159                          * The filesystem may choose to bump up nr_to_write.
2160                          * We have to make sure to honor the new nr_to_write
2161                          * at any time.
2162                          */
2163                         nr_to_write_done = (wbc->sync_mode == WB_SYNC_NONE &&
2164                                             wbc->nr_to_write <= 0);
2165                 }
2166                 folio_batch_release(&fbatch);
2167                 cond_resched();
2168         }
2169         if (!scanned && !done) {
2170                 /*
2171                  * We hit the last page and there is more work to be done: wrap
2172                  * back to the start of the file
2173                  */
2174                 scanned = 1;
2175                 index = 0;
2176
2177                 /*
2178                  * If we're looping we could run into a page that is locked by a
2179                  * writer and that writer could be waiting on writeback for a
2180                  * page in our current bio, and thus deadlock, so flush the
2181                  * write bio here.
2182                  */
2183                 submit_write_bio(bio_ctrl, 0);
2184                 goto retry;
2185         }
2186
2187         if (wbc->range_cyclic || (wbc->nr_to_write > 0 && range_whole))
2188                 mapping->writeback_index = done_index;
2189
2190         btrfs_add_delayed_iput(BTRFS_I(inode));
2191         return ret;
2192 }
2193
2194 /*
2195  * Submit the pages in the range to bio for call sites which delalloc range has
2196  * already been ran (aka, ordered extent inserted) and all pages are still
2197  * locked.
2198  */
2199 void extent_write_locked_range(struct inode *inode, struct page *locked_page,
2200                                u64 start, u64 end, struct writeback_control *wbc,
2201                                bool pages_dirty)
2202 {
2203         bool found_error = false;
2204         int ret = 0;
2205         struct address_space *mapping = inode->i_mapping;
2206         struct btrfs_fs_info *fs_info = btrfs_sb(inode->i_sb);
2207         const u32 sectorsize = fs_info->sectorsize;
2208         loff_t i_size = i_size_read(inode);
2209         u64 cur = start;
2210         struct btrfs_bio_ctrl bio_ctrl = {
2211                 .wbc = wbc,
2212                 .opf = REQ_OP_WRITE | wbc_to_write_flags(wbc),
2213         };
2214
2215         if (wbc->no_cgroup_owner)
2216                 bio_ctrl.opf |= REQ_BTRFS_CGROUP_PUNT;
2217
2218         ASSERT(IS_ALIGNED(start, sectorsize) && IS_ALIGNED(end + 1, sectorsize));
2219
2220         while (cur <= end) {
2221                 u64 cur_end = min(round_down(cur, PAGE_SIZE) + PAGE_SIZE - 1, end);
2222                 u32 cur_len = cur_end + 1 - cur;
2223                 struct page *page;
2224                 int nr = 0;
2225
2226                 page = find_get_page(mapping, cur >> PAGE_SHIFT);
2227                 ASSERT(PageLocked(page));
2228                 if (pages_dirty && page != locked_page) {
2229                         ASSERT(PageDirty(page));
2230                         clear_page_dirty_for_io(page);
2231                 }
2232
2233                 ret = __extent_writepage_io(BTRFS_I(inode), page, &bio_ctrl,
2234                                             i_size, &nr);
2235                 if (ret == 1)
2236                         goto next_page;
2237
2238                 /* Make sure the mapping tag for page dirty gets cleared. */
2239                 if (nr == 0) {
2240                         set_page_writeback(page);
2241                         end_page_writeback(page);
2242                 }
2243                 if (ret) {
2244                         btrfs_mark_ordered_io_finished(BTRFS_I(inode), page,
2245                                                        cur, cur_len, !ret);
2246                         mapping_set_error(page->mapping, ret);
2247                 }
2248                 btrfs_folio_unlock_writer(fs_info, page_folio(page), cur, cur_len);
2249                 if (ret < 0)
2250                         found_error = true;
2251 next_page:
2252                 put_page(page);
2253                 cur = cur_end + 1;
2254         }
2255
2256         submit_write_bio(&bio_ctrl, found_error ? ret : 0);
2257 }
2258
2259 int extent_writepages(struct address_space *mapping,
2260                       struct writeback_control *wbc)
2261 {
2262         struct inode *inode = mapping->host;
2263         int ret = 0;
2264         struct btrfs_bio_ctrl bio_ctrl = {
2265                 .wbc = wbc,
2266                 .opf = REQ_OP_WRITE | wbc_to_write_flags(wbc),
2267         };
2268
2269         /*
2270          * Allow only a single thread to do the reloc work in zoned mode to
2271          * protect the write pointer updates.
2272          */
2273         btrfs_zoned_data_reloc_lock(BTRFS_I(inode));
2274         ret = extent_write_cache_pages(mapping, &bio_ctrl);
2275         submit_write_bio(&bio_ctrl, ret);
2276         btrfs_zoned_data_reloc_unlock(BTRFS_I(inode));
2277         return ret;
2278 }
2279
2280 void extent_readahead(struct readahead_control *rac)
2281 {
2282         struct btrfs_bio_ctrl bio_ctrl = { .opf = REQ_OP_READ | REQ_RAHEAD };
2283         struct page *pagepool[16];
2284         struct extent_map *em_cached = NULL;
2285         u64 prev_em_start = (u64)-1;
2286         int nr;
2287
2288         while ((nr = readahead_page_batch(rac, pagepool))) {
2289                 u64 contig_start = readahead_pos(rac);
2290                 u64 contig_end = contig_start + readahead_batch_length(rac) - 1;
2291
2292                 contiguous_readpages(pagepool, nr, contig_start, contig_end,
2293                                 &em_cached, &bio_ctrl, &prev_em_start);
2294         }
2295
2296         if (em_cached)
2297                 free_extent_map(em_cached);
2298         submit_one_bio(&bio_ctrl);
2299 }
2300
2301 /*
2302  * basic invalidate_folio code, this waits on any locked or writeback
2303  * ranges corresponding to the folio, and then deletes any extent state
2304  * records from the tree
2305  */
2306 int extent_invalidate_folio(struct extent_io_tree *tree,
2307                           struct folio *folio, size_t offset)
2308 {
2309         struct extent_state *cached_state = NULL;
2310         u64 start = folio_pos(folio);
2311         u64 end = start + folio_size(folio) - 1;
2312         size_t blocksize = folio->mapping->host->i_sb->s_blocksize;
2313
2314         /* This function is only called for the btree inode */
2315         ASSERT(tree->owner == IO_TREE_BTREE_INODE_IO);
2316
2317         start += ALIGN(offset, blocksize);
2318         if (start > end)
2319                 return 0;
2320
2321         lock_extent(tree, start, end, &cached_state);
2322         folio_wait_writeback(folio);
2323
2324         /*
2325          * Currently for btree io tree, only EXTENT_LOCKED is utilized,
2326          * so here we only need to unlock the extent range to free any
2327          * existing extent state.
2328          */
2329         unlock_extent(tree, start, end, &cached_state);
2330         return 0;
2331 }
2332
2333 /*
2334  * a helper for release_folio, this tests for areas of the page that
2335  * are locked or under IO and drops the related state bits if it is safe
2336  * to drop the page.
2337  */
2338 static int try_release_extent_state(struct extent_io_tree *tree,
2339                                     struct page *page, gfp_t mask)
2340 {
2341         u64 start = page_offset(page);
2342         u64 end = start + PAGE_SIZE - 1;
2343         int ret = 1;
2344
2345         if (test_range_bit_exists(tree, start, end, EXTENT_LOCKED)) {
2346                 ret = 0;
2347         } else {
2348                 u32 clear_bits = ~(EXTENT_LOCKED | EXTENT_NODATASUM |
2349                                    EXTENT_DELALLOC_NEW | EXTENT_CTLBITS |
2350                                    EXTENT_QGROUP_RESERVED);
2351
2352                 /*
2353                  * At this point we can safely clear everything except the
2354                  * locked bit, the nodatasum bit and the delalloc new bit.
2355                  * The delalloc new bit will be cleared by ordered extent
2356                  * completion.
2357                  */
2358                 ret = __clear_extent_bit(tree, start, end, clear_bits, NULL, NULL);
2359
2360                 /* if clear_extent_bit failed for enomem reasons,
2361                  * we can't allow the release to continue.
2362                  */
2363                 if (ret < 0)
2364                         ret = 0;
2365                 else
2366                         ret = 1;
2367         }
2368         return ret;
2369 }
2370
2371 /*
2372  * a helper for release_folio.  As long as there are no locked extents
2373  * in the range corresponding to the page, both state records and extent
2374  * map records are removed
2375  */
2376 int try_release_extent_mapping(struct page *page, gfp_t mask)
2377 {
2378         struct extent_map *em;
2379         u64 start = page_offset(page);
2380         u64 end = start + PAGE_SIZE - 1;
2381         struct btrfs_inode *btrfs_inode = BTRFS_I(page->mapping->host);
2382         struct extent_io_tree *tree = &btrfs_inode->io_tree;
2383         struct extent_map_tree *map = &btrfs_inode->extent_tree;
2384
2385         if (gfpflags_allow_blocking(mask) &&
2386             page->mapping->host->i_size > SZ_16M) {
2387                 u64 len;
2388                 while (start <= end) {
2389                         struct btrfs_fs_info *fs_info;
2390                         u64 cur_gen;
2391
2392                         len = end - start + 1;
2393                         write_lock(&map->lock);
2394                         em = lookup_extent_mapping(map, start, len);
2395                         if (!em) {
2396                                 write_unlock(&map->lock);
2397                                 break;
2398                         }
2399                         if ((em->flags & EXTENT_FLAG_PINNED) ||
2400                             em->start != start) {
2401                                 write_unlock(&map->lock);
2402                                 free_extent_map(em);
2403                                 break;
2404                         }
2405                         if (test_range_bit_exists(tree, em->start,
2406                                                   extent_map_end(em) - 1,
2407                                                   EXTENT_LOCKED))
2408                                 goto next;
2409                         /*
2410                          * If it's not in the list of modified extents, used
2411                          * by a fast fsync, we can remove it. If it's being
2412                          * logged we can safely remove it since fsync took an
2413                          * extra reference on the em.
2414                          */
2415                         if (list_empty(&em->list) ||
2416                             (em->flags & EXTENT_FLAG_LOGGING))
2417                                 goto remove_em;
2418                         /*
2419                          * If it's in the list of modified extents, remove it
2420                          * only if its generation is older then the current one,
2421                          * in which case we don't need it for a fast fsync.
2422                          * Otherwise don't remove it, we could be racing with an
2423                          * ongoing fast fsync that could miss the new extent.
2424                          */
2425                         fs_info = btrfs_inode->root->fs_info;
2426                         spin_lock(&fs_info->trans_lock);
2427                         cur_gen = fs_info->generation;
2428                         spin_unlock(&fs_info->trans_lock);
2429                         if (em->generation >= cur_gen)
2430                                 goto next;
2431 remove_em:
2432                         /*
2433                          * We only remove extent maps that are not in the list of
2434                          * modified extents or that are in the list but with a
2435                          * generation lower then the current generation, so there
2436                          * is no need to set the full fsync flag on the inode (it
2437                          * hurts the fsync performance for workloads with a data
2438                          * size that exceeds or is close to the system's memory).
2439                          */
2440                         remove_extent_mapping(map, em);
2441                         /* once for the rb tree */
2442                         free_extent_map(em);
2443 next:
2444                         start = extent_map_end(em);
2445                         write_unlock(&map->lock);
2446
2447                         /* once for us */
2448                         free_extent_map(em);
2449
2450                         cond_resched(); /* Allow large-extent preemption. */
2451                 }
2452         }
2453         return try_release_extent_state(tree, page, mask);
2454 }
2455
2456 /*
2457  * To cache previous fiemap extent
2458  *
2459  * Will be used for merging fiemap extent
2460  */
2461 struct fiemap_cache {
2462         u64 offset;
2463         u64 phys;
2464         u64 len;
2465         u32 flags;
2466         bool cached;
2467 };
2468
2469 /*
2470  * Helper to submit fiemap extent.
2471  *
2472  * Will try to merge current fiemap extent specified by @offset, @phys,
2473  * @len and @flags with cached one.
2474  * And only when we fails to merge, cached one will be submitted as
2475  * fiemap extent.
2476  *
2477  * Return value is the same as fiemap_fill_next_extent().
2478  */
2479 static int emit_fiemap_extent(struct fiemap_extent_info *fieinfo,
2480                                 struct fiemap_cache *cache,
2481                                 u64 offset, u64 phys, u64 len, u32 flags)
2482 {
2483         int ret = 0;
2484
2485         /* Set at the end of extent_fiemap(). */
2486         ASSERT((flags & FIEMAP_EXTENT_LAST) == 0);
2487
2488         if (!cache->cached)
2489                 goto assign;
2490
2491         /*
2492          * Sanity check, extent_fiemap() should have ensured that new
2493          * fiemap extent won't overlap with cached one.
2494          * Not recoverable.
2495          *
2496          * NOTE: Physical address can overlap, due to compression
2497          */
2498         if (cache->offset + cache->len > offset) {
2499                 WARN_ON(1);
2500                 return -EINVAL;
2501         }
2502
2503         /*
2504          * Only merges fiemap extents if
2505          * 1) Their logical addresses are continuous
2506          *
2507          * 2) Their physical addresses are continuous
2508          *    So truly compressed (physical size smaller than logical size)
2509          *    extents won't get merged with each other
2510          *
2511          * 3) Share same flags
2512          */
2513         if (cache->offset + cache->len  == offset &&
2514             cache->phys + cache->len == phys  &&
2515             cache->flags == flags) {
2516                 cache->len += len;
2517                 return 0;
2518         }
2519
2520         /* Not mergeable, need to submit cached one */
2521         ret = fiemap_fill_next_extent(fieinfo, cache->offset, cache->phys,
2522                                       cache->len, cache->flags);
2523         cache->cached = false;
2524         if (ret)
2525                 return ret;
2526 assign:
2527         cache->cached = true;
2528         cache->offset = offset;
2529         cache->phys = phys;
2530         cache->len = len;
2531         cache->flags = flags;
2532
2533         return 0;
2534 }
2535
2536 /*
2537  * Emit last fiemap cache
2538  *
2539  * The last fiemap cache may still be cached in the following case:
2540  * 0                  4k                    8k
2541  * |<- Fiemap range ->|
2542  * |<------------  First extent ----------->|
2543  *
2544  * In this case, the first extent range will be cached but not emitted.
2545  * So we must emit it before ending extent_fiemap().
2546  */
2547 static int emit_last_fiemap_cache(struct fiemap_extent_info *fieinfo,
2548                                   struct fiemap_cache *cache)
2549 {
2550         int ret;
2551
2552         if (!cache->cached)
2553                 return 0;
2554
2555         ret = fiemap_fill_next_extent(fieinfo, cache->offset, cache->phys,
2556                                       cache->len, cache->flags);
2557         cache->cached = false;
2558         if (ret > 0)
2559                 ret = 0;
2560         return ret;
2561 }
2562
2563 static int fiemap_next_leaf_item(struct btrfs_inode *inode, struct btrfs_path *path)
2564 {
2565         struct extent_buffer *clone;
2566         struct btrfs_key key;
2567         int slot;
2568         int ret;
2569
2570         path->slots[0]++;
2571         if (path->slots[0] < btrfs_header_nritems(path->nodes[0]))
2572                 return 0;
2573
2574         ret = btrfs_next_leaf(inode->root, path);
2575         if (ret != 0)
2576                 return ret;
2577
2578         /*
2579          * Don't bother with cloning if there are no more file extent items for
2580          * our inode.
2581          */
2582         btrfs_item_key_to_cpu(path->nodes[0], &key, path->slots[0]);
2583         if (key.objectid != btrfs_ino(inode) || key.type != BTRFS_EXTENT_DATA_KEY)
2584                 return 1;
2585
2586         /* See the comment at fiemap_search_slot() about why we clone. */
2587         clone = btrfs_clone_extent_buffer(path->nodes[0]);
2588         if (!clone)
2589                 return -ENOMEM;
2590
2591         slot = path->slots[0];
2592         btrfs_release_path(path);
2593         path->nodes[0] = clone;
2594         path->slots[0] = slot;
2595
2596         return 0;
2597 }
2598
2599 /*
2600  * Search for the first file extent item that starts at a given file offset or
2601  * the one that starts immediately before that offset.
2602  * Returns: 0 on success, < 0 on error, 1 if not found.
2603  */
2604 static int fiemap_search_slot(struct btrfs_inode *inode, struct btrfs_path *path,
2605                               u64 file_offset)
2606 {
2607         const u64 ino = btrfs_ino(inode);
2608         struct btrfs_root *root = inode->root;
2609         struct extent_buffer *clone;
2610         struct btrfs_key key;
2611         int slot;
2612         int ret;
2613
2614         key.objectid = ino;
2615         key.type = BTRFS_EXTENT_DATA_KEY;
2616         key.offset = file_offset;
2617
2618         ret = btrfs_search_slot(NULL, root, &key, path, 0, 0);
2619         if (ret < 0)
2620                 return ret;
2621
2622         if (ret > 0 && path->slots[0] > 0) {
2623                 btrfs_item_key_to_cpu(path->nodes[0], &key, path->slots[0] - 1);
2624                 if (key.objectid == ino && key.type == BTRFS_EXTENT_DATA_KEY)
2625                         path->slots[0]--;
2626         }
2627
2628         if (path->slots[0] >= btrfs_header_nritems(path->nodes[0])) {
2629                 ret = btrfs_next_leaf(root, path);
2630                 if (ret != 0)
2631                         return ret;
2632
2633                 btrfs_item_key_to_cpu(path->nodes[0], &key, path->slots[0]);
2634                 if (key.objectid != ino || key.type != BTRFS_EXTENT_DATA_KEY)
2635                         return 1;
2636         }
2637
2638         /*
2639          * We clone the leaf and use it during fiemap. This is because while
2640          * using the leaf we do expensive things like checking if an extent is
2641          * shared, which can take a long time. In order to prevent blocking
2642          * other tasks for too long, we use a clone of the leaf. We have locked
2643          * the file range in the inode's io tree, so we know none of our file
2644          * extent items can change. This way we avoid blocking other tasks that
2645          * want to insert items for other inodes in the same leaf or b+tree
2646          * rebalance operations (triggered for example when someone is trying
2647          * to push items into this leaf when trying to insert an item in a
2648          * neighbour leaf).
2649          * We also need the private clone because holding a read lock on an
2650          * extent buffer of the subvolume's b+tree will make lockdep unhappy
2651          * when we call fiemap_fill_next_extent(), because that may cause a page
2652          * fault when filling the user space buffer with fiemap data.
2653          */
2654         clone = btrfs_clone_extent_buffer(path->nodes[0]);
2655         if (!clone)
2656                 return -ENOMEM;
2657
2658         slot = path->slots[0];
2659         btrfs_release_path(path);
2660         path->nodes[0] = clone;
2661         path->slots[0] = slot;
2662
2663         return 0;
2664 }
2665
2666 /*
2667  * Process a range which is a hole or a prealloc extent in the inode's subvolume
2668  * btree. If @disk_bytenr is 0, we are dealing with a hole, otherwise a prealloc
2669  * extent. The end offset (@end) is inclusive.
2670  */
2671 static int fiemap_process_hole(struct btrfs_inode *inode,
2672                                struct fiemap_extent_info *fieinfo,
2673                                struct fiemap_cache *cache,
2674                                struct extent_state **delalloc_cached_state,
2675                                struct btrfs_backref_share_check_ctx *backref_ctx,
2676                                u64 disk_bytenr, u64 extent_offset,
2677                                u64 extent_gen,
2678                                u64 start, u64 end)
2679 {
2680         const u64 i_size = i_size_read(&inode->vfs_inode);
2681         u64 cur_offset = start;
2682         u64 last_delalloc_end = 0;
2683         u32 prealloc_flags = FIEMAP_EXTENT_UNWRITTEN;
2684         bool checked_extent_shared = false;
2685         int ret;
2686
2687         /*
2688          * There can be no delalloc past i_size, so don't waste time looking for
2689          * it beyond i_size.
2690          */
2691         while (cur_offset < end && cur_offset < i_size) {
2692                 u64 delalloc_start;
2693                 u64 delalloc_end;
2694                 u64 prealloc_start;
2695                 u64 prealloc_len = 0;
2696                 bool delalloc;
2697
2698                 delalloc = btrfs_find_delalloc_in_range(inode, cur_offset, end,
2699                                                         delalloc_cached_state,
2700                                                         &delalloc_start,
2701                                                         &delalloc_end);
2702                 if (!delalloc)
2703                         break;
2704
2705                 /*
2706                  * If this is a prealloc extent we have to report every section
2707                  * of it that has no delalloc.
2708                  */
2709                 if (disk_bytenr != 0) {
2710                         if (last_delalloc_end == 0) {
2711                                 prealloc_start = start;
2712                                 prealloc_len = delalloc_start - start;
2713                         } else {
2714                                 prealloc_start = last_delalloc_end + 1;
2715                                 prealloc_len = delalloc_start - prealloc_start;
2716                         }
2717                 }
2718
2719                 if (prealloc_len > 0) {
2720                         if (!checked_extent_shared && fieinfo->fi_extents_max) {
2721                                 ret = btrfs_is_data_extent_shared(inode,
2722                                                                   disk_bytenr,
2723                                                                   extent_gen,
2724                                                                   backref_ctx);
2725                                 if (ret < 0)
2726                                         return ret;
2727                                 else if (ret > 0)
2728                                         prealloc_flags |= FIEMAP_EXTENT_SHARED;
2729
2730                                 checked_extent_shared = true;
2731                         }
2732                         ret = emit_fiemap_extent(fieinfo, cache, prealloc_start,
2733                                                  disk_bytenr + extent_offset,
2734                                                  prealloc_len, prealloc_flags);
2735                         if (ret)
2736                                 return ret;
2737                         extent_offset += prealloc_len;
2738                 }
2739
2740                 ret = emit_fiemap_extent(fieinfo, cache, delalloc_start, 0,
2741                                          delalloc_end + 1 - delalloc_start,
2742                                          FIEMAP_EXTENT_DELALLOC |
2743                                          FIEMAP_EXTENT_UNKNOWN);
2744                 if (ret)
2745                         return ret;
2746
2747                 last_delalloc_end = delalloc_end;
2748                 cur_offset = delalloc_end + 1;
2749                 extent_offset += cur_offset - delalloc_start;
2750                 cond_resched();
2751         }
2752
2753         /*
2754          * Either we found no delalloc for the whole prealloc extent or we have
2755          * a prealloc extent that spans i_size or starts at or after i_size.
2756          */
2757         if (disk_bytenr != 0 && last_delalloc_end < end) {
2758                 u64 prealloc_start;
2759                 u64 prealloc_len;
2760
2761                 if (last_delalloc_end == 0) {
2762                         prealloc_start = start;
2763                         prealloc_len = end + 1 - start;
2764                 } else {
2765                         prealloc_start = last_delalloc_end + 1;
2766                         prealloc_len = end + 1 - prealloc_start;
2767                 }
2768
2769                 if (!checked_extent_shared && fieinfo->fi_extents_max) {
2770                         ret = btrfs_is_data_extent_shared(inode,
2771                                                           disk_bytenr,
2772                                                           extent_gen,
2773                                                           backref_ctx);
2774                         if (ret < 0)
2775                                 return ret;
2776                         else if (ret > 0)
2777                                 prealloc_flags |= FIEMAP_EXTENT_SHARED;
2778                 }
2779                 ret = emit_fiemap_extent(fieinfo, cache, prealloc_start,
2780                                          disk_bytenr + extent_offset,
2781                                          prealloc_len, prealloc_flags);
2782                 if (ret)
2783                         return ret;
2784         }
2785
2786         return 0;
2787 }
2788
2789 static int fiemap_find_last_extent_offset(struct btrfs_inode *inode,
2790                                           struct btrfs_path *path,
2791                                           u64 *last_extent_end_ret)
2792 {
2793         const u64 ino = btrfs_ino(inode);
2794         struct btrfs_root *root = inode->root;
2795         struct extent_buffer *leaf;
2796         struct btrfs_file_extent_item *ei;
2797         struct btrfs_key key;
2798         u64 disk_bytenr;
2799         int ret;
2800
2801         /*
2802          * Lookup the last file extent. We're not using i_size here because
2803          * there might be preallocation past i_size.
2804          */
2805         ret = btrfs_lookup_file_extent(NULL, root, path, ino, (u64)-1, 0);
2806         /* There can't be a file extent item at offset (u64)-1 */
2807         ASSERT(ret != 0);
2808         if (ret < 0)
2809                 return ret;
2810
2811         /*
2812          * For a non-existing key, btrfs_search_slot() always leaves us at a
2813          * slot > 0, except if the btree is empty, which is impossible because
2814          * at least it has the inode item for this inode and all the items for
2815          * the root inode 256.
2816          */
2817         ASSERT(path->slots[0] > 0);
2818         path->slots[0]--;
2819         leaf = path->nodes[0];
2820         btrfs_item_key_to_cpu(leaf, &key, path->slots[0]);
2821         if (key.objectid != ino || key.type != BTRFS_EXTENT_DATA_KEY) {
2822                 /* No file extent items in the subvolume tree. */
2823                 *last_extent_end_ret = 0;
2824                 return 0;
2825         }
2826
2827         /*
2828          * For an inline extent, the disk_bytenr is where inline data starts at,
2829          * so first check if we have an inline extent item before checking if we
2830          * have an implicit hole (disk_bytenr == 0).
2831          */
2832         ei = btrfs_item_ptr(leaf, path->slots[0], struct btrfs_file_extent_item);
2833         if (btrfs_file_extent_type(leaf, ei) == BTRFS_FILE_EXTENT_INLINE) {
2834                 *last_extent_end_ret = btrfs_file_extent_end(path);
2835                 return 0;
2836         }
2837
2838         /*
2839          * Find the last file extent item that is not a hole (when NO_HOLES is
2840          * not enabled). This should take at most 2 iterations in the worst
2841          * case: we have one hole file extent item at slot 0 of a leaf and
2842          * another hole file extent item as the last item in the previous leaf.
2843          * This is because we merge file extent items that represent holes.
2844          */
2845         disk_bytenr = btrfs_file_extent_disk_bytenr(leaf, ei);
2846         while (disk_bytenr == 0) {
2847                 ret = btrfs_previous_item(root, path, ino, BTRFS_EXTENT_DATA_KEY);
2848                 if (ret < 0) {
2849                         return ret;
2850                 } else if (ret > 0) {
2851                         /* No file extent items that are not holes. */
2852                         *last_extent_end_ret = 0;
2853                         return 0;
2854                 }
2855                 leaf = path->nodes[0];
2856                 ei = btrfs_item_ptr(leaf, path->slots[0],
2857                                     struct btrfs_file_extent_item);
2858                 disk_bytenr = btrfs_file_extent_disk_bytenr(leaf, ei);
2859         }
2860
2861         *last_extent_end_ret = btrfs_file_extent_end(path);
2862         return 0;
2863 }
2864
2865 int extent_fiemap(struct btrfs_inode *inode, struct fiemap_extent_info *fieinfo,
2866                   u64 start, u64 len)
2867 {
2868         const u64 ino = btrfs_ino(inode);
2869         struct extent_state *cached_state = NULL;
2870         struct extent_state *delalloc_cached_state = NULL;
2871         struct btrfs_path *path;
2872         struct fiemap_cache cache = { 0 };
2873         struct btrfs_backref_share_check_ctx *backref_ctx;
2874         u64 last_extent_end;
2875         u64 prev_extent_end;
2876         u64 lockstart;
2877         u64 lockend;
2878         bool stopped = false;
2879         int ret;
2880
2881         backref_ctx = btrfs_alloc_backref_share_check_ctx();
2882         path = btrfs_alloc_path();
2883         if (!backref_ctx || !path) {
2884                 ret = -ENOMEM;
2885                 goto out;
2886         }
2887
2888         lockstart = round_down(start, inode->root->fs_info->sectorsize);
2889         lockend = round_up(start + len, inode->root->fs_info->sectorsize);
2890         prev_extent_end = lockstart;
2891
2892         btrfs_inode_lock(inode, BTRFS_ILOCK_SHARED);
2893         lock_extent(&inode->io_tree, lockstart, lockend, &cached_state);
2894
2895         ret = fiemap_find_last_extent_offset(inode, path, &last_extent_end);
2896         if (ret < 0)
2897                 goto out_unlock;
2898         btrfs_release_path(path);
2899
2900         path->reada = READA_FORWARD;
2901         ret = fiemap_search_slot(inode, path, lockstart);
2902         if (ret < 0) {
2903                 goto out_unlock;
2904         } else if (ret > 0) {
2905                 /*
2906                  * No file extent item found, but we may have delalloc between
2907                  * the current offset and i_size. So check for that.
2908                  */
2909                 ret = 0;
2910                 goto check_eof_delalloc;
2911         }
2912
2913         while (prev_extent_end < lockend) {
2914                 struct extent_buffer *leaf = path->nodes[0];
2915                 struct btrfs_file_extent_item *ei;
2916                 struct btrfs_key key;
2917                 u64 extent_end;
2918                 u64 extent_len;
2919                 u64 extent_offset = 0;
2920                 u64 extent_gen;
2921                 u64 disk_bytenr = 0;
2922                 u64 flags = 0;
2923                 int extent_type;
2924                 u8 compression;
2925
2926                 btrfs_item_key_to_cpu(leaf, &key, path->slots[0]);
2927                 if (key.objectid != ino || key.type != BTRFS_EXTENT_DATA_KEY)
2928                         break;
2929
2930                 extent_end = btrfs_file_extent_end(path);
2931
2932                 /*
2933                  * The first iteration can leave us at an extent item that ends
2934                  * before our range's start. Move to the next item.
2935                  */
2936                 if (extent_end <= lockstart)
2937                         goto next_item;
2938
2939                 backref_ctx->curr_leaf_bytenr = leaf->start;
2940
2941                 /* We have in implicit hole (NO_HOLES feature enabled). */
2942                 if (prev_extent_end < key.offset) {
2943                         const u64 range_end = min(key.offset, lockend) - 1;
2944
2945                         ret = fiemap_process_hole(inode, fieinfo, &cache,
2946                                                   &delalloc_cached_state,
2947                                                   backref_ctx, 0, 0, 0,
2948                                                   prev_extent_end, range_end);
2949                         if (ret < 0) {
2950                                 goto out_unlock;
2951                         } else if (ret > 0) {
2952                                 /* fiemap_fill_next_extent() told us to stop. */
2953                                 stopped = true;
2954                                 break;
2955                         }
2956
2957                         /* We've reached the end of the fiemap range, stop. */
2958                         if (key.offset >= lockend) {
2959                                 stopped = true;
2960                                 break;
2961                         }
2962                 }
2963
2964                 extent_len = extent_end - key.offset;
2965                 ei = btrfs_item_ptr(leaf, path->slots[0],
2966                                     struct btrfs_file_extent_item);
2967                 compression = btrfs_file_extent_compression(leaf, ei);
2968                 extent_type = btrfs_file_extent_type(leaf, ei);
2969                 extent_gen = btrfs_file_extent_generation(leaf, ei);
2970
2971                 if (extent_type != BTRFS_FILE_EXTENT_INLINE) {
2972                         disk_bytenr = btrfs_file_extent_disk_bytenr(leaf, ei);
2973                         if (compression == BTRFS_COMPRESS_NONE)
2974                                 extent_offset = btrfs_file_extent_offset(leaf, ei);
2975                 }
2976
2977                 if (compression != BTRFS_COMPRESS_NONE)
2978                         flags |= FIEMAP_EXTENT_ENCODED;
2979
2980                 if (extent_type == BTRFS_FILE_EXTENT_INLINE) {
2981                         flags |= FIEMAP_EXTENT_DATA_INLINE;
2982                         flags |= FIEMAP_EXTENT_NOT_ALIGNED;
2983                         ret = emit_fiemap_extent(fieinfo, &cache, key.offset, 0,
2984                                                  extent_len, flags);
2985                 } else if (extent_type == BTRFS_FILE_EXTENT_PREALLOC) {
2986                         ret = fiemap_process_hole(inode, fieinfo, &cache,
2987                                                   &delalloc_cached_state,
2988                                                   backref_ctx,
2989                                                   disk_bytenr, extent_offset,
2990                                                   extent_gen, key.offset,
2991                                                   extent_end - 1);
2992                 } else if (disk_bytenr == 0) {
2993                         /* We have an explicit hole. */
2994                         ret = fiemap_process_hole(inode, fieinfo, &cache,
2995                                                   &delalloc_cached_state,
2996                                                   backref_ctx, 0, 0, 0,
2997                                                   key.offset, extent_end - 1);
2998                 } else {
2999                         /* We have a regular extent. */
3000                         if (fieinfo->fi_extents_max) {
3001                                 ret = btrfs_is_data_extent_shared(inode,
3002                                                                   disk_bytenr,
3003                                                                   extent_gen,
3004                                                                   backref_ctx);
3005                                 if (ret < 0)
3006                                         goto out_unlock;
3007                                 else if (ret > 0)
3008                                         flags |= FIEMAP_EXTENT_SHARED;
3009                         }
3010
3011                         ret = emit_fiemap_extent(fieinfo, &cache, key.offset,
3012                                                  disk_bytenr + extent_offset,
3013                                                  extent_len, flags);
3014                 }
3015
3016                 if (ret < 0) {
3017                         goto out_unlock;
3018                 } else if (ret > 0) {
3019                         /* fiemap_fill_next_extent() told us to stop. */
3020                         stopped = true;
3021                         break;
3022                 }
3023
3024                 prev_extent_end = extent_end;
3025 next_item:
3026                 if (fatal_signal_pending(current)) {
3027                         ret = -EINTR;
3028                         goto out_unlock;
3029                 }
3030
3031                 ret = fiemap_next_leaf_item(inode, path);
3032                 if (ret < 0) {
3033                         goto out_unlock;
3034                 } else if (ret > 0) {
3035                         /* No more file extent items for this inode. */
3036                         break;
3037                 }
3038                 cond_resched();
3039         }
3040
3041 check_eof_delalloc:
3042         /*
3043          * Release (and free) the path before emitting any final entries to
3044          * fiemap_fill_next_extent() to keep lockdep happy. This is because
3045          * once we find no more file extent items exist, we may have a
3046          * non-cloned leaf, and fiemap_fill_next_extent() can trigger page
3047          * faults when copying data to the user space buffer.
3048          */
3049         btrfs_free_path(path);
3050         path = NULL;
3051
3052         if (!stopped && prev_extent_end < lockend) {
3053                 ret = fiemap_process_hole(inode, fieinfo, &cache,
3054                                           &delalloc_cached_state, backref_ctx,
3055                                           0, 0, 0, prev_extent_end, lockend - 1);
3056                 if (ret < 0)
3057                         goto out_unlock;
3058                 prev_extent_end = lockend;
3059         }
3060
3061         if (cache.cached && cache.offset + cache.len >= last_extent_end) {
3062                 const u64 i_size = i_size_read(&inode->vfs_inode);
3063
3064                 if (prev_extent_end < i_size) {
3065                         u64 delalloc_start;
3066                         u64 delalloc_end;
3067                         bool delalloc;
3068
3069                         delalloc = btrfs_find_delalloc_in_range(inode,
3070                                                                 prev_extent_end,
3071                                                                 i_size - 1,
3072                                                                 &delalloc_cached_state,
3073                                                                 &delalloc_start,
3074                                                                 &delalloc_end);
3075                         if (!delalloc)
3076                                 cache.flags |= FIEMAP_EXTENT_LAST;
3077                 } else {
3078                         cache.flags |= FIEMAP_EXTENT_LAST;
3079                 }
3080         }
3081
3082         ret = emit_last_fiemap_cache(fieinfo, &cache);
3083
3084 out_unlock:
3085         unlock_extent(&inode->io_tree, lockstart, lockend, &cached_state);
3086         btrfs_inode_unlock(inode, BTRFS_ILOCK_SHARED);
3087 out:
3088         free_extent_state(delalloc_cached_state);
3089         btrfs_free_backref_share_ctx(backref_ctx);
3090         btrfs_free_path(path);
3091         return ret;
3092 }
3093
3094 static void __free_extent_buffer(struct extent_buffer *eb)
3095 {
3096         kmem_cache_free(extent_buffer_cache, eb);
3097 }
3098
3099 static int extent_buffer_under_io(const struct extent_buffer *eb)
3100 {
3101         return (test_bit(EXTENT_BUFFER_WRITEBACK, &eb->bflags) ||
3102                 test_bit(EXTENT_BUFFER_DIRTY, &eb->bflags));
3103 }
3104
3105 static bool folio_range_has_eb(struct btrfs_fs_info *fs_info, struct folio *folio)
3106 {
3107         struct btrfs_subpage *subpage;
3108
3109         lockdep_assert_held(&folio->mapping->i_private_lock);
3110
3111         if (folio_test_private(folio)) {
3112                 subpage = folio_get_private(folio);
3113                 if (atomic_read(&subpage->eb_refs))
3114                         return true;
3115                 /*
3116                  * Even there is no eb refs here, we may still have
3117                  * end_page_read() call relying on page::private.
3118                  */
3119                 if (atomic_read(&subpage->readers))
3120                         return true;
3121         }
3122         return false;
3123 }
3124
3125 static void detach_extent_buffer_folio(struct extent_buffer *eb, struct folio *folio)
3126 {
3127         struct btrfs_fs_info *fs_info = eb->fs_info;
3128         const bool mapped = !test_bit(EXTENT_BUFFER_UNMAPPED, &eb->bflags);
3129
3130         /*
3131          * For mapped eb, we're going to change the folio private, which should
3132          * be done under the i_private_lock.
3133          */
3134         if (mapped)
3135                 spin_lock(&folio->mapping->i_private_lock);
3136
3137         if (!folio_test_private(folio)) {
3138                 if (mapped)
3139                         spin_unlock(&folio->mapping->i_private_lock);
3140                 return;
3141         }
3142
3143         if (fs_info->nodesize >= PAGE_SIZE) {
3144                 /*
3145                  * We do this since we'll remove the pages after we've
3146                  * removed the eb from the radix tree, so we could race
3147                  * and have this page now attached to the new eb.  So
3148                  * only clear folio if it's still connected to
3149                  * this eb.
3150                  */
3151                 if (folio_test_private(folio) && folio_get_private(folio) == eb) {
3152                         BUG_ON(test_bit(EXTENT_BUFFER_DIRTY, &eb->bflags));
3153                         BUG_ON(folio_test_dirty(folio));
3154                         BUG_ON(folio_test_writeback(folio));
3155                         /* We need to make sure we haven't be attached to a new eb. */
3156                         folio_detach_private(folio);
3157                 }
3158                 if (mapped)
3159                         spin_unlock(&folio->mapping->i_private_lock);
3160                 return;
3161         }
3162
3163         /*
3164          * For subpage, we can have dummy eb with folio private attached.  In
3165          * this case, we can directly detach the private as such folio is only
3166          * attached to one dummy eb, no sharing.
3167          */
3168         if (!mapped) {
3169                 btrfs_detach_subpage(fs_info, folio);
3170                 return;
3171         }
3172
3173         btrfs_folio_dec_eb_refs(fs_info, folio);
3174
3175         /*
3176          * We can only detach the folio private if there are no other ebs in the
3177          * page range and no unfinished IO.
3178          */
3179         if (!folio_range_has_eb(fs_info, folio))
3180                 btrfs_detach_subpage(fs_info, folio);
3181
3182         spin_unlock(&folio->mapping->i_private_lock);
3183 }
3184
3185 /* Release all pages attached to the extent buffer */
3186 static void btrfs_release_extent_buffer_pages(struct extent_buffer *eb)
3187 {
3188         ASSERT(!extent_buffer_under_io(eb));
3189
3190         for (int i = 0; i < INLINE_EXTENT_BUFFER_PAGES; i++) {
3191                 struct folio *folio = eb->folios[i];
3192
3193                 if (!folio)
3194                         continue;
3195
3196                 detach_extent_buffer_folio(eb, folio);
3197
3198                 /* One for when we allocated the folio. */
3199                 folio_put(folio);
3200         }
3201 }
3202
3203 /*
3204  * Helper for releasing the extent buffer.
3205  */
3206 static inline void btrfs_release_extent_buffer(struct extent_buffer *eb)
3207 {
3208         btrfs_release_extent_buffer_pages(eb);
3209         btrfs_leak_debug_del_eb(eb);
3210         __free_extent_buffer(eb);
3211 }
3212
3213 static struct extent_buffer *
3214 __alloc_extent_buffer(struct btrfs_fs_info *fs_info, u64 start,
3215                       unsigned long len)
3216 {
3217         struct extent_buffer *eb = NULL;
3218
3219         eb = kmem_cache_zalloc(extent_buffer_cache, GFP_NOFS|__GFP_NOFAIL);
3220         eb->start = start;
3221         eb->len = len;
3222         eb->fs_info = fs_info;
3223         init_rwsem(&eb->lock);
3224
3225         btrfs_leak_debug_add_eb(eb);
3226
3227         spin_lock_init(&eb->refs_lock);
3228         atomic_set(&eb->refs, 1);
3229
3230         ASSERT(len <= BTRFS_MAX_METADATA_BLOCKSIZE);
3231
3232         return eb;
3233 }
3234
3235 struct extent_buffer *btrfs_clone_extent_buffer(const struct extent_buffer *src)
3236 {
3237         struct extent_buffer *new;
3238         int num_folios = num_extent_folios(src);
3239         int ret;
3240
3241         new = __alloc_extent_buffer(src->fs_info, src->start, src->len);
3242         if (new == NULL)
3243                 return NULL;
3244
3245         /*
3246          * Set UNMAPPED before calling btrfs_release_extent_buffer(), as
3247          * btrfs_release_extent_buffer() have different behavior for
3248          * UNMAPPED subpage extent buffer.
3249          */
3250         set_bit(EXTENT_BUFFER_UNMAPPED, &new->bflags);
3251
3252         ret = alloc_eb_folio_array(new, 0);
3253         if (ret) {
3254                 btrfs_release_extent_buffer(new);
3255                 return NULL;
3256         }
3257
3258         for (int i = 0; i < num_folios; i++) {
3259                 struct folio *folio = new->folios[i];
3260                 int ret;
3261
3262                 ret = attach_extent_buffer_folio(new, folio, NULL);
3263                 if (ret < 0) {
3264                         btrfs_release_extent_buffer(new);
3265                         return NULL;
3266                 }
3267                 WARN_ON(folio_test_dirty(folio));
3268         }
3269         copy_extent_buffer_full(new, src);
3270         set_extent_buffer_uptodate(new);
3271
3272         return new;
3273 }
3274
3275 struct extent_buffer *__alloc_dummy_extent_buffer(struct btrfs_fs_info *fs_info,
3276                                                   u64 start, unsigned long len)
3277 {
3278         struct extent_buffer *eb;
3279         int num_folios = 0;
3280         int ret;
3281
3282         eb = __alloc_extent_buffer(fs_info, start, len);
3283         if (!eb)
3284                 return NULL;
3285
3286         ret = alloc_eb_folio_array(eb, 0);
3287         if (ret)
3288                 goto err;
3289
3290         num_folios = num_extent_folios(eb);
3291         for (int i = 0; i < num_folios; i++) {
3292                 ret = attach_extent_buffer_folio(eb, eb->folios[i], NULL);
3293                 if (ret < 0)
3294                         goto err;
3295         }
3296
3297         set_extent_buffer_uptodate(eb);
3298         btrfs_set_header_nritems(eb, 0);
3299         set_bit(EXTENT_BUFFER_UNMAPPED, &eb->bflags);
3300
3301         return eb;
3302 err:
3303         for (int i = 0; i < num_folios; i++) {
3304                 if (eb->folios[i]) {
3305                         detach_extent_buffer_folio(eb, eb->folios[i]);
3306                         __folio_put(eb->folios[i]);
3307                 }
3308         }
3309         __free_extent_buffer(eb);
3310         return NULL;
3311 }
3312
3313 struct extent_buffer *alloc_dummy_extent_buffer(struct btrfs_fs_info *fs_info,
3314                                                 u64 start)
3315 {
3316         return __alloc_dummy_extent_buffer(fs_info, start, fs_info->nodesize);
3317 }
3318
3319 static void check_buffer_tree_ref(struct extent_buffer *eb)
3320 {
3321         int refs;
3322         /*
3323          * The TREE_REF bit is first set when the extent_buffer is added
3324          * to the radix tree. It is also reset, if unset, when a new reference
3325          * is created by find_extent_buffer.
3326          *
3327          * It is only cleared in two cases: freeing the last non-tree
3328          * reference to the extent_buffer when its STALE bit is set or
3329          * calling release_folio when the tree reference is the only reference.
3330          *
3331          * In both cases, care is taken to ensure that the extent_buffer's
3332          * pages are not under io. However, release_folio can be concurrently
3333          * called with creating new references, which is prone to race
3334          * conditions between the calls to check_buffer_tree_ref in those
3335          * codepaths and clearing TREE_REF in try_release_extent_buffer.
3336          *
3337          * The actual lifetime of the extent_buffer in the radix tree is
3338          * adequately protected by the refcount, but the TREE_REF bit and
3339          * its corresponding reference are not. To protect against this
3340          * class of races, we call check_buffer_tree_ref from the codepaths
3341          * which trigger io. Note that once io is initiated, TREE_REF can no
3342          * longer be cleared, so that is the moment at which any such race is
3343          * best fixed.
3344          */
3345         refs = atomic_read(&eb->refs);
3346         if (refs >= 2 && test_bit(EXTENT_BUFFER_TREE_REF, &eb->bflags))
3347                 return;
3348
3349         spin_lock(&eb->refs_lock);
3350         if (!test_and_set_bit(EXTENT_BUFFER_TREE_REF, &eb->bflags))
3351                 atomic_inc(&eb->refs);
3352         spin_unlock(&eb->refs_lock);
3353 }
3354
3355 static void mark_extent_buffer_accessed(struct extent_buffer *eb)
3356 {
3357         int num_folios= num_extent_folios(eb);
3358
3359         check_buffer_tree_ref(eb);
3360
3361         for (int i = 0; i < num_folios; i++)
3362                 folio_mark_accessed(eb->folios[i]);
3363 }
3364
3365 struct extent_buffer *find_extent_buffer(struct btrfs_fs_info *fs_info,
3366                                          u64 start)
3367 {
3368         struct extent_buffer *eb;
3369
3370         eb = find_extent_buffer_nolock(fs_info, start);
3371         if (!eb)
3372                 return NULL;
3373         /*
3374          * Lock our eb's refs_lock to avoid races with free_extent_buffer().
3375          * When we get our eb it might be flagged with EXTENT_BUFFER_STALE and
3376          * another task running free_extent_buffer() might have seen that flag
3377          * set, eb->refs == 2, that the buffer isn't under IO (dirty and
3378          * writeback flags not set) and it's still in the tree (flag
3379          * EXTENT_BUFFER_TREE_REF set), therefore being in the process of
3380          * decrementing the extent buffer's reference count twice.  So here we
3381          * could race and increment the eb's reference count, clear its stale
3382          * flag, mark it as dirty and drop our reference before the other task
3383          * finishes executing free_extent_buffer, which would later result in
3384          * an attempt to free an extent buffer that is dirty.
3385          */
3386         if (test_bit(EXTENT_BUFFER_STALE, &eb->bflags)) {
3387                 spin_lock(&eb->refs_lock);
3388                 spin_unlock(&eb->refs_lock);
3389         }
3390         mark_extent_buffer_accessed(eb);
3391         return eb;
3392 }
3393
3394 #ifdef CONFIG_BTRFS_FS_RUN_SANITY_TESTS
3395 struct extent_buffer *alloc_test_extent_buffer(struct btrfs_fs_info *fs_info,
3396                                         u64 start)
3397 {
3398         struct extent_buffer *eb, *exists = NULL;
3399         int ret;
3400
3401         eb = find_extent_buffer(fs_info, start);
3402         if (eb)
3403                 return eb;
3404         eb = alloc_dummy_extent_buffer(fs_info, start);
3405         if (!eb)
3406                 return ERR_PTR(-ENOMEM);
3407         eb->fs_info = fs_info;
3408 again:
3409         ret = radix_tree_preload(GFP_NOFS);
3410         if (ret) {
3411                 exists = ERR_PTR(ret);
3412                 goto free_eb;
3413         }
3414         spin_lock(&fs_info->buffer_lock);
3415         ret = radix_tree_insert(&fs_info->buffer_radix,
3416                                 start >> fs_info->sectorsize_bits, eb);
3417         spin_unlock(&fs_info->buffer_lock);
3418         radix_tree_preload_end();
3419         if (ret == -EEXIST) {
3420                 exists = find_extent_buffer(fs_info, start);
3421                 if (exists)
3422                         goto free_eb;
3423                 else
3424                         goto again;
3425         }
3426         check_buffer_tree_ref(eb);
3427         set_bit(EXTENT_BUFFER_IN_TREE, &eb->bflags);
3428
3429         return eb;
3430 free_eb:
3431         btrfs_release_extent_buffer(eb);
3432         return exists;
3433 }
3434 #endif
3435
3436 static struct extent_buffer *grab_extent_buffer(
3437                 struct btrfs_fs_info *fs_info, struct page *page)
3438 {
3439         struct folio *folio = page_folio(page);
3440         struct extent_buffer *exists;
3441
3442         /*
3443          * For subpage case, we completely rely on radix tree to ensure we
3444          * don't try to insert two ebs for the same bytenr.  So here we always
3445          * return NULL and just continue.
3446          */
3447         if (fs_info->nodesize < PAGE_SIZE)
3448                 return NULL;
3449
3450         /* Page not yet attached to an extent buffer */
3451         if (!folio_test_private(folio))
3452                 return NULL;
3453
3454         /*
3455          * We could have already allocated an eb for this page and attached one
3456          * so lets see if we can get a ref on the existing eb, and if we can we
3457          * know it's good and we can just return that one, else we know we can
3458          * just overwrite folio private.
3459          */
3460         exists = folio_get_private(folio);
3461         if (atomic_inc_not_zero(&exists->refs))
3462                 return exists;
3463
3464         WARN_ON(PageDirty(page));
3465         folio_detach_private(folio);
3466         return NULL;
3467 }
3468
3469 static int check_eb_alignment(struct btrfs_fs_info *fs_info, u64 start)
3470 {
3471         if (!IS_ALIGNED(start, fs_info->sectorsize)) {
3472                 btrfs_err(fs_info, "bad tree block start %llu", start);
3473                 return -EINVAL;
3474         }
3475
3476         if (fs_info->nodesize < PAGE_SIZE &&
3477             offset_in_page(start) + fs_info->nodesize > PAGE_SIZE) {
3478                 btrfs_err(fs_info,
3479                 "tree block crosses page boundary, start %llu nodesize %u",
3480                           start, fs_info->nodesize);
3481                 return -EINVAL;
3482         }
3483         if (fs_info->nodesize >= PAGE_SIZE &&
3484             !PAGE_ALIGNED(start)) {
3485                 btrfs_err(fs_info,
3486                 "tree block is not page aligned, start %llu nodesize %u",
3487                           start, fs_info->nodesize);
3488                 return -EINVAL;
3489         }
3490         if (!IS_ALIGNED(start, fs_info->nodesize) &&
3491             !test_and_set_bit(BTRFS_FS_UNALIGNED_TREE_BLOCK, &fs_info->flags)) {
3492                 btrfs_warn(fs_info,
3493 "tree block not nodesize aligned, start %llu nodesize %u, can be resolved by a full metadata balance",
3494                               start, fs_info->nodesize);
3495         }
3496         return 0;
3497 }
3498
3499
3500 /*
3501  * Return 0 if eb->folios[i] is attached to btree inode successfully.
3502  * Return >0 if there is already another extent buffer for the range,
3503  * and @found_eb_ret would be updated.
3504  * Return -EAGAIN if the filemap has an existing folio but with different size
3505  * than @eb.
3506  * The caller needs to free the existing folios and retry using the same order.
3507  */
3508 static int attach_eb_folio_to_filemap(struct extent_buffer *eb, int i,
3509                                       struct extent_buffer **found_eb_ret)
3510 {
3511
3512         struct btrfs_fs_info *fs_info = eb->fs_info;
3513         struct address_space *mapping = fs_info->btree_inode->i_mapping;
3514         const unsigned long index = eb->start >> PAGE_SHIFT;
3515         struct folio *existing_folio;
3516         int ret;
3517
3518         ASSERT(found_eb_ret);
3519
3520         /* Caller should ensure the folio exists. */
3521         ASSERT(eb->folios[i]);
3522
3523 retry:
3524         ret = filemap_add_folio(mapping, eb->folios[i], index + i,
3525                                 GFP_NOFS | __GFP_NOFAIL);
3526         if (!ret)
3527                 return 0;
3528
3529         existing_folio = filemap_lock_folio(mapping, index + i);
3530         /* The page cache only exists for a very short time, just retry. */
3531         if (IS_ERR(existing_folio))
3532                 goto retry;
3533
3534         /* For now, we should only have single-page folios for btree inode. */
3535         ASSERT(folio_nr_pages(existing_folio) == 1);
3536
3537         if (folio_size(existing_folio) != folio_size(eb->folios[0])) {
3538                 folio_unlock(existing_folio);
3539                 folio_put(existing_folio);
3540                 return -EAGAIN;
3541         }
3542
3543         if (fs_info->nodesize < PAGE_SIZE) {
3544                 /*
3545                  * We're going to reuse the existing page, can drop our page
3546                  * and subpage structure now.
3547                  */
3548                 __free_page(folio_page(eb->folios[i], 0));
3549                 eb->folios[i] = existing_folio;
3550         } else {
3551                 struct extent_buffer *existing_eb;
3552
3553                 existing_eb = grab_extent_buffer(fs_info,
3554                                                  folio_page(existing_folio, 0));
3555                 if (existing_eb) {
3556                         /* The extent buffer still exists, we can use it directly. */
3557                         *found_eb_ret = existing_eb;
3558                         folio_unlock(existing_folio);
3559                         folio_put(existing_folio);
3560                         return 1;
3561                 }
3562                 /* The extent buffer no longer exists, we can reuse the folio. */
3563                 __free_page(folio_page(eb->folios[i], 0));
3564                 eb->folios[i] = existing_folio;
3565         }
3566         return 0;
3567 }
3568
3569 struct extent_buffer *alloc_extent_buffer(struct btrfs_fs_info *fs_info,
3570                                           u64 start, u64 owner_root, int level)
3571 {
3572         unsigned long len = fs_info->nodesize;
3573         int num_folios;
3574         int attached = 0;
3575         struct extent_buffer *eb;
3576         struct extent_buffer *existing_eb = NULL;
3577         struct address_space *mapping = fs_info->btree_inode->i_mapping;
3578         struct btrfs_subpage *prealloc = NULL;
3579         u64 lockdep_owner = owner_root;
3580         bool page_contig = true;
3581         int uptodate = 1;
3582         int ret;
3583
3584         if (check_eb_alignment(fs_info, start))
3585                 return ERR_PTR(-EINVAL);
3586
3587 #if BITS_PER_LONG == 32
3588         if (start >= MAX_LFS_FILESIZE) {
3589                 btrfs_err_rl(fs_info,
3590                 "extent buffer %llu is beyond 32bit page cache limit", start);
3591                 btrfs_err_32bit_limit(fs_info);
3592                 return ERR_PTR(-EOVERFLOW);
3593         }
3594         if (start >= BTRFS_32BIT_EARLY_WARN_THRESHOLD)
3595                 btrfs_warn_32bit_limit(fs_info);
3596 #endif
3597
3598         eb = find_extent_buffer(fs_info, start);
3599         if (eb)
3600                 return eb;
3601
3602         eb = __alloc_extent_buffer(fs_info, start, len);
3603         if (!eb)
3604                 return ERR_PTR(-ENOMEM);
3605
3606         /*
3607          * The reloc trees are just snapshots, so we need them to appear to be
3608          * just like any other fs tree WRT lockdep.
3609          */
3610         if (lockdep_owner == BTRFS_TREE_RELOC_OBJECTID)
3611                 lockdep_owner = BTRFS_FS_TREE_OBJECTID;
3612
3613         btrfs_set_buffer_lockdep_class(lockdep_owner, eb, level);
3614
3615         /*
3616          * Preallocate folio private for subpage case, so that we won't
3617          * allocate memory with i_private_lock nor page lock hold.
3618          *
3619          * The memory will be freed by attach_extent_buffer_page() or freed
3620          * manually if we exit earlier.
3621          */
3622         if (fs_info->nodesize < PAGE_SIZE) {
3623                 prealloc = btrfs_alloc_subpage(fs_info, BTRFS_SUBPAGE_METADATA);
3624                 if (IS_ERR(prealloc)) {
3625                         ret = PTR_ERR(prealloc);
3626                         goto out;
3627                 }
3628         }
3629
3630 reallocate:
3631         /* Allocate all pages first. */
3632         ret = alloc_eb_folio_array(eb, __GFP_NOFAIL);
3633         if (ret < 0) {
3634                 btrfs_free_subpage(prealloc);
3635                 goto out;
3636         }
3637
3638         num_folios = num_extent_folios(eb);
3639         /* Attach all pages to the filemap. */
3640         for (int i = 0; i < num_folios; i++) {
3641                 struct folio *folio;
3642
3643                 ret = attach_eb_folio_to_filemap(eb, i, &existing_eb);
3644                 if (ret > 0) {
3645                         ASSERT(existing_eb);
3646                         goto out;
3647                 }
3648
3649                 /*
3650                  * TODO: Special handling for a corner case where the order of
3651                  * folios mismatch between the new eb and filemap.
3652                  *
3653                  * This happens when:
3654                  *
3655                  * - the new eb is using higher order folio
3656                  *
3657                  * - the filemap is still using 0-order folios for the range
3658                  *   This can happen at the previous eb allocation, and we don't
3659                  *   have higher order folio for the call.
3660                  *
3661                  * - the existing eb has already been freed
3662                  *
3663                  * In this case, we have to free the existing folios first, and
3664                  * re-allocate using the same order.
3665                  * Thankfully this is not going to happen yet, as we're still
3666                  * using 0-order folios.
3667                  */
3668                 if (unlikely(ret == -EAGAIN)) {
3669                         ASSERT(0);
3670                         goto reallocate;
3671                 }
3672                 attached++;
3673
3674                 /*
3675                  * Only after attach_eb_folio_to_filemap(), eb->folios[] is
3676                  * reliable, as we may choose to reuse the existing page cache
3677                  * and free the allocated page.
3678                  */
3679                 folio = eb->folios[i];
3680                 spin_lock(&mapping->i_private_lock);
3681                 /* Should not fail, as we have preallocated the memory */
3682                 ret = attach_extent_buffer_folio(eb, folio, prealloc);
3683                 ASSERT(!ret);
3684                 /*
3685                  * To inform we have extra eb under allocation, so that
3686                  * detach_extent_buffer_page() won't release the folio private
3687                  * when the eb hasn't yet been inserted into radix tree.
3688                  *
3689                  * The ref will be decreased when the eb released the page, in
3690                  * detach_extent_buffer_page().
3691                  * Thus needs no special handling in error path.
3692                  */
3693                 btrfs_folio_inc_eb_refs(fs_info, folio);
3694                 spin_unlock(&mapping->i_private_lock);
3695
3696                 WARN_ON(btrfs_folio_test_dirty(fs_info, folio, eb->start, eb->len));
3697
3698                 /*
3699                  * Check if the current page is physically contiguous with previous eb
3700                  * page.
3701                  * At this stage, either we allocated a large folio, thus @i
3702                  * would only be 0, or we fall back to per-page allocation.
3703                  */
3704                 if (i && folio_page(eb->folios[i - 1], 0) + 1 != folio_page(folio, 0))
3705                         page_contig = false;
3706
3707                 if (!btrfs_folio_test_uptodate(fs_info, folio, eb->start, eb->len))
3708                         uptodate = 0;
3709
3710                 /*
3711                  * We can't unlock the pages just yet since the extent buffer
3712                  * hasn't been properly inserted in the radix tree, this
3713                  * opens a race with btree_release_folio which can free a page
3714                  * while we are still filling in all pages for the buffer and
3715                  * we could crash.
3716                  */
3717         }
3718         if (uptodate)
3719                 set_bit(EXTENT_BUFFER_UPTODATE, &eb->bflags);
3720         /* All pages are physically contiguous, can skip cross page handling. */
3721         if (page_contig)
3722                 eb->addr = folio_address(eb->folios[0]) + offset_in_page(eb->start);
3723 again:
3724         ret = radix_tree_preload(GFP_NOFS);
3725         if (ret)
3726                 goto out;
3727
3728         spin_lock(&fs_info->buffer_lock);
3729         ret = radix_tree_insert(&fs_info->buffer_radix,
3730                                 start >> fs_info->sectorsize_bits, eb);
3731         spin_unlock(&fs_info->buffer_lock);
3732         radix_tree_preload_end();
3733         if (ret == -EEXIST) {
3734                 ret = 0;
3735                 existing_eb = find_extent_buffer(fs_info, start);
3736                 if (existing_eb)
3737                         goto out;
3738                 else
3739                         goto again;
3740         }
3741         /* add one reference for the tree */
3742         check_buffer_tree_ref(eb);
3743         set_bit(EXTENT_BUFFER_IN_TREE, &eb->bflags);
3744
3745         /*
3746          * Now it's safe to unlock the pages because any calls to
3747          * btree_release_folio will correctly detect that a page belongs to a
3748          * live buffer and won't free them prematurely.
3749          */
3750         for (int i = 0; i < num_folios; i++)
3751                 unlock_page(folio_page(eb->folios[i], 0));
3752         return eb;
3753
3754 out:
3755         WARN_ON(!atomic_dec_and_test(&eb->refs));
3756
3757         /*
3758          * Any attached folios need to be detached before we unlock them.  This
3759          * is because when we're inserting our new folios into the mapping, and
3760          * then attaching our eb to that folio.  If we fail to insert our folio
3761          * we'll lookup the folio for that index, and grab that EB.  We do not
3762          * want that to grab this eb, as we're getting ready to free it.  So we
3763          * have to detach it first and then unlock it.
3764          *
3765          * We have to drop our reference and NULL it out here because in the
3766          * subpage case detaching does a btrfs_folio_dec_eb_refs() for our eb.
3767          * Below when we call btrfs_release_extent_buffer() we will call
3768          * detach_extent_buffer_folio() on our remaining pages in the !subpage
3769          * case.  If we left eb->folios[i] populated in the subpage case we'd
3770          * double put our reference and be super sad.
3771          */
3772         for (int i = 0; i < attached; i++) {
3773                 ASSERT(eb->folios[i]);
3774                 detach_extent_buffer_folio(eb, eb->folios[i]);
3775                 unlock_page(folio_page(eb->folios[i], 0));
3776                 folio_put(eb->folios[i]);
3777                 eb->folios[i] = NULL;
3778         }
3779         /*
3780          * Now all pages of that extent buffer is unmapped, set UNMAPPED flag,
3781          * so it can be cleaned up without utlizing page->mapping.
3782          */
3783         set_bit(EXTENT_BUFFER_UNMAPPED, &eb->bflags);
3784
3785         btrfs_release_extent_buffer(eb);
3786         if (ret < 0)
3787                 return ERR_PTR(ret);
3788         ASSERT(existing_eb);
3789         return existing_eb;
3790 }
3791
3792 static inline void btrfs_release_extent_buffer_rcu(struct rcu_head *head)
3793 {
3794         struct extent_buffer *eb =
3795                         container_of(head, struct extent_buffer, rcu_head);
3796
3797         __free_extent_buffer(eb);
3798 }
3799
3800 static int release_extent_buffer(struct extent_buffer *eb)
3801         __releases(&eb->refs_lock)
3802 {
3803         lockdep_assert_held(&eb->refs_lock);
3804
3805         WARN_ON(atomic_read(&eb->refs) == 0);
3806         if (atomic_dec_and_test(&eb->refs)) {
3807                 if (test_and_clear_bit(EXTENT_BUFFER_IN_TREE, &eb->bflags)) {
3808                         struct btrfs_fs_info *fs_info = eb->fs_info;
3809
3810                         spin_unlock(&eb->refs_lock);
3811
3812                         spin_lock(&fs_info->buffer_lock);
3813                         radix_tree_delete(&fs_info->buffer_radix,
3814                                           eb->start >> fs_info->sectorsize_bits);
3815                         spin_unlock(&fs_info->buffer_lock);
3816                 } else {
3817                         spin_unlock(&eb->refs_lock);
3818                 }
3819
3820                 btrfs_leak_debug_del_eb(eb);
3821                 /* Should be safe to release our pages at this point */
3822                 btrfs_release_extent_buffer_pages(eb);
3823 #ifdef CONFIG_BTRFS_FS_RUN_SANITY_TESTS
3824                 if (unlikely(test_bit(EXTENT_BUFFER_UNMAPPED, &eb->bflags))) {
3825                         __free_extent_buffer(eb);
3826                         return 1;
3827                 }
3828 #endif
3829                 call_rcu(&eb->rcu_head, btrfs_release_extent_buffer_rcu);
3830                 return 1;
3831         }
3832         spin_unlock(&eb->refs_lock);
3833
3834         return 0;
3835 }
3836
3837 void free_extent_buffer(struct extent_buffer *eb)
3838 {
3839         int refs;
3840         if (!eb)
3841                 return;
3842
3843         refs = atomic_read(&eb->refs);
3844         while (1) {
3845                 if ((!test_bit(EXTENT_BUFFER_UNMAPPED, &eb->bflags) && refs <= 3)
3846                     || (test_bit(EXTENT_BUFFER_UNMAPPED, &eb->bflags) &&
3847                         refs == 1))
3848                         break;
3849                 if (atomic_try_cmpxchg(&eb->refs, &refs, refs - 1))
3850                         return;
3851         }
3852
3853         spin_lock(&eb->refs_lock);
3854         if (atomic_read(&eb->refs) == 2 &&
3855             test_bit(EXTENT_BUFFER_STALE, &eb->bflags) &&
3856             !extent_buffer_under_io(eb) &&
3857             test_and_clear_bit(EXTENT_BUFFER_TREE_REF, &eb->bflags))
3858                 atomic_dec(&eb->refs);
3859
3860         /*
3861          * I know this is terrible, but it's temporary until we stop tracking
3862          * the uptodate bits and such for the extent buffers.
3863          */
3864         release_extent_buffer(eb);
3865 }
3866
3867 void free_extent_buffer_stale(struct extent_buffer *eb)
3868 {
3869         if (!eb)
3870                 return;
3871
3872         spin_lock(&eb->refs_lock);
3873         set_bit(EXTENT_BUFFER_STALE, &eb->bflags);
3874
3875         if (atomic_read(&eb->refs) == 2 && !extent_buffer_under_io(eb) &&
3876             test_and_clear_bit(EXTENT_BUFFER_TREE_REF, &eb->bflags))
3877                 atomic_dec(&eb->refs);
3878         release_extent_buffer(eb);
3879 }
3880
3881 static void btree_clear_folio_dirty(struct folio *folio)
3882 {
3883         ASSERT(folio_test_dirty(folio));
3884         ASSERT(folio_test_locked(folio));
3885         folio_clear_dirty_for_io(folio);
3886         xa_lock_irq(&folio->mapping->i_pages);
3887         if (!folio_test_dirty(folio))
3888                 __xa_clear_mark(&folio->mapping->i_pages,
3889                                 folio_index(folio), PAGECACHE_TAG_DIRTY);
3890         xa_unlock_irq(&folio->mapping->i_pages);
3891 }
3892
3893 static void clear_subpage_extent_buffer_dirty(const struct extent_buffer *eb)
3894 {
3895         struct btrfs_fs_info *fs_info = eb->fs_info;
3896         struct folio *folio = eb->folios[0];
3897         bool last;
3898
3899         /* btree_clear_folio_dirty() needs page locked. */
3900         folio_lock(folio);
3901         last = btrfs_subpage_clear_and_test_dirty(fs_info, folio, eb->start, eb->len);
3902         if (last)
3903                 btree_clear_folio_dirty(folio);
3904         folio_unlock(folio);
3905         WARN_ON(atomic_read(&eb->refs) == 0);
3906 }
3907
3908 void btrfs_clear_buffer_dirty(struct btrfs_trans_handle *trans,
3909                               struct extent_buffer *eb)
3910 {
3911         struct btrfs_fs_info *fs_info = eb->fs_info;
3912         int num_folios;
3913
3914         btrfs_assert_tree_write_locked(eb);
3915
3916         if (trans && btrfs_header_generation(eb) != trans->transid)
3917                 return;
3918
3919         /*
3920          * Instead of clearing the dirty flag off of the buffer, mark it as
3921          * EXTENT_BUFFER_ZONED_ZEROOUT. This allows us to preserve
3922          * write-ordering in zoned mode, without the need to later re-dirty
3923          * the extent_buffer.
3924          *
3925          * The actual zeroout of the buffer will happen later in
3926          * btree_csum_one_bio.
3927          */
3928         if (btrfs_is_zoned(fs_info)) {
3929                 set_bit(EXTENT_BUFFER_ZONED_ZEROOUT, &eb->bflags);
3930                 return;
3931         }
3932
3933         if (!test_and_clear_bit(EXTENT_BUFFER_DIRTY, &eb->bflags))
3934                 return;
3935
3936         percpu_counter_add_batch(&fs_info->dirty_metadata_bytes, -eb->len,
3937                                  fs_info->dirty_metadata_batch);
3938
3939         if (eb->fs_info->nodesize < PAGE_SIZE)
3940                 return clear_subpage_extent_buffer_dirty(eb);
3941
3942         num_folios = num_extent_folios(eb);
3943         for (int i = 0; i < num_folios; i++) {
3944                 struct folio *folio = eb->folios[i];
3945
3946                 if (!folio_test_dirty(folio))
3947                         continue;
3948                 folio_lock(folio);
3949                 btree_clear_folio_dirty(folio);
3950                 folio_unlock(folio);
3951         }
3952         WARN_ON(atomic_read(&eb->refs) == 0);
3953 }
3954
3955 void set_extent_buffer_dirty(struct extent_buffer *eb)
3956 {
3957         int num_folios;
3958         bool was_dirty;
3959
3960         check_buffer_tree_ref(eb);
3961
3962         was_dirty = test_and_set_bit(EXTENT_BUFFER_DIRTY, &eb->bflags);
3963
3964         num_folios = num_extent_folios(eb);
3965         WARN_ON(atomic_read(&eb->refs) == 0);
3966         WARN_ON(!test_bit(EXTENT_BUFFER_TREE_REF, &eb->bflags));
3967
3968         if (!was_dirty) {
3969                 bool subpage = eb->fs_info->nodesize < PAGE_SIZE;
3970
3971                 /*
3972                  * For subpage case, we can have other extent buffers in the
3973                  * same page, and in clear_subpage_extent_buffer_dirty() we
3974                  * have to clear page dirty without subpage lock held.
3975                  * This can cause race where our page gets dirty cleared after
3976                  * we just set it.
3977                  *
3978                  * Thankfully, clear_subpage_extent_buffer_dirty() has locked
3979                  * its page for other reasons, we can use page lock to prevent
3980                  * the above race.
3981                  */
3982                 if (subpage)
3983                         lock_page(folio_page(eb->folios[0], 0));
3984                 for (int i = 0; i < num_folios; i++)
3985                         btrfs_folio_set_dirty(eb->fs_info, eb->folios[i],
3986                                               eb->start, eb->len);
3987                 if (subpage)
3988                         unlock_page(folio_page(eb->folios[0], 0));
3989                 percpu_counter_add_batch(&eb->fs_info->dirty_metadata_bytes,
3990                                          eb->len,
3991                                          eb->fs_info->dirty_metadata_batch);
3992         }
3993 #ifdef CONFIG_BTRFS_DEBUG
3994         for (int i = 0; i < num_folios; i++)
3995                 ASSERT(folio_test_dirty(eb->folios[i]));
3996 #endif
3997 }
3998
3999 void clear_extent_buffer_uptodate(struct extent_buffer *eb)
4000 {
4001         struct btrfs_fs_info *fs_info = eb->fs_info;
4002         int num_folios = num_extent_folios(eb);
4003
4004         clear_bit(EXTENT_BUFFER_UPTODATE, &eb->bflags);
4005         for (int i = 0; i < num_folios; i++) {
4006                 struct folio *folio = eb->folios[i];
4007
4008                 if (!folio)
4009                         continue;
4010
4011                 /*
4012                  * This is special handling for metadata subpage, as regular
4013                  * btrfs_is_subpage() can not handle cloned/dummy metadata.
4014                  */
4015                 if (fs_info->nodesize >= PAGE_SIZE)
4016                         folio_clear_uptodate(folio);
4017                 else
4018                         btrfs_subpage_clear_uptodate(fs_info, folio,
4019                                                      eb->start, eb->len);
4020         }
4021 }
4022
4023 void set_extent_buffer_uptodate(struct extent_buffer *eb)
4024 {
4025         struct btrfs_fs_info *fs_info = eb->fs_info;
4026         int num_folios = num_extent_folios(eb);
4027
4028         set_bit(EXTENT_BUFFER_UPTODATE, &eb->bflags);
4029         for (int i = 0; i < num_folios; i++) {
4030                 struct folio *folio = eb->folios[i];
4031
4032                 /*
4033                  * This is special handling for metadata subpage, as regular
4034                  * btrfs_is_subpage() can not handle cloned/dummy metadata.
4035                  */
4036                 if (fs_info->nodesize >= PAGE_SIZE)
4037                         folio_mark_uptodate(folio);
4038                 else
4039                         btrfs_subpage_set_uptodate(fs_info, folio,
4040                                                    eb->start, eb->len);
4041         }
4042 }
4043
4044 static void end_bbio_meta_read(struct btrfs_bio *bbio)
4045 {
4046         struct extent_buffer *eb = bbio->private;
4047         struct btrfs_fs_info *fs_info = eb->fs_info;
4048         bool uptodate = !bbio->bio.bi_status;
4049         struct folio_iter fi;
4050         u32 bio_offset = 0;
4051
4052         eb->read_mirror = bbio->mirror_num;
4053
4054         if (uptodate &&
4055             btrfs_validate_extent_buffer(eb, &bbio->parent_check) < 0)
4056                 uptodate = false;
4057
4058         if (uptodate) {
4059                 set_extent_buffer_uptodate(eb);
4060         } else {
4061                 clear_extent_buffer_uptodate(eb);
4062                 set_bit(EXTENT_BUFFER_READ_ERR, &eb->bflags);
4063         }
4064
4065         bio_for_each_folio_all(fi, &bbio->bio) {
4066                 struct folio *folio = fi.folio;
4067                 u64 start = eb->start + bio_offset;
4068                 u32 len = fi.length;
4069
4070                 if (uptodate)
4071                         btrfs_folio_set_uptodate(fs_info, folio, start, len);
4072                 else
4073                         btrfs_folio_clear_uptodate(fs_info, folio, start, len);
4074
4075                 bio_offset += len;
4076         }
4077
4078         clear_bit(EXTENT_BUFFER_READING, &eb->bflags);
4079         smp_mb__after_atomic();
4080         wake_up_bit(&eb->bflags, EXTENT_BUFFER_READING);
4081         free_extent_buffer(eb);
4082
4083         bio_put(&bbio->bio);
4084 }
4085
4086 int read_extent_buffer_pages(struct extent_buffer *eb, int wait, int mirror_num,
4087                              struct btrfs_tree_parent_check *check)
4088 {
4089         struct btrfs_bio *bbio;
4090         bool ret;
4091
4092         if (test_bit(EXTENT_BUFFER_UPTODATE, &eb->bflags))
4093                 return 0;
4094
4095         /*
4096          * We could have had EXTENT_BUFFER_UPTODATE cleared by the write
4097          * operation, which could potentially still be in flight.  In this case
4098          * we simply want to return an error.
4099          */
4100         if (unlikely(test_bit(EXTENT_BUFFER_WRITE_ERR, &eb->bflags)))
4101                 return -EIO;
4102
4103         /* Someone else is already reading the buffer, just wait for it. */
4104         if (test_and_set_bit(EXTENT_BUFFER_READING, &eb->bflags))
4105                 goto done;
4106
4107         clear_bit(EXTENT_BUFFER_READ_ERR, &eb->bflags);
4108         eb->read_mirror = 0;
4109         check_buffer_tree_ref(eb);
4110         atomic_inc(&eb->refs);
4111
4112         bbio = btrfs_bio_alloc(INLINE_EXTENT_BUFFER_PAGES,
4113                                REQ_OP_READ | REQ_META, eb->fs_info,
4114                                end_bbio_meta_read, eb);
4115         bbio->bio.bi_iter.bi_sector = eb->start >> SECTOR_SHIFT;
4116         bbio->inode = BTRFS_I(eb->fs_info->btree_inode);
4117         bbio->file_offset = eb->start;
4118         memcpy(&bbio->parent_check, check, sizeof(*check));
4119         if (eb->fs_info->nodesize < PAGE_SIZE) {
4120                 ret = bio_add_folio(&bbio->bio, eb->folios[0], eb->len,
4121                                     eb->start - folio_pos(eb->folios[0]));
4122                 ASSERT(ret);
4123         } else {
4124                 int num_folios = num_extent_folios(eb);
4125
4126                 for (int i = 0; i < num_folios; i++) {
4127                         struct folio *folio = eb->folios[i];
4128
4129                         ret = bio_add_folio(&bbio->bio, folio, folio_size(folio), 0);
4130                         ASSERT(ret);
4131                 }
4132         }
4133         btrfs_submit_bio(bbio, mirror_num);
4134
4135 done:
4136         if (wait == WAIT_COMPLETE) {
4137                 wait_on_bit_io(&eb->bflags, EXTENT_BUFFER_READING, TASK_UNINTERRUPTIBLE);
4138                 if (!test_bit(EXTENT_BUFFER_UPTODATE, &eb->bflags))
4139                         return -EIO;
4140         }
4141
4142         return 0;
4143 }
4144
4145 static bool report_eb_range(const struct extent_buffer *eb, unsigned long start,
4146                             unsigned long len)
4147 {
4148         btrfs_warn(eb->fs_info,
4149                 "access to eb bytenr %llu len %lu out of range start %lu len %lu",
4150                 eb->start, eb->len, start, len);
4151         WARN_ON(IS_ENABLED(CONFIG_BTRFS_DEBUG));
4152
4153         return true;
4154 }
4155
4156 /*
4157  * Check if the [start, start + len) range is valid before reading/writing
4158  * the eb.
4159  * NOTE: @start and @len are offset inside the eb, not logical address.
4160  *
4161  * Caller should not touch the dst/src memory if this function returns error.
4162  */
4163 static inline int check_eb_range(const struct extent_buffer *eb,
4164                                  unsigned long start, unsigned long len)
4165 {
4166         unsigned long offset;
4167
4168         /* start, start + len should not go beyond eb->len nor overflow */
4169         if (unlikely(check_add_overflow(start, len, &offset) || offset > eb->len))
4170                 return report_eb_range(eb, start, len);
4171
4172         return false;
4173 }
4174
4175 void read_extent_buffer(const struct extent_buffer *eb, void *dstv,
4176                         unsigned long start, unsigned long len)
4177 {
4178         const int unit_size = folio_size(eb->folios[0]);
4179         size_t cur;
4180         size_t offset;
4181         char *dst = (char *)dstv;
4182         unsigned long i = get_eb_folio_index(eb, start);
4183
4184         if (check_eb_range(eb, start, len)) {
4185                 /*
4186                  * Invalid range hit, reset the memory, so callers won't get
4187                  * some random garbage for their uninitialized memory.
4188                  */
4189                 memset(dstv, 0, len);
4190                 return;
4191         }
4192
4193         if (eb->addr) {
4194                 memcpy(dstv, eb->addr + start, len);
4195                 return;
4196         }
4197
4198         offset = get_eb_offset_in_folio(eb, start);
4199
4200         while (len > 0) {
4201                 char *kaddr;
4202
4203                 cur = min(len, unit_size - offset);
4204                 kaddr = folio_address(eb->folios[i]);
4205                 memcpy(dst, kaddr + offset, cur);
4206
4207                 dst += cur;
4208                 len -= cur;
4209                 offset = 0;
4210                 i++;
4211         }
4212 }
4213
4214 int read_extent_buffer_to_user_nofault(const struct extent_buffer *eb,
4215                                        void __user *dstv,
4216                                        unsigned long start, unsigned long len)
4217 {
4218         const int unit_size = folio_size(eb->folios[0]);
4219         size_t cur;
4220         size_t offset;
4221         char __user *dst = (char __user *)dstv;
4222         unsigned long i = get_eb_folio_index(eb, start);
4223         int ret = 0;
4224
4225         WARN_ON(start > eb->len);
4226         WARN_ON(start + len > eb->start + eb->len);
4227
4228         if (eb->addr) {
4229                 if (copy_to_user_nofault(dstv, eb->addr + start, len))
4230                         ret = -EFAULT;
4231                 return ret;
4232         }
4233
4234         offset = get_eb_offset_in_folio(eb, start);
4235
4236         while (len > 0) {
4237                 char *kaddr;
4238
4239                 cur = min(len, unit_size - offset);
4240                 kaddr = folio_address(eb->folios[i]);
4241                 if (copy_to_user_nofault(dst, kaddr + offset, cur)) {
4242                         ret = -EFAULT;
4243                         break;
4244                 }
4245
4246                 dst += cur;
4247                 len -= cur;
4248                 offset = 0;
4249                 i++;
4250         }
4251
4252         return ret;
4253 }
4254
4255 int memcmp_extent_buffer(const struct extent_buffer *eb, const void *ptrv,
4256                          unsigned long start, unsigned long len)
4257 {
4258         const int unit_size = folio_size(eb->folios[0]);
4259         size_t cur;
4260         size_t offset;
4261         char *kaddr;
4262         char *ptr = (char *)ptrv;
4263         unsigned long i = get_eb_folio_index(eb, start);
4264         int ret = 0;
4265
4266         if (check_eb_range(eb, start, len))
4267                 return -EINVAL;
4268
4269         if (eb->addr)
4270                 return memcmp(ptrv, eb->addr + start, len);
4271
4272         offset = get_eb_offset_in_folio(eb, start);
4273
4274         while (len > 0) {
4275                 cur = min(len, unit_size - offset);
4276                 kaddr = folio_address(eb->folios[i]);
4277                 ret = memcmp(ptr, kaddr + offset, cur);
4278                 if (ret)
4279                         break;
4280
4281                 ptr += cur;
4282                 len -= cur;
4283                 offset = 0;
4284                 i++;
4285         }
4286         return ret;
4287 }
4288
4289 /*
4290  * Check that the extent buffer is uptodate.
4291  *
4292  * For regular sector size == PAGE_SIZE case, check if @page is uptodate.
4293  * For subpage case, check if the range covered by the eb has EXTENT_UPTODATE.
4294  */
4295 static void assert_eb_folio_uptodate(const struct extent_buffer *eb, int i)
4296 {
4297         struct btrfs_fs_info *fs_info = eb->fs_info;
4298         struct folio *folio = eb->folios[i];
4299
4300         ASSERT(folio);
4301
4302         /*
4303          * If we are using the commit root we could potentially clear a page
4304          * Uptodate while we're using the extent buffer that we've previously
4305          * looked up.  We don't want to complain in this case, as the page was
4306          * valid before, we just didn't write it out.  Instead we want to catch
4307          * the case where we didn't actually read the block properly, which
4308          * would have !PageUptodate and !EXTENT_BUFFER_WRITE_ERR.
4309          */
4310         if (test_bit(EXTENT_BUFFER_WRITE_ERR, &eb->bflags))
4311                 return;
4312
4313         if (fs_info->nodesize < PAGE_SIZE) {
4314                 struct folio *folio = eb->folios[0];
4315
4316                 ASSERT(i == 0);
4317                 if (WARN_ON(!btrfs_subpage_test_uptodate(fs_info, folio,
4318                                                          eb->start, eb->len)))
4319                         btrfs_subpage_dump_bitmap(fs_info, folio, eb->start, eb->len);
4320         } else {
4321                 WARN_ON(!folio_test_uptodate(folio));
4322         }
4323 }
4324
4325 static void __write_extent_buffer(const struct extent_buffer *eb,
4326                                   const void *srcv, unsigned long start,
4327                                   unsigned long len, bool use_memmove)
4328 {
4329         const int unit_size = folio_size(eb->folios[0]);
4330         size_t cur;
4331         size_t offset;
4332         char *kaddr;
4333         char *src = (char *)srcv;
4334         unsigned long i = get_eb_folio_index(eb, start);
4335         /* For unmapped (dummy) ebs, no need to check their uptodate status. */
4336         const bool check_uptodate = !test_bit(EXTENT_BUFFER_UNMAPPED, &eb->bflags);
4337
4338         if (check_eb_range(eb, start, len))
4339                 return;
4340
4341         if (eb->addr) {
4342                 if (use_memmove)
4343                         memmove(eb->addr + start, srcv, len);
4344                 else
4345                         memcpy(eb->addr + start, srcv, len);
4346                 return;
4347         }
4348
4349         offset = get_eb_offset_in_folio(eb, start);
4350
4351         while (len > 0) {
4352                 if (check_uptodate)
4353                         assert_eb_folio_uptodate(eb, i);
4354
4355                 cur = min(len, unit_size - offset);
4356                 kaddr = folio_address(eb->folios[i]);
4357                 if (use_memmove)
4358                         memmove(kaddr + offset, src, cur);
4359                 else
4360                         memcpy(kaddr + offset, src, cur);
4361
4362                 src += cur;
4363                 len -= cur;
4364                 offset = 0;
4365                 i++;
4366         }
4367 }
4368
4369 void write_extent_buffer(const struct extent_buffer *eb, const void *srcv,
4370                          unsigned long start, unsigned long len)
4371 {
4372         return __write_extent_buffer(eb, srcv, start, len, false);
4373 }
4374
4375 static void memset_extent_buffer(const struct extent_buffer *eb, int c,
4376                                  unsigned long start, unsigned long len)
4377 {
4378         const int unit_size = folio_size(eb->folios[0]);
4379         unsigned long cur = start;
4380
4381         if (eb->addr) {
4382                 memset(eb->addr + start, c, len);
4383                 return;
4384         }
4385
4386         while (cur < start + len) {
4387                 unsigned long index = get_eb_folio_index(eb, cur);
4388                 unsigned int offset = get_eb_offset_in_folio(eb, cur);
4389                 unsigned int cur_len = min(start + len - cur, unit_size - offset);
4390
4391                 assert_eb_folio_uptodate(eb, index);
4392                 memset(folio_address(eb->folios[index]) + offset, c, cur_len);
4393
4394                 cur += cur_len;
4395         }
4396 }
4397
4398 void memzero_extent_buffer(const struct extent_buffer *eb, unsigned long start,
4399                            unsigned long len)
4400 {
4401         if (check_eb_range(eb, start, len))
4402                 return;
4403         return memset_extent_buffer(eb, 0, start, len);
4404 }
4405
4406 void copy_extent_buffer_full(const struct extent_buffer *dst,
4407                              const struct extent_buffer *src)
4408 {
4409         const int unit_size = folio_size(src->folios[0]);
4410         unsigned long cur = 0;
4411
4412         ASSERT(dst->len == src->len);
4413
4414         while (cur < src->len) {
4415                 unsigned long index = get_eb_folio_index(src, cur);
4416                 unsigned long offset = get_eb_offset_in_folio(src, cur);
4417                 unsigned long cur_len = min(src->len, unit_size - offset);
4418                 void *addr = folio_address(src->folios[index]) + offset;
4419
4420                 write_extent_buffer(dst, addr, cur, cur_len);
4421
4422                 cur += cur_len;
4423         }
4424 }
4425
4426 void copy_extent_buffer(const struct extent_buffer *dst,
4427                         const struct extent_buffer *src,
4428                         unsigned long dst_offset, unsigned long src_offset,
4429                         unsigned long len)
4430 {
4431         const int unit_size = folio_size(dst->folios[0]);
4432         u64 dst_len = dst->len;
4433         size_t cur;
4434         size_t offset;
4435         char *kaddr;
4436         unsigned long i = get_eb_folio_index(dst, dst_offset);
4437
4438         if (check_eb_range(dst, dst_offset, len) ||
4439             check_eb_range(src, src_offset, len))
4440                 return;
4441
4442         WARN_ON(src->len != dst_len);
4443
4444         offset = get_eb_offset_in_folio(dst, dst_offset);
4445
4446         while (len > 0) {
4447                 assert_eb_folio_uptodate(dst, i);
4448
4449                 cur = min(len, (unsigned long)(unit_size - offset));
4450
4451                 kaddr = folio_address(dst->folios[i]);
4452                 read_extent_buffer(src, kaddr + offset, src_offset, cur);
4453
4454                 src_offset += cur;
4455                 len -= cur;
4456                 offset = 0;
4457                 i++;
4458         }
4459 }
4460
4461 /*
4462  * Calculate the folio and offset of the byte containing the given bit number.
4463  *
4464  * @eb:           the extent buffer
4465  * @start:        offset of the bitmap item in the extent buffer
4466  * @nr:           bit number
4467  * @folio_index:  return index of the folio in the extent buffer that contains
4468  *                the given bit number
4469  * @folio_offset: return offset into the folio given by folio_index
4470  *
4471  * This helper hides the ugliness of finding the byte in an extent buffer which
4472  * contains a given bit.
4473  */
4474 static inline void eb_bitmap_offset(const struct extent_buffer *eb,
4475                                     unsigned long start, unsigned long nr,
4476                                     unsigned long *folio_index,
4477                                     size_t *folio_offset)
4478 {
4479         size_t byte_offset = BIT_BYTE(nr);
4480         size_t offset;
4481
4482         /*
4483          * The byte we want is the offset of the extent buffer + the offset of
4484          * the bitmap item in the extent buffer + the offset of the byte in the
4485          * bitmap item.
4486          */
4487         offset = start + offset_in_folio(eb->folios[0], eb->start) + byte_offset;
4488
4489         *folio_index = offset >> folio_shift(eb->folios[0]);
4490         *folio_offset = offset_in_folio(eb->folios[0], offset);
4491 }
4492
4493 /*
4494  * Determine whether a bit in a bitmap item is set.
4495  *
4496  * @eb:     the extent buffer
4497  * @start:  offset of the bitmap item in the extent buffer
4498  * @nr:     bit number to test
4499  */
4500 int extent_buffer_test_bit(const struct extent_buffer *eb, unsigned long start,
4501                            unsigned long nr)
4502 {
4503         unsigned long i;
4504         size_t offset;
4505         u8 *kaddr;
4506
4507         eb_bitmap_offset(eb, start, nr, &i, &offset);
4508         assert_eb_folio_uptodate(eb, i);
4509         kaddr = folio_address(eb->folios[i]);
4510         return 1U & (kaddr[offset] >> (nr & (BITS_PER_BYTE - 1)));
4511 }
4512
4513 static u8 *extent_buffer_get_byte(const struct extent_buffer *eb, unsigned long bytenr)
4514 {
4515         unsigned long index = get_eb_folio_index(eb, bytenr);
4516
4517         if (check_eb_range(eb, bytenr, 1))
4518                 return NULL;
4519         return folio_address(eb->folios[index]) + get_eb_offset_in_folio(eb, bytenr);
4520 }
4521
4522 /*
4523  * Set an area of a bitmap to 1.
4524  *
4525  * @eb:     the extent buffer
4526  * @start:  offset of the bitmap item in the extent buffer
4527  * @pos:    bit number of the first bit
4528  * @len:    number of bits to set
4529  */
4530 void extent_buffer_bitmap_set(const struct extent_buffer *eb, unsigned long start,
4531                               unsigned long pos, unsigned long len)
4532 {
4533         unsigned int first_byte = start + BIT_BYTE(pos);
4534         unsigned int last_byte = start + BIT_BYTE(pos + len - 1);
4535         const bool same_byte = (first_byte == last_byte);
4536         u8 mask = BITMAP_FIRST_BYTE_MASK(pos);
4537         u8 *kaddr;
4538
4539         if (same_byte)
4540                 mask &= BITMAP_LAST_BYTE_MASK(pos + len);
4541
4542         /* Handle the first byte. */
4543         kaddr = extent_buffer_get_byte(eb, first_byte);
4544         *kaddr |= mask;
4545         if (same_byte)
4546                 return;
4547
4548         /* Handle the byte aligned part. */
4549         ASSERT(first_byte + 1 <= last_byte);
4550         memset_extent_buffer(eb, 0xff, first_byte + 1, last_byte - first_byte - 1);
4551
4552         /* Handle the last byte. */
4553         kaddr = extent_buffer_get_byte(eb, last_byte);
4554         *kaddr |= BITMAP_LAST_BYTE_MASK(pos + len);
4555 }
4556
4557
4558 /*
4559  * Clear an area of a bitmap.
4560  *
4561  * @eb:     the extent buffer
4562  * @start:  offset of the bitmap item in the extent buffer
4563  * @pos:    bit number of the first bit
4564  * @len:    number of bits to clear
4565  */
4566 void extent_buffer_bitmap_clear(const struct extent_buffer *eb,
4567                                 unsigned long start, unsigned long pos,
4568                                 unsigned long len)
4569 {
4570         unsigned int first_byte = start + BIT_BYTE(pos);
4571         unsigned int last_byte = start + BIT_BYTE(pos + len - 1);
4572         const bool same_byte = (first_byte == last_byte);
4573         u8 mask = BITMAP_FIRST_BYTE_MASK(pos);
4574         u8 *kaddr;
4575
4576         if (same_byte)
4577                 mask &= BITMAP_LAST_BYTE_MASK(pos + len);
4578
4579         /* Handle the first byte. */
4580         kaddr = extent_buffer_get_byte(eb, first_byte);
4581         *kaddr &= ~mask;
4582         if (same_byte)
4583                 return;
4584
4585         /* Handle the byte aligned part. */
4586         ASSERT(first_byte + 1 <= last_byte);
4587         memset_extent_buffer(eb, 0, first_byte + 1, last_byte - first_byte - 1);
4588
4589         /* Handle the last byte. */
4590         kaddr = extent_buffer_get_byte(eb, last_byte);
4591         *kaddr &= ~BITMAP_LAST_BYTE_MASK(pos + len);
4592 }
4593
4594 static inline bool areas_overlap(unsigned long src, unsigned long dst, unsigned long len)
4595 {
4596         unsigned long distance = (src > dst) ? src - dst : dst - src;
4597         return distance < len;
4598 }
4599
4600 void memcpy_extent_buffer(const struct extent_buffer *dst,
4601                           unsigned long dst_offset, unsigned long src_offset,
4602                           unsigned long len)
4603 {
4604         const int unit_size = folio_size(dst->folios[0]);
4605         unsigned long cur_off = 0;
4606
4607         if (check_eb_range(dst, dst_offset, len) ||
4608             check_eb_range(dst, src_offset, len))
4609                 return;
4610
4611         if (dst->addr) {
4612                 const bool use_memmove = areas_overlap(src_offset, dst_offset, len);
4613
4614                 if (use_memmove)
4615                         memmove(dst->addr + dst_offset, dst->addr + src_offset, len);
4616                 else
4617                         memcpy(dst->addr + dst_offset, dst->addr + src_offset, len);
4618                 return;
4619         }
4620
4621         while (cur_off < len) {
4622                 unsigned long cur_src = cur_off + src_offset;
4623                 unsigned long folio_index = get_eb_folio_index(dst, cur_src);
4624                 unsigned long folio_off = get_eb_offset_in_folio(dst, cur_src);
4625                 unsigned long cur_len = min(src_offset + len - cur_src,
4626                                             unit_size - folio_off);
4627                 void *src_addr = folio_address(dst->folios[folio_index]) + folio_off;
4628                 const bool use_memmove = areas_overlap(src_offset + cur_off,
4629                                                        dst_offset + cur_off, cur_len);
4630
4631                 __write_extent_buffer(dst, src_addr, dst_offset + cur_off, cur_len,
4632                                       use_memmove);
4633                 cur_off += cur_len;
4634         }
4635 }
4636
4637 void memmove_extent_buffer(const struct extent_buffer *dst,
4638                            unsigned long dst_offset, unsigned long src_offset,
4639                            unsigned long len)
4640 {
4641         unsigned long dst_end = dst_offset + len - 1;
4642         unsigned long src_end = src_offset + len - 1;
4643
4644         if (check_eb_range(dst, dst_offset, len) ||
4645             check_eb_range(dst, src_offset, len))
4646                 return;
4647
4648         if (dst_offset < src_offset) {
4649                 memcpy_extent_buffer(dst, dst_offset, src_offset, len);
4650                 return;
4651         }
4652
4653         if (dst->addr) {
4654                 memmove(dst->addr + dst_offset, dst->addr + src_offset, len);
4655                 return;
4656         }
4657
4658         while (len > 0) {
4659                 unsigned long src_i;
4660                 size_t cur;
4661                 size_t dst_off_in_folio;
4662                 size_t src_off_in_folio;
4663                 void *src_addr;
4664                 bool use_memmove;
4665
4666                 src_i = get_eb_folio_index(dst, src_end);
4667
4668                 dst_off_in_folio = get_eb_offset_in_folio(dst, dst_end);
4669                 src_off_in_folio = get_eb_offset_in_folio(dst, src_end);
4670
4671                 cur = min_t(unsigned long, len, src_off_in_folio + 1);
4672                 cur = min(cur, dst_off_in_folio + 1);
4673
4674                 src_addr = folio_address(dst->folios[src_i]) + src_off_in_folio -
4675                                          cur + 1;
4676                 use_memmove = areas_overlap(src_end - cur + 1, dst_end - cur + 1,
4677                                             cur);
4678
4679                 __write_extent_buffer(dst, src_addr, dst_end - cur + 1, cur,
4680                                       use_memmove);
4681
4682                 dst_end -= cur;
4683                 src_end -= cur;
4684                 len -= cur;
4685         }
4686 }
4687
4688 #define GANG_LOOKUP_SIZE        16
4689 static struct extent_buffer *get_next_extent_buffer(
4690                 struct btrfs_fs_info *fs_info, struct page *page, u64 bytenr)
4691 {
4692         struct extent_buffer *gang[GANG_LOOKUP_SIZE];
4693         struct extent_buffer *found = NULL;
4694         u64 page_start = page_offset(page);
4695         u64 cur = page_start;
4696
4697         ASSERT(in_range(bytenr, page_start, PAGE_SIZE));
4698         lockdep_assert_held(&fs_info->buffer_lock);
4699
4700         while (cur < page_start + PAGE_SIZE) {
4701                 int ret;
4702                 int i;
4703
4704                 ret = radix_tree_gang_lookup(&fs_info->buffer_radix,
4705                                 (void **)gang, cur >> fs_info->sectorsize_bits,
4706                                 min_t(unsigned int, GANG_LOOKUP_SIZE,
4707                                       PAGE_SIZE / fs_info->nodesize));
4708                 if (ret == 0)
4709                         goto out;
4710                 for (i = 0; i < ret; i++) {
4711                         /* Already beyond page end */
4712                         if (gang[i]->start >= page_start + PAGE_SIZE)
4713                                 goto out;
4714                         /* Found one */
4715                         if (gang[i]->start >= bytenr) {
4716                                 found = gang[i];
4717                                 goto out;
4718                         }
4719                 }
4720                 cur = gang[ret - 1]->start + gang[ret - 1]->len;
4721         }
4722 out:
4723         return found;
4724 }
4725
4726 static int try_release_subpage_extent_buffer(struct page *page)
4727 {
4728         struct btrfs_fs_info *fs_info = btrfs_sb(page->mapping->host->i_sb);
4729         u64 cur = page_offset(page);
4730         const u64 end = page_offset(page) + PAGE_SIZE;
4731         int ret;
4732
4733         while (cur < end) {
4734                 struct extent_buffer *eb = NULL;
4735
4736                 /*
4737                  * Unlike try_release_extent_buffer() which uses folio private
4738                  * to grab buffer, for subpage case we rely on radix tree, thus
4739                  * we need to ensure radix tree consistency.
4740                  *
4741                  * We also want an atomic snapshot of the radix tree, thus go
4742                  * with spinlock rather than RCU.
4743                  */
4744                 spin_lock(&fs_info->buffer_lock);
4745                 eb = get_next_extent_buffer(fs_info, page, cur);
4746                 if (!eb) {
4747                         /* No more eb in the page range after or at cur */
4748                         spin_unlock(&fs_info->buffer_lock);
4749                         break;
4750                 }
4751                 cur = eb->start + eb->len;
4752
4753                 /*
4754                  * The same as try_release_extent_buffer(), to ensure the eb
4755                  * won't disappear out from under us.
4756                  */
4757                 spin_lock(&eb->refs_lock);
4758                 if (atomic_read(&eb->refs) != 1 || extent_buffer_under_io(eb)) {
4759                         spin_unlock(&eb->refs_lock);
4760                         spin_unlock(&fs_info->buffer_lock);
4761                         break;
4762                 }
4763                 spin_unlock(&fs_info->buffer_lock);
4764
4765                 /*
4766                  * If tree ref isn't set then we know the ref on this eb is a
4767                  * real ref, so just return, this eb will likely be freed soon
4768                  * anyway.
4769                  */
4770                 if (!test_and_clear_bit(EXTENT_BUFFER_TREE_REF, &eb->bflags)) {
4771                         spin_unlock(&eb->refs_lock);
4772                         break;
4773                 }
4774
4775                 /*
4776                  * Here we don't care about the return value, we will always
4777                  * check the folio private at the end.  And
4778                  * release_extent_buffer() will release the refs_lock.
4779                  */
4780                 release_extent_buffer(eb);
4781         }
4782         /*
4783          * Finally to check if we have cleared folio private, as if we have
4784          * released all ebs in the page, the folio private should be cleared now.
4785          */
4786         spin_lock(&page->mapping->i_private_lock);
4787         if (!folio_test_private(page_folio(page)))
4788                 ret = 1;
4789         else
4790                 ret = 0;
4791         spin_unlock(&page->mapping->i_private_lock);
4792         return ret;
4793
4794 }
4795
4796 int try_release_extent_buffer(struct page *page)
4797 {
4798         struct folio *folio = page_folio(page);
4799         struct extent_buffer *eb;
4800
4801         if (btrfs_sb(page->mapping->host->i_sb)->nodesize < PAGE_SIZE)
4802                 return try_release_subpage_extent_buffer(page);
4803
4804         /*
4805          * We need to make sure nobody is changing folio private, as we rely on
4806          * folio private as the pointer to extent buffer.
4807          */
4808         spin_lock(&page->mapping->i_private_lock);
4809         if (!folio_test_private(folio)) {
4810                 spin_unlock(&page->mapping->i_private_lock);
4811                 return 1;
4812         }
4813
4814         eb = folio_get_private(folio);
4815         BUG_ON(!eb);
4816
4817         /*
4818          * This is a little awful but should be ok, we need to make sure that
4819          * the eb doesn't disappear out from under us while we're looking at
4820          * this page.
4821          */
4822         spin_lock(&eb->refs_lock);
4823         if (atomic_read(&eb->refs) != 1 || extent_buffer_under_io(eb)) {
4824                 spin_unlock(&eb->refs_lock);
4825                 spin_unlock(&page->mapping->i_private_lock);
4826                 return 0;
4827         }
4828         spin_unlock(&page->mapping->i_private_lock);
4829
4830         /*
4831          * If tree ref isn't set then we know the ref on this eb is a real ref,
4832          * so just return, this page will likely be freed soon anyway.
4833          */
4834         if (!test_and_clear_bit(EXTENT_BUFFER_TREE_REF, &eb->bflags)) {
4835                 spin_unlock(&eb->refs_lock);
4836                 return 0;
4837         }
4838
4839         return release_extent_buffer(eb);
4840 }
4841
4842 /*
4843  * Attempt to readahead a child block.
4844  *
4845  * @fs_info:    the fs_info
4846  * @bytenr:     bytenr to read
4847  * @owner_root: objectid of the root that owns this eb
4848  * @gen:        generation for the uptodate check, can be 0
4849  * @level:      level for the eb
4850  *
4851  * Attempt to readahead a tree block at @bytenr.  If @gen is 0 then we do a
4852  * normal uptodate check of the eb, without checking the generation.  If we have
4853  * to read the block we will not block on anything.
4854  */
4855 void btrfs_readahead_tree_block(struct btrfs_fs_info *fs_info,
4856                                 u64 bytenr, u64 owner_root, u64 gen, int level)
4857 {
4858         struct btrfs_tree_parent_check check = {
4859                 .has_first_key = 0,
4860                 .level = level,
4861                 .transid = gen
4862         };
4863         struct extent_buffer *eb;
4864         int ret;
4865
4866         eb = btrfs_find_create_tree_block(fs_info, bytenr, owner_root, level);
4867         if (IS_ERR(eb))
4868                 return;
4869
4870         if (btrfs_buffer_uptodate(eb, gen, 1)) {
4871                 free_extent_buffer(eb);
4872                 return;
4873         }
4874
4875         ret = read_extent_buffer_pages(eb, WAIT_NONE, 0, &check);
4876         if (ret < 0)
4877                 free_extent_buffer_stale(eb);
4878         else
4879                 free_extent_buffer(eb);
4880 }
4881
4882 /*
4883  * Readahead a node's child block.
4884  *
4885  * @node:       parent node we're reading from
4886  * @slot:       slot in the parent node for the child we want to read
4887  *
4888  * A helper for btrfs_readahead_tree_block, we simply read the bytenr pointed at
4889  * the slot in the node provided.
4890  */
4891 void btrfs_readahead_node_child(struct extent_buffer *node, int slot)
4892 {
4893         btrfs_readahead_tree_block(node->fs_info,
4894                                    btrfs_node_blockptr(node, slot),
4895                                    btrfs_header_owner(node),
4896                                    btrfs_node_ptr_generation(node, slot),
4897                                    btrfs_header_level(node) - 1);
4898 }