selftests: net: Fix flaky neighbor garbage collection test
authorIdo Schimmel <idosch@nvidia.com>
Thu, 31 Jul 2025 11:09:14 +0000 (14:09 +0300)
committerJakub Kicinski <kuba@kernel.org>
Fri, 1 Aug 2025 20:51:41 +0000 (13:51 -0700)
The purpose of the "Periodic garbage collection" test case is to make
sure that "extern_valid" neighbors are not flushed during periodic
garbage collection, unlike regular neighbor entries.

The test case is currently doing the following:

1. Changing the base reachable time to 10 seconds so that periodic
   garbage collection will run every 5 seconds.

2. Changing the garbage collection stale time to 5 seconds so that
   neighbors that have not been used in the last 5 seconds will be
   considered for removal.

3. Waiting for the base reachable time change to take effect.

4. Adding an "extern_valid" neighbor, a non-"extern_valid" neighbor and
   a bunch of other neighbors so that the threshold ("thresh1") will be
   crossed and stale neighbors will be flushed during garbage
   collection.

5. Waiting for 10 seconds to give garbage collection a chance to run.

6. Checking that the "extern_valid" neighbor was not flushed and that
   the non-"extern_valid" neighbor was flushed.

The test sometimes fails in the netdev CI because the non-"extern_valid"
neighbor was not flushed. I am unable to reproduce this locally, but my
theory that since we do not know exactly when the periodic garbage
collection runs, it is possible for it to run at a time when the
non-"extern_valid" neighbor is still not considered stale.

Fix by moving the addition of the two neighbors before step 3 and by
reducing the garbage collection stale time to 1 second, to ensure that
both neighbors are considered stale when garbage collection runs.

Fixes: 171f2ee31a42 ("selftests: net: Add a selftest for externally validated neighbor entries")
Reported-by: Jakub Kicinski <kuba@kernel.org>
Closes: https://lore.kernel.org/netdev/20250728093504.4ebbd73c@kernel.org/
Signed-off-by: Ido Schimmel <idosch@nvidia.com>
Link: https://patch.msgid.link/20250731110914.506890-1-idosch@nvidia.com
Signed-off-by: Jakub Kicinski <kuba@kernel.org>
tools/testing/selftests/net/test_neigh.sh

index 388056472b5b1557dc1b6f5778f6dd33bd77d7de..7c594bf6ead0d2a38dcb3cf7fbbf5460365f2419 100755 (executable)
@@ -289,11 +289,11 @@ extern_valid_common()
        orig_base_reachable=$(ip -j ntable show name "$tbl_name" | jq '.[] | select(has("thresh1")) | .["base_reachable"]')
        run_cmd "ip ntable change name $tbl_name thresh1 10 base_reachable 10000"
        orig_gc_stale=$(ip -n "$ns1" -j ntable show name "$tbl_name" dev veth0 | jq '.[]["gc_stale"]')
-       run_cmd "ip -n $ns1 ntable change name $tbl_name dev veth0 gc_stale 5000"
-       # Wait orig_base_reachable/2 for the new interval to take effect.
-       run_cmd "sleep $(((orig_base_reachable / 1000) / 2 + 2))"
+       run_cmd "ip -n $ns1 ntable change name $tbl_name dev veth0 gc_stale 1000"
        run_cmd "ip -n $ns1 neigh add $ip_addr lladdr $mac nud stale dev veth0 extern_valid"
        run_cmd "ip -n $ns1 neigh add ${subnet}3 lladdr $mac nud stale dev veth0"
+       # Wait orig_base_reachable/2 for the new interval to take effect.
+       run_cmd "sleep $(((orig_base_reachable / 1000) / 2 + 2))"
        for i in {1..20}; do
                run_cmd "ip -n $ns1 neigh add ${subnet}$((i + 4)) nud none dev veth0"
        done