Merge branch 'master' of git://git.kernel.org/pub/scm/linux/kernel/git/pablo/nf-next
authorDavid S. Miller <davem@davemloft.net>
Tue, 5 Nov 2013 00:46:58 +0000 (19:46 -0500)
committerDavid S. Miller <davem@davemloft.net>
Tue, 5 Nov 2013 00:46:58 +0000 (19:46 -0500)
Pablo Neira Ayuso says:

====================
This is another batch containing Netfilter/IPVS updates for your net-next
tree, they are:

* Six patches to make the ipt_CLUSTERIP target support netnamespace,
  from Gao feng.

* Two cleanups for the nf_conntrack_acct infrastructure, introducing
  a new structure to encapsulate conntrack counters, from Holger
  Eitzenberger.

* Fix missing verdict in SCTP support for IPVS, from Daniel Borkmann.

* Skip checksum recalculation in SCTP support for IPVS, also from
  Daniel Borkmann.

* Fix behavioural change in xt_socket after IP early demux, from
  Florian Westphal.

* Fix bogus large memory allocation in the bitmap port set type in ipset,
  from Jozsef Kadlecsik.

* Fix possible compilation issues in the hash netnet set type in ipset,
  also from Jozsef Kadlecsik.

* Define constants to identify netlink callback data in ipset dumps,
  again from Jozsef Kadlecsik.

* Use sock_gen_put() in xt_socket to replace xt_socket_put_sk,
  from Eric Dumazet.

* Improvements for the SH scheduler in IPVS, from Alexander Frolkin.

* Remove extra delay due to unneeded rcu barrier in IPVS net namespace
  cleanup path, from Julian Anastasov.

* Save some cycles in ip6t_REJECT by skipping checksum validation in
  packets leaving from our stack, from Stanislav Fomichev.

* Fix IPVS_CMD_ATTR_MAX definition in IPVS, larger that required, from
  Julian Anastasov.
====================

Signed-off-by: David S. Miller <davem@davemloft.net>
25 files changed:
include/linux/netfilter/ipset/ip_set.h
include/net/ip_vs.h
include/net/netfilter/nf_conntrack_acct.h
include/net/netfilter/nf_conntrack_extend.h
include/uapi/linux/ip_vs.h
net/bridge/br_netfilter.c
net/ipv4/netfilter/ipt_CLUSTERIP.c
net/ipv6/netfilter/ip6t_REJECT.c
net/netfilter/ipset/ip_set_bitmap_gen.h
net/netfilter/ipset/ip_set_bitmap_port.c
net/netfilter/ipset/ip_set_core.c
net/netfilter/ipset/ip_set_hash_gen.h
net/netfilter/ipset/ip_set_hash_netnet.c
net/netfilter/ipset/ip_set_hash_netportnet.c
net/netfilter/ipset/ip_set_list_set.c
net/netfilter/ipvs/ip_vs_ctl.c
net/netfilter/ipvs/ip_vs_lblc.c
net/netfilter/ipvs/ip_vs_lblcr.c
net/netfilter/ipvs/ip_vs_proto_sctp.c
net/netfilter/ipvs/ip_vs_sh.c
net/netfilter/nf_conntrack_acct.c
net/netfilter/nf_conntrack_core.c
net/netfilter/nf_conntrack_netlink.c
net/netfilter/xt_connbytes.c
net/netfilter/xt_socket.c

index 7967516adc0d1ba2335111e863cc8c1899050bc3..c7174b8166749501739684d2a938b031b9d4784d 100644 (file)
@@ -316,6 +316,16 @@ ip_set_init_counter(struct ip_set_counter *counter,
                atomic64_set(&(counter)->packets, (long long)(ext->packets));
 }
 
+/* Netlink CB args */
+enum {
+       IPSET_CB_NET = 0,
+       IPSET_CB_DUMP,
+       IPSET_CB_INDEX,
+       IPSET_CB_ARG0,
+       IPSET_CB_ARG1,
+       IPSET_CB_ARG2,
+};
+
 /* register and unregister set references */
 extern ip_set_id_t ip_set_get_byname(struct net *net,
                                     const char *name, struct ip_set **set);
index 1c2e1b9f6b8603aecdf14452a6b424b227cd504b..cd7275f9c463b49c7f86f0eb5508a7aa07048144 100644 (file)
@@ -1442,6 +1442,12 @@ static inline void ip_vs_dest_put(struct ip_vs_dest *dest)
        atomic_dec(&dest->refcnt);
 }
 
+static inline void ip_vs_dest_put_and_free(struct ip_vs_dest *dest)
+{
+       if (atomic_dec_return(&dest->refcnt) < 0)
+               kfree(dest);
+}
+
 /*
  *      IPVS sync daemon data and function prototypes
  *      (from ip_vs_sync.c)
index fef44edf49c1221fcfd2ce006c18af0c67c761e8..79d8d16732b426d722f11ec2951ef03891159a63 100644 (file)
@@ -19,17 +19,21 @@ struct nf_conn_counter {
        atomic64_t bytes;
 };
 
+struct nf_conn_acct {
+       struct nf_conn_counter counter[IP_CT_DIR_MAX];
+};
+
 static inline
-struct nf_conn_counter *nf_conn_acct_find(const struct nf_conn *ct)
+struct nf_conn_acct *nf_conn_acct_find(const struct nf_conn *ct)
 {
        return nf_ct_ext_find(ct, NF_CT_EXT_ACCT);
 }
 
 static inline
-struct nf_conn_counter *nf_ct_acct_ext_add(struct nf_conn *ct, gfp_t gfp)
+struct nf_conn_acct *nf_ct_acct_ext_add(struct nf_conn *ct, gfp_t gfp)
 {
        struct net *net = nf_ct_net(ct);
-       struct nf_conn_counter *acct;
+       struct nf_conn_acct *acct;
 
        if (!net->ct.sysctl_acct)
                return NULL;
index 86372ae0ee840a7eb7bfefe6c705ed748e0582ba..956b175523ffaf726dadb2fa079219e0d12d5838 100644 (file)
@@ -36,7 +36,7 @@ enum nf_ct_ext_id {
 #define NF_CT_EXT_HELPER_TYPE struct nf_conn_help
 #define NF_CT_EXT_NAT_TYPE struct nf_conn_nat
 #define NF_CT_EXT_SEQADJ_TYPE struct nf_conn_seqadj
-#define NF_CT_EXT_ACCT_TYPE struct nf_conn_counter
+#define NF_CT_EXT_ACCT_TYPE struct nf_conn_acct
 #define NF_CT_EXT_ECACHE_TYPE struct nf_conntrack_ecache
 #define NF_CT_EXT_ZONE_TYPE struct nf_conntrack_zone
 #define NF_CT_EXT_TSTAMP_TYPE struct nf_conn_tstamp
index 29458223d0448c186eafa8d8024ecd5179738f35..fbcffe8041f7aff03046f0e901902f44cb094d0d 100644 (file)
@@ -334,7 +334,7 @@ enum {
        __IPVS_CMD_ATTR_MAX,
 };
 
-#define IPVS_CMD_ATTR_MAX (__IPVS_SVC_ATTR_MAX - 1)
+#define IPVS_CMD_ATTR_MAX (__IPVS_CMD_ATTR_MAX - 1)
 
 /*
  * Attributes used to describe a service
index 878f008afefac63bd102f948986d2f89e3fd446a..80cad2cf02a76d03e4f33a955f2e56dacd25d3b7 100644 (file)
@@ -559,6 +559,8 @@ static struct net_device *setup_pre_routing(struct sk_buff *skb)
        else if (skb->protocol == htons(ETH_P_PPP_SES))
                nf_bridge->mask |= BRNF_PPPoE;
 
+       /* Must drop socket now because of tproxy. */
+       skb_orphan(skb);
        return skb->dev;
 }
 
index a2e2b61cd7da230475f8ce7b9818eba67090bf05..2510c02c2d2168ffcd27f286c7eab3ca75165f26 100644 (file)
@@ -28,6 +28,7 @@
 #include <linux/netfilter_ipv4/ipt_CLUSTERIP.h>
 #include <net/netfilter/nf_conntrack.h>
 #include <net/net_namespace.h>
+#include <net/netns/generic.h>
 #include <net/checksum.h>
 #include <net/ip.h>
 
@@ -57,15 +58,21 @@ struct clusterip_config {
        struct rcu_head rcu;
 };
 
-static LIST_HEAD(clusterip_configs);
+#ifdef CONFIG_PROC_FS
+static const struct file_operations clusterip_proc_fops;
+#endif
 
-/* clusterip_lock protects the clusterip_configs list */
-static DEFINE_SPINLOCK(clusterip_lock);
+static int clusterip_net_id __read_mostly;
+
+struct clusterip_net {
+       struct list_head configs;
+       /* lock protects the configs list */
+       spinlock_t lock;
 
 #ifdef CONFIG_PROC_FS
-static const struct file_operations clusterip_proc_fops;
-static struct proc_dir_entry *clusterip_procdir;
+       struct proc_dir_entry *procdir;
 #endif
+};
 
 static inline void
 clusterip_config_get(struct clusterip_config *c)
@@ -92,10 +99,13 @@ clusterip_config_put(struct clusterip_config *c)
 static inline void
 clusterip_config_entry_put(struct clusterip_config *c)
 {
+       struct net *net = dev_net(c->dev);
+       struct clusterip_net *cn = net_generic(net, clusterip_net_id);
+
        local_bh_disable();
-       if (atomic_dec_and_lock(&c->entries, &clusterip_lock)) {
+       if (atomic_dec_and_lock(&c->entries, &cn->lock)) {
                list_del_rcu(&c->list);
-               spin_unlock(&clusterip_lock);
+               spin_unlock(&cn->lock);
                local_bh_enable();
 
                dev_mc_del(c->dev, c->clustermac);
@@ -113,11 +123,12 @@ clusterip_config_entry_put(struct clusterip_config *c)
 }
 
 static struct clusterip_config *
-__clusterip_config_find(__be32 clusterip)
+__clusterip_config_find(struct net *net, __be32 clusterip)
 {
        struct clusterip_config *c;
+       struct clusterip_net *cn = net_generic(net, clusterip_net_id);
 
-       list_for_each_entry_rcu(c, &clusterip_configs, list) {
+       list_for_each_entry_rcu(c, &cn->configs, list) {
                if (c->clusterip == clusterip)
                        return c;
        }
@@ -126,12 +137,12 @@ __clusterip_config_find(__be32 clusterip)
 }
 
 static inline struct clusterip_config *
-clusterip_config_find_get(__be32 clusterip, int entry)
+clusterip_config_find_get(struct net *net, __be32 clusterip, int entry)
 {
        struct clusterip_config *c;
 
        rcu_read_lock_bh();
-       c = __clusterip_config_find(clusterip);
+       c = __clusterip_config_find(net, clusterip);
        if (c) {
                if (unlikely(!atomic_inc_not_zero(&c->refcount)))
                        c = NULL;
@@ -158,6 +169,7 @@ clusterip_config_init(const struct ipt_clusterip_tgt_info *i, __be32 ip,
                        struct net_device *dev)
 {
        struct clusterip_config *c;
+       struct clusterip_net *cn = net_generic(dev_net(dev), clusterip_net_id);
 
        c = kzalloc(sizeof(*c), GFP_ATOMIC);
        if (!c)
@@ -180,7 +192,7 @@ clusterip_config_init(const struct ipt_clusterip_tgt_info *i, __be32 ip,
                /* create proc dir entry */
                sprintf(buffer, "%pI4", &ip);
                c->pde = proc_create_data(buffer, S_IWUSR|S_IRUSR,
-                                         clusterip_procdir,
+                                         cn->procdir,
                                          &clusterip_proc_fops, c);
                if (!c->pde) {
                        kfree(c);
@@ -189,9 +201,9 @@ clusterip_config_init(const struct ipt_clusterip_tgt_info *i, __be32 ip,
        }
 #endif
 
-       spin_lock_bh(&clusterip_lock);
-       list_add_rcu(&c->list, &clusterip_configs);
-       spin_unlock_bh(&clusterip_lock);
+       spin_lock_bh(&cn->lock);
+       list_add_rcu(&c->list, &cn->configs);
+       spin_unlock_bh(&cn->lock);
 
        return c;
 }
@@ -370,7 +382,7 @@ static int clusterip_tg_check(const struct xt_tgchk_param *par)
 
        /* FIXME: further sanity checks */
 
-       config = clusterip_config_find_get(e->ip.dst.s_addr, 1);
+       config = clusterip_config_find_get(par->net, e->ip.dst.s_addr, 1);
        if (!config) {
                if (!(cipinfo->flags & CLUSTERIP_FLAG_NEW)) {
                        pr_info("no config found for %pI4, need 'new'\n",
@@ -384,7 +396,7 @@ static int clusterip_tg_check(const struct xt_tgchk_param *par)
                                return -EINVAL;
                        }
 
-                       dev = dev_get_by_name(&init_net, e->ip.iniface);
+                       dev = dev_get_by_name(par->net, e->ip.iniface);
                        if (!dev) {
                                pr_info("no such interface %s\n",
                                        e->ip.iniface);
@@ -492,6 +504,7 @@ arp_mangle(const struct nf_hook_ops *ops,
        struct arphdr *arp = arp_hdr(skb);
        struct arp_payload *payload;
        struct clusterip_config *c;
+       struct net *net = dev_net(in ? in : out);
 
        /* we don't care about non-ethernet and non-ipv4 ARP */
        if (arp->ar_hrd != htons(ARPHRD_ETHER) ||
@@ -508,7 +521,7 @@ arp_mangle(const struct nf_hook_ops *ops,
 
        /* if there is no clusterip configuration for the arp reply's
         * source ip, we don't want to mangle it */
-       c = clusterip_config_find_get(payload->src_ip, 0);
+       c = clusterip_config_find_get(net, payload->src_ip, 0);
        if (!c)
                return NF_ACCEPT;
 
@@ -698,48 +711,75 @@ static const struct file_operations clusterip_proc_fops = {
 
 #endif /* CONFIG_PROC_FS */
 
+static int clusterip_net_init(struct net *net)
+{
+       struct clusterip_net *cn = net_generic(net, clusterip_net_id);
+
+       INIT_LIST_HEAD(&cn->configs);
+
+       spin_lock_init(&cn->lock);
+
+#ifdef CONFIG_PROC_FS
+       cn->procdir = proc_mkdir("ipt_CLUSTERIP", net->proc_net);
+       if (!cn->procdir) {
+               pr_err("Unable to proc dir entry\n");
+               return -ENOMEM;
+       }
+#endif /* CONFIG_PROC_FS */
+
+       return 0;
+}
+
+static void clusterip_net_exit(struct net *net)
+{
+#ifdef CONFIG_PROC_FS
+       struct clusterip_net *cn = net_generic(net, clusterip_net_id);
+       proc_remove(cn->procdir);
+#endif
+}
+
+static struct pernet_operations clusterip_net_ops = {
+       .init = clusterip_net_init,
+       .exit = clusterip_net_exit,
+       .id   = &clusterip_net_id,
+       .size = sizeof(struct clusterip_net),
+};
+
 static int __init clusterip_tg_init(void)
 {
        int ret;
 
-       ret = xt_register_target(&clusterip_tg_reg);
+       ret = register_pernet_subsys(&clusterip_net_ops);
        if (ret < 0)
                return ret;
 
+       ret = xt_register_target(&clusterip_tg_reg);
+       if (ret < 0)
+               goto cleanup_subsys;
+
        ret = nf_register_hook(&cip_arp_ops);
        if (ret < 0)
                goto cleanup_target;
 
-#ifdef CONFIG_PROC_FS
-       clusterip_procdir = proc_mkdir("ipt_CLUSTERIP", init_net.proc_net);
-       if (!clusterip_procdir) {
-               pr_err("Unable to proc dir entry\n");
-               ret = -ENOMEM;
-               goto cleanup_hook;
-       }
-#endif /* CONFIG_PROC_FS */
-
        pr_info("ClusterIP Version %s loaded successfully\n",
                CLUSTERIP_VERSION);
+
        return 0;
 
-#ifdef CONFIG_PROC_FS
-cleanup_hook:
-       nf_unregister_hook(&cip_arp_ops);
-#endif /* CONFIG_PROC_FS */
 cleanup_target:
        xt_unregister_target(&clusterip_tg_reg);
+cleanup_subsys:
+       unregister_pernet_subsys(&clusterip_net_ops);
        return ret;
 }
 
 static void __exit clusterip_tg_exit(void)
 {
        pr_info("ClusterIP Version %s unloading\n", CLUSTERIP_VERSION);
-#ifdef CONFIG_PROC_FS
-       proc_remove(clusterip_procdir);
-#endif
+
        nf_unregister_hook(&cip_arp_ops);
        xt_unregister_target(&clusterip_tg_reg);
+       unregister_pernet_subsys(&clusterip_net_ops);
 
        /* Wait for completion of call_rcu_bh()'s (clusterip_config_rcu_free) */
        rcu_barrier_bh();
index 56eef30ee5f6afb2ad1338649b30ffe8a5c5b948..da00a2ecde559431993f2e08ca29bc06a226155c 100644 (file)
@@ -39,7 +39,7 @@ MODULE_DESCRIPTION("Xtables: packet \"rejection\" target for IPv6");
 MODULE_LICENSE("GPL");
 
 /* Send RST reply */
-static void send_reset(struct net *net, struct sk_buff *oldskb)
+static void send_reset(struct net *net, struct sk_buff *oldskb, int hook)
 {
        struct sk_buff *nskb;
        struct tcphdr otcph, *tcph;
@@ -88,8 +88,7 @@ static void send_reset(struct net *net, struct sk_buff *oldskb)
        }
 
        /* Check checksum. */
-       if (csum_ipv6_magic(&oip6h->saddr, &oip6h->daddr, otcplen, IPPROTO_TCP,
-                           skb_checksum(oldskb, tcphoff, otcplen, 0))) {
+       if (nf_ip6_checksum(oldskb, hook, tcphoff, IPPROTO_TCP)) {
                pr_debug("TCP checksum is invalid\n");
                return;
        }
@@ -227,7 +226,7 @@ reject_tg6(struct sk_buff *skb, const struct xt_action_param *par)
                /* Do nothing */
                break;
        case IP6T_TCP_RESET:
-               send_reset(net, skb);
+               send_reset(net, skb, par->hooknum);
                break;
        default:
                net_info_ratelimited("case %u not handled yet\n", reject->with);
index a13e15be7911cfcd2e3103f9790beaeb869bd478..f2c7d83dc23f46b83e4d24e665f2abc31317783b 100644 (file)
@@ -198,13 +198,14 @@ mtype_list(const struct ip_set *set,
        struct mtype *map = set->data;
        struct nlattr *adt, *nested;
        void *x;
-       u32 id, first = cb->args[2];
+       u32 id, first = cb->args[IPSET_CB_ARG0];
 
        adt = ipset_nest_start(skb, IPSET_ATTR_ADT);
        if (!adt)
                return -EMSGSIZE;
-       for (; cb->args[2] < map->elements; cb->args[2]++) {
-               id = cb->args[2];
+       for (; cb->args[IPSET_CB_ARG0] < map->elements;
+            cb->args[IPSET_CB_ARG0]++) {
+               id = cb->args[IPSET_CB_ARG0];
                x = get_ext(set, map, id);
                if (!test_bit(id, map->members) ||
                    (SET_WITH_TIMEOUT(set) &&
@@ -231,14 +232,14 @@ mtype_list(const struct ip_set *set,
        ipset_nest_end(skb, adt);
 
        /* Set listing finished */
-       cb->args[2] = 0;
+       cb->args[IPSET_CB_ARG0] = 0;
 
        return 0;
 
 nla_put_failure:
        nla_nest_cancel(skb, nested);
        if (unlikely(id == first)) {
-               cb->args[2] = 0;
+               cb->args[IPSET_CB_ARG0] = 0;
                return -EMSGSIZE;
        }
        ipset_nest_end(skb, adt);
index e7603c5b53d737b9de6248bfd0b87d0005c242fd..cf99676e69f81bdc326b2a187dc8de1450b23e87 100644 (file)
@@ -254,7 +254,7 @@ bitmap_port_create(struct net *net, struct ip_set *set, struct nlattr *tb[],
                return -ENOMEM;
 
        map->elements = last_port - first_port + 1;
-       map->memsize = map->elements * sizeof(unsigned long);
+       map->memsize = bitmap_bytes(0, map->elements);
        set->variant = &bitmap_port;
        set->dsize = ip_set_elem_len(set, tb, 0);
        if (!init_map_port(set, map, first_port, last_port)) {
index dc9284bdd2dd134fa4f96c7d96bcb845dc3f0269..bac7e01df67fae97ea041f908a8dc316d8798459 100644 (file)
@@ -1182,10 +1182,12 @@ ip_set_swap(struct sock *ctnl, struct sk_buff *skb,
 static int
 ip_set_dump_done(struct netlink_callback *cb)
 {
-       struct ip_set_net *inst = (struct ip_set_net *)cb->data;
-       if (cb->args[2]) {
-               pr_debug("release set %s\n", nfnl_set(inst, cb->args[1])->name);
-               __ip_set_put_byindex(inst, (ip_set_id_t) cb->args[1]);
+       struct ip_set_net *inst = (struct ip_set_net *)cb->args[IPSET_CB_NET];
+       if (cb->args[IPSET_CB_ARG0]) {
+               pr_debug("release set %s\n",
+                        nfnl_set(inst, cb->args[IPSET_CB_INDEX])->name);
+               __ip_set_put_byindex(inst,
+                       (ip_set_id_t) cb->args[IPSET_CB_INDEX]);
        }
        return 0;
 }
@@ -1203,7 +1205,7 @@ dump_attrs(struct nlmsghdr *nlh)
 }
 
 static int
-dump_init(struct netlink_callback *cb)
+dump_init(struct netlink_callback *cb, struct ip_set_net *inst)
 {
        struct nlmsghdr *nlh = nlmsg_hdr(cb->skb);
        int min_len = nlmsg_total_size(sizeof(struct nfgenmsg));
@@ -1211,15 +1213,15 @@ dump_init(struct netlink_callback *cb)
        struct nlattr *attr = (void *)nlh + min_len;
        u32 dump_type;
        ip_set_id_t index;
-       struct ip_set_net *inst = (struct ip_set_net *)cb->data;
 
        /* Second pass, so parser can't fail */
        nla_parse(cda, IPSET_ATTR_CMD_MAX,
                  attr, nlh->nlmsg_len - min_len, ip_set_setname_policy);
 
-       /* cb->args[0] : dump single set/all sets
-        *         [1] : set index
-        *         [..]: type specific
+       /* cb->args[IPSET_CB_NET]:      net namespace
+        *         [IPSET_CB_DUMP]:     dump single set/all sets
+        *         [IPSET_CB_INDEX]:    set index
+        *         [IPSET_CB_ARG0]:     type specific
         */
 
        if (cda[IPSET_ATTR_SETNAME]) {
@@ -1231,7 +1233,7 @@ dump_init(struct netlink_callback *cb)
                        return -ENOENT;
 
                dump_type = DUMP_ONE;
-               cb->args[1] = index;
+               cb->args[IPSET_CB_INDEX] = index;
        } else
                dump_type = DUMP_ALL;
 
@@ -1239,7 +1241,8 @@ dump_init(struct netlink_callback *cb)
                u32 f = ip_set_get_h32(cda[IPSET_ATTR_FLAGS]);
                dump_type |= (f << 16);
        }
-       cb->args[0] = dump_type;
+       cb->args[IPSET_CB_NET] = (unsigned long)inst;
+       cb->args[IPSET_CB_DUMP] = dump_type;
 
        return 0;
 }
@@ -1251,12 +1254,12 @@ ip_set_dump_start(struct sk_buff *skb, struct netlink_callback *cb)
        struct ip_set *set = NULL;
        struct nlmsghdr *nlh = NULL;
        unsigned int flags = NETLINK_CB(cb->skb).portid ? NLM_F_MULTI : 0;
+       struct ip_set_net *inst = ip_set_pernet(sock_net(skb->sk));
        u32 dump_type, dump_flags;
        int ret = 0;
-       struct ip_set_net *inst = (struct ip_set_net *)cb->data;
 
-       if (!cb->args[0]) {
-               ret = dump_init(cb);
+       if (!cb->args[IPSET_CB_DUMP]) {
+               ret = dump_init(cb, inst);
                if (ret < 0) {
                        nlh = nlmsg_hdr(cb->skb);
                        /* We have to create and send the error message
@@ -1267,17 +1270,18 @@ ip_set_dump_start(struct sk_buff *skb, struct netlink_callback *cb)
                }
        }
 
-       if (cb->args[1] >= inst->ip_set_max)
+       if (cb->args[IPSET_CB_INDEX] >= inst->ip_set_max)
                goto out;
 
-       dump_type = DUMP_TYPE(cb->args[0]);
-       dump_flags = DUMP_FLAGS(cb->args[0]);
-       max = dump_type == DUMP_ONE ? cb->args[1] + 1 : inst->ip_set_max;
+       dump_type = DUMP_TYPE(cb->args[IPSET_CB_DUMP]);
+       dump_flags = DUMP_FLAGS(cb->args[IPSET_CB_DUMP]);
+       max = dump_type == DUMP_ONE ? cb->args[IPSET_CB_INDEX] + 1
+                                   : inst->ip_set_max;
 dump_last:
-       pr_debug("args[0]: %u %u args[1]: %ld\n",
-                dump_type, dump_flags, cb->args[1]);
-       for (; cb->args[1] < max; cb->args[1]++) {
-               index = (ip_set_id_t) cb->args[1];
+       pr_debug("dump type, flag: %u %u index: %ld\n",
+                dump_type, dump_flags, cb->args[IPSET_CB_INDEX]);
+       for (; cb->args[IPSET_CB_INDEX] < max; cb->args[IPSET_CB_INDEX]++) {
+               index = (ip_set_id_t) cb->args[IPSET_CB_INDEX];
                set = nfnl_set(inst, index);
                if (set == NULL) {
                        if (dump_type == DUMP_ONE) {
@@ -1294,7 +1298,7 @@ dump_last:
                     !!(set->type->features & IPSET_DUMP_LAST)))
                        continue;
                pr_debug("List set: %s\n", set->name);
-               if (!cb->args[2]) {
+               if (!cb->args[IPSET_CB_ARG0]) {
                        /* Start listing: make sure set won't be destroyed */
                        pr_debug("reference set\n");
                        __ip_set_get(set);
@@ -1311,7 +1315,7 @@ dump_last:
                        goto nla_put_failure;
                if (dump_flags & IPSET_FLAG_LIST_SETNAME)
                        goto next_set;
-               switch (cb->args[2]) {
+               switch (cb->args[IPSET_CB_ARG0]) {
                case 0:
                        /* Core header data */
                        if (nla_put_string(skb, IPSET_ATTR_TYPENAME,
@@ -1331,7 +1335,7 @@ dump_last:
                        read_lock_bh(&set->lock);
                        ret = set->variant->list(set, skb, cb);
                        read_unlock_bh(&set->lock);
-                       if (!cb->args[2])
+                       if (!cb->args[IPSET_CB_ARG0])
                                /* Set is done, proceed with next one */
                                goto next_set;
                        goto release_refcount;
@@ -1340,8 +1344,8 @@ dump_last:
        /* If we dump all sets, continue with dumping last ones */
        if (dump_type == DUMP_ALL) {
                dump_type = DUMP_LAST;
-               cb->args[0] = dump_type | (dump_flags << 16);
-               cb->args[1] = 0;
+               cb->args[IPSET_CB_DUMP] = dump_type | (dump_flags << 16);
+               cb->args[IPSET_CB_INDEX] = 0;
                goto dump_last;
        }
        goto out;
@@ -1350,15 +1354,15 @@ nla_put_failure:
        ret = -EFAULT;
 next_set:
        if (dump_type == DUMP_ONE)
-               cb->args[1] = IPSET_INVALID_ID;
+               cb->args[IPSET_CB_INDEX] = IPSET_INVALID_ID;
        else
-               cb->args[1]++;
+               cb->args[IPSET_CB_INDEX]++;
 release_refcount:
        /* If there was an error or set is done, release set */
-       if (ret || !cb->args[2]) {
+       if (ret || !cb->args[IPSET_CB_ARG0]) {
                pr_debug("release set %s\n", nfnl_set(inst, index)->name);
                __ip_set_put_byindex(inst, index);
-               cb->args[2] = 0;
+               cb->args[IPSET_CB_ARG0] = 0;
        }
 out:
        if (nlh) {
@@ -1375,8 +1379,6 @@ ip_set_dump(struct sock *ctnl, struct sk_buff *skb,
            const struct nlmsghdr *nlh,
            const struct nlattr * const attr[])
 {
-       struct ip_set_net *inst = ip_set_pernet(sock_net(ctnl));
-
        if (unlikely(protocol_failed(attr)))
                return -IPSET_ERR_PROTOCOL;
 
@@ -1384,7 +1386,6 @@ ip_set_dump(struct sock *ctnl, struct sk_buff *skb,
                struct netlink_dump_control c = {
                        .dump = ip_set_dump_start,
                        .done = ip_set_dump_done,
-                       .data = (void *)inst
                };
                return netlink_dump_start(ctnl, skb, nlh, &c);
        }
@@ -1961,7 +1962,6 @@ static int __net_init
 ip_set_net_init(struct net *net)
 {
        struct ip_set_net *inst = ip_set_pernet(net);
-
        struct ip_set **list;
 
        inst->ip_set_max = max_sets ? max_sets : CONFIG_IP_SET_MAX;
index 6a80dbd30df7bea89d0279a5752faa668f2f68a7..be6932ad3a8626d6c06e99091b32f540b7afd338 100644 (file)
@@ -234,7 +234,6 @@ hbucket_elem_add(struct hbucket *n, u8 ahash_max, size_t dsize)
 #define mtype_uadt             IPSET_TOKEN(MTYPE, _uadt)
 #define mtype                  MTYPE
 
-#define mtype_elem             IPSET_TOKEN(MTYPE, _elem)
 #define mtype_add              IPSET_TOKEN(MTYPE, _add)
 #define mtype_del              IPSET_TOKEN(MTYPE, _del)
 #define mtype_test_cidrs       IPSET_TOKEN(MTYPE, _test_cidrs)
@@ -931,7 +930,7 @@ mtype_list(const struct ip_set *set,
        struct nlattr *atd, *nested;
        const struct hbucket *n;
        const struct mtype_elem *e;
-       u32 first = cb->args[2];
+       u32 first = cb->args[IPSET_CB_ARG0];
        /* We assume that one hash bucket fills into one page */
        void *incomplete;
        int i;
@@ -940,20 +939,22 @@ mtype_list(const struct ip_set *set,
        if (!atd)
                return -EMSGSIZE;
        pr_debug("list hash set %s\n", set->name);
-       for (; cb->args[2] < jhash_size(t->htable_bits); cb->args[2]++) {
+       for (; cb->args[IPSET_CB_ARG0] < jhash_size(t->htable_bits);
+            cb->args[IPSET_CB_ARG0]++) {
                incomplete = skb_tail_pointer(skb);
-               n = hbucket(t, cb->args[2]);
-               pr_debug("cb->args[2]: %lu, t %p n %p\n", cb->args[2], t, n);
+               n = hbucket(t, cb->args[IPSET_CB_ARG0]);
+               pr_debug("cb->arg bucket: %lu, t %p n %p\n",
+                        cb->args[IPSET_CB_ARG0], t, n);
                for (i = 0; i < n->pos; i++) {
                        e = ahash_data(n, i, set->dsize);
                        if (SET_WITH_TIMEOUT(set) &&
                            ip_set_timeout_expired(ext_timeout(e, set)))
                                continue;
                        pr_debug("list hash %lu hbucket %p i %u, data %p\n",
-                                cb->args[2], n, i, e);
+                                cb->args[IPSET_CB_ARG0], n, i, e);
                        nested = ipset_nest_start(skb, IPSET_ATTR_DATA);
                        if (!nested) {
-                               if (cb->args[2] == first) {
+                               if (cb->args[IPSET_CB_ARG0] == first) {
                                        nla_nest_cancel(skb, atd);
                                        return -EMSGSIZE;
                                } else
@@ -968,16 +969,16 @@ mtype_list(const struct ip_set *set,
        }
        ipset_nest_end(skb, atd);
        /* Set listing finished */
-       cb->args[2] = 0;
+       cb->args[IPSET_CB_ARG0] = 0;
 
        return 0;
 
 nla_put_failure:
        nlmsg_trim(skb, incomplete);
-       if (unlikely(first == cb->args[2])) {
+       if (unlikely(first == cb->args[IPSET_CB_ARG0])) {
                pr_warning("Can't list set %s: one bucket does not fit into "
                           "a message. Please report it!\n", set->name);
-               cb->args[2] = 0;
+               cb->args[IPSET_CB_ARG0] = 0;
                return -EMSGSIZE;
        }
        ipset_nest_end(skb, atd);
index 426032706ca9a6222da4be3582ddef1ec587bea9..2bc2dec20b007026e78aba74451e70039c6e5988 100644 (file)
@@ -137,12 +137,11 @@ hash_netnet4_kadt(struct ip_set *set, const struct sk_buff *skb,
 {
        const struct hash_netnet *h = set->data;
        ipset_adtfn adtfn = set->variant->adt[adt];
-       struct hash_netnet4_elem e = {
-               .cidr[0] = h->nets[0].cidr[0] ? h->nets[0].cidr[0] : HOST_MASK,
-               .cidr[1] = h->nets[0].cidr[1] ? h->nets[0].cidr[1] : HOST_MASK,
-       };
+       struct hash_netnet4_elem e = { };
        struct ip_set_ext ext = IP_SET_INIT_KEXT(skb, opt, set);
 
+       e.cidr[0] = IP_SET_INIT_CIDR(h->nets[0].cidr[0], HOST_MASK);
+       e.cidr[1] = IP_SET_INIT_CIDR(h->nets[0].cidr[1], HOST_MASK);
        if (adt == IPSET_TEST)
                e.ccmp = (HOST_MASK << (sizeof(e.cidr[0]) * 8)) | HOST_MASK;
 
@@ -160,14 +159,14 @@ hash_netnet4_uadt(struct ip_set *set, struct nlattr *tb[],
 {
        const struct hash_netnet *h = set->data;
        ipset_adtfn adtfn = set->variant->adt[adt];
-       struct hash_netnet4_elem e = { .cidr[0] = HOST_MASK,
-                                      .cidr[1] = HOST_MASK };
+       struct hash_netnet4_elem e = { };
        struct ip_set_ext ext = IP_SET_INIT_UEXT(set);
        u32 ip = 0, ip_to = 0, last;
        u32 ip2 = 0, ip2_from = 0, ip2_to = 0, last2;
        u8 cidr, cidr2;
        int ret;
 
+       e.cidr[0] = e.cidr[1] = HOST_MASK;
        if (unlikely(!tb[IPSET_ATTR_IP] || !tb[IPSET_ATTR_IP2] ||
                     !ip_set_optattr_netorder(tb, IPSET_ATTR_TIMEOUT) ||
                     !ip_set_optattr_netorder(tb, IPSET_ATTR_CADT_FLAGS) ||
@@ -364,12 +363,11 @@ hash_netnet6_kadt(struct ip_set *set, const struct sk_buff *skb,
 {
        const struct hash_netnet *h = set->data;
        ipset_adtfn adtfn = set->variant->adt[adt];
-       struct hash_netnet6_elem e = {
-               .cidr[0] = h->nets[0].cidr[0] ? h->nets[0].cidr[0] : HOST_MASK,
-               .cidr[1] = h->nets[0].cidr[1] ? h->nets[0].cidr[1] : HOST_MASK
-       };
+       struct hash_netnet6_elem e = { };
        struct ip_set_ext ext = IP_SET_INIT_KEXT(skb, opt, set);
 
+       e.cidr[0] = IP_SET_INIT_CIDR(h->nets[0].cidr[0], HOST_MASK);
+       e.cidr[1] = IP_SET_INIT_CIDR(h->nets[0].cidr[1], HOST_MASK);
        if (adt == IPSET_TEST)
                e.ccmp = (HOST_MASK << (sizeof(u8)*8)) | HOST_MASK;
 
@@ -386,11 +384,11 @@ hash_netnet6_uadt(struct ip_set *set, struct nlattr *tb[],
               enum ipset_adt adt, u32 *lineno, u32 flags, bool retried)
 {
        ipset_adtfn adtfn = set->variant->adt[adt];
-       struct hash_netnet6_elem e = { .cidr[0] = HOST_MASK,
-                                      .cidr[1] = HOST_MASK };
+       struct hash_netnet6_elem e = { };
        struct ip_set_ext ext = IP_SET_INIT_UEXT(set);
        int ret;
 
+       e.cidr[0] = e.cidr[1] = HOST_MASK;
        if (unlikely(!tb[IPSET_ATTR_IP] || !tb[IPSET_ATTR_IP2] ||
                     !ip_set_optattr_netorder(tb, IPSET_ATTR_TIMEOUT) ||
                     !ip_set_optattr_netorder(tb, IPSET_ATTR_CADT_FLAGS) ||
index 363fab933d48f2ea832ed25cffec8e8077e581b3..703d1192a6a225214f1ffd28c6ab926110942c32 100644 (file)
@@ -147,12 +147,11 @@ hash_netportnet4_kadt(struct ip_set *set, const struct sk_buff *skb,
 {
        const struct hash_netportnet *h = set->data;
        ipset_adtfn adtfn = set->variant->adt[adt];
-       struct hash_netportnet4_elem e = {
-               .cidr[0] = IP_SET_INIT_CIDR(h->nets[0].cidr[0], HOST_MASK),
-               .cidr[1] = IP_SET_INIT_CIDR(h->nets[0].cidr[1], HOST_MASK),
-       };
+       struct hash_netportnet4_elem e = { };
        struct ip_set_ext ext = IP_SET_INIT_KEXT(skb, opt, set);
 
+       e.cidr[0] = IP_SET_INIT_CIDR(h->nets[0].cidr[0], HOST_MASK);
+       e.cidr[1] = IP_SET_INIT_CIDR(h->nets[0].cidr[1], HOST_MASK);
        if (adt == IPSET_TEST)
                e.ccmp = (HOST_MASK << (sizeof(e.cidr[0]) * 8)) | HOST_MASK;
 
@@ -174,8 +173,7 @@ hash_netportnet4_uadt(struct ip_set *set, struct nlattr *tb[],
 {
        const struct hash_netportnet *h = set->data;
        ipset_adtfn adtfn = set->variant->adt[adt];
-       struct hash_netportnet4_elem e = { .cidr[0] = HOST_MASK,
-                                          .cidr[1] = HOST_MASK };
+       struct hash_netportnet4_elem e = { };
        struct ip_set_ext ext = IP_SET_INIT_UEXT(set);
        u32 ip = 0, ip_to = 0, ip_last, p = 0, port, port_to;
        u32 ip2_from = 0, ip2_to = 0, ip2_last, ip2;
@@ -183,6 +181,7 @@ hash_netportnet4_uadt(struct ip_set *set, struct nlattr *tb[],
        u8 cidr, cidr2;
        int ret;
 
+       e.cidr[0] = e.cidr[1] = HOST_MASK;
        if (unlikely(!tb[IPSET_ATTR_IP] || !tb[IPSET_ATTR_IP2] ||
                     !ip_set_attr_netorder(tb, IPSET_ATTR_PORT) ||
                     !ip_set_optattr_netorder(tb, IPSET_ATTR_PORT_TO) ||
@@ -419,12 +418,11 @@ hash_netportnet6_kadt(struct ip_set *set, const struct sk_buff *skb,
 {
        const struct hash_netportnet *h = set->data;
        ipset_adtfn adtfn = set->variant->adt[adt];
-       struct hash_netportnet6_elem e = {
-               .cidr[0] = IP_SET_INIT_CIDR(h->nets[0].cidr[0], HOST_MASK),
-               .cidr[1] = IP_SET_INIT_CIDR(h->nets[0].cidr[1], HOST_MASK),
-       };
+       struct hash_netportnet6_elem e = { };
        struct ip_set_ext ext = IP_SET_INIT_KEXT(skb, opt, set);
 
+       e.cidr[0] = IP_SET_INIT_CIDR(h->nets[0].cidr[0], HOST_MASK);
+       e.cidr[1] = IP_SET_INIT_CIDR(h->nets[0].cidr[1], HOST_MASK);
        if (adt == IPSET_TEST)
                e.ccmp = (HOST_MASK << (sizeof(u8) * 8)) | HOST_MASK;
 
@@ -446,13 +444,13 @@ hash_netportnet6_uadt(struct ip_set *set, struct nlattr *tb[],
 {
        const struct hash_netportnet *h = set->data;
        ipset_adtfn adtfn = set->variant->adt[adt];
-       struct hash_netportnet6_elem e = { .cidr[0] = HOST_MASK,
-                                          .cidr[1] = HOST_MASK };
+       struct hash_netportnet6_elem e = { };
        struct ip_set_ext ext = IP_SET_INIT_UEXT(set);
        u32 port, port_to;
        bool with_ports = false;
        int ret;
 
+       e.cidr[0] = e.cidr[1] = HOST_MASK;
        if (unlikely(!tb[IPSET_ATTR_IP] || !tb[IPSET_ATTR_IP2] ||
                     !ip_set_attr_netorder(tb, IPSET_ATTR_PORT) ||
                     !ip_set_optattr_netorder(tb, IPSET_ATTR_PORT_TO) ||
index ec6f6d15dded36429ee235196b48e828f7842fbc..3e2317f3cf68625848edf5bc1d270b37d7d2af51 100644 (file)
@@ -490,14 +490,15 @@ list_set_list(const struct ip_set *set,
 {
        const struct list_set *map = set->data;
        struct nlattr *atd, *nested;
-       u32 i, first = cb->args[2];
+       u32 i, first = cb->args[IPSET_CB_ARG0];
        const struct set_elem *e;
 
        atd = ipset_nest_start(skb, IPSET_ATTR_ADT);
        if (!atd)
                return -EMSGSIZE;
-       for (; cb->args[2] < map->size; cb->args[2]++) {
-               i = cb->args[2];
+       for (; cb->args[IPSET_CB_ARG0] < map->size;
+            cb->args[IPSET_CB_ARG0]++) {
+               i = cb->args[IPSET_CB_ARG0];
                e = list_set_elem(set, map, i);
                if (e->id == IPSET_INVALID_ID)
                        goto finish;
@@ -522,13 +523,13 @@ list_set_list(const struct ip_set *set,
 finish:
        ipset_nest_end(skb, atd);
        /* Set listing finished */
-       cb->args[2] = 0;
+       cb->args[IPSET_CB_ARG0] = 0;
        return 0;
 
 nla_put_failure:
        nla_nest_cancel(skb, nested);
        if (unlikely(i == first)) {
-               cb->args[2] = 0;
+               cb->args[IPSET_CB_ARG0] = 0;
                return -EMSGSIZE;
        }
        ipset_nest_end(skb, atd);
index a3df9bddc4f76251a8722792d8e9f15478546ac1..62786a495cea481a3fd18d063b7174cdb36052ad 100644 (file)
@@ -704,7 +704,7 @@ static void ip_vs_dest_free(struct ip_vs_dest *dest)
        __ip_vs_dst_cache_reset(dest);
        __ip_vs_svc_put(svc, false);
        free_percpu(dest->stats.cpustats);
-       kfree(dest);
+       ip_vs_dest_put_and_free(dest);
 }
 
 /*
@@ -3820,10 +3820,6 @@ void __net_exit ip_vs_control_net_cleanup(struct net *net)
 {
        struct netns_ipvs *ipvs = net_ipvs(net);
 
-       /* Some dest can be in grace period even before cleanup, we have to
-        * defer ip_vs_trash_cleanup until ip_vs_dest_wait_readers is called.
-        */
-       rcu_barrier();
        ip_vs_trash_cleanup(net);
        ip_vs_stop_estimator(net, &ipvs->tot_stats);
        ip_vs_control_net_cleanup_sysctl(net);
index eff13c94498e068173c66b6a481a6264d038ffea..ca056a331e60b23f1b6e542fd640b2b996878335 100644 (file)
@@ -136,7 +136,7 @@ static void ip_vs_lblc_rcu_free(struct rcu_head *head)
                                                   struct ip_vs_lblc_entry,
                                                   rcu_head);
 
-       ip_vs_dest_put(en->dest);
+       ip_vs_dest_put_and_free(en->dest);
        kfree(en);
 }
 
index 0b8550089a2e580e7feba0723117f1c849048a39..3f21a2f47de1ffc6be71bcc93b6c35be98f8ae3a 100644 (file)
@@ -130,7 +130,7 @@ static void ip_vs_lblcr_elem_rcu_free(struct rcu_head *head)
        struct ip_vs_dest_set_elem *e;
 
        e = container_of(head, struct ip_vs_dest_set_elem, rcu_head);
-       ip_vs_dest_put(e->dest);
+       ip_vs_dest_put_and_free(e->dest);
        kfree(e);
 }
 
index 23e596e438b3fb4e51a97782c4cf00ad7d33af68..2f7ea7564044ccd0d8600a2b6688cb6603645588 100644 (file)
@@ -20,13 +20,18 @@ sctp_conn_schedule(int af, struct sk_buff *skb, struct ip_vs_proto_data *pd,
        sctp_sctphdr_t *sh, _sctph;
 
        sh = skb_header_pointer(skb, iph->len, sizeof(_sctph), &_sctph);
-       if (sh == NULL)
+       if (sh == NULL) {
+               *verdict = NF_DROP;
                return 0;
+       }
 
        sch = skb_header_pointer(skb, iph->len + sizeof(sctp_sctphdr_t),
                                 sizeof(_schunkh), &_schunkh);
-       if (sch == NULL)
+       if (sch == NULL) {
+               *verdict = NF_DROP;
                return 0;
+       }
+
        net = skb_net(skb);
        ipvs = net_ipvs(net);
        rcu_read_lock();
@@ -76,6 +81,7 @@ sctp_snat_handler(struct sk_buff *skb, struct ip_vs_protocol *pp,
 {
        sctp_sctphdr_t *sctph;
        unsigned int sctphoff = iph->len;
+       bool payload_csum = false;
 
 #ifdef CONFIG_IP_VS_IPV6
        if (cp->af == AF_INET6 && iph->fragoffs)
@@ -87,19 +93,31 @@ sctp_snat_handler(struct sk_buff *skb, struct ip_vs_protocol *pp,
                return 0;
 
        if (unlikely(cp->app != NULL)) {
+               int ret;
+
                /* Some checks before mangling */
                if (pp->csum_check && !pp->csum_check(cp->af, skb, pp))
                        return 0;
 
                /* Call application helper if needed */
-               if (!ip_vs_app_pkt_out(cp, skb))
+               ret = ip_vs_app_pkt_out(cp, skb);
+               if (ret == 0)
                        return 0;
+               /* ret=2: csum update is needed after payload mangling */
+               if (ret == 2)
+                       payload_csum = true;
        }
 
        sctph = (void *) skb_network_header(skb) + sctphoff;
-       sctph->source = cp->vport;
 
-       sctp_nat_csum(skb, sctph, sctphoff);
+       /* Only update csum if we really have to */
+       if (sctph->source != cp->vport || payload_csum ||
+           skb->ip_summed == CHECKSUM_PARTIAL) {
+               sctph->source = cp->vport;
+               sctp_nat_csum(skb, sctph, sctphoff);
+       } else {
+               skb->ip_summed = CHECKSUM_UNNECESSARY;
+       }
 
        return 1;
 }
@@ -110,6 +128,7 @@ sctp_dnat_handler(struct sk_buff *skb, struct ip_vs_protocol *pp,
 {
        sctp_sctphdr_t *sctph;
        unsigned int sctphoff = iph->len;
+       bool payload_csum = false;
 
 #ifdef CONFIG_IP_VS_IPV6
        if (cp->af == AF_INET6 && iph->fragoffs)
@@ -121,19 +140,32 @@ sctp_dnat_handler(struct sk_buff *skb, struct ip_vs_protocol *pp,
                return 0;
 
        if (unlikely(cp->app != NULL)) {
+               int ret;
+
                /* Some checks before mangling */
                if (pp->csum_check && !pp->csum_check(cp->af, skb, pp))
                        return 0;
 
                /* Call application helper if needed */
-               if (!ip_vs_app_pkt_in(cp, skb))
+               ret = ip_vs_app_pkt_in(cp, skb);
+               if (ret == 0)
                        return 0;
+               /* ret=2: csum update is needed after payload mangling */
+               if (ret == 2)
+                       payload_csum = true;
        }
 
        sctph = (void *) skb_network_header(skb) + sctphoff;
-       sctph->dest = cp->dport;
 
-       sctp_nat_csum(skb, sctph, sctphoff);
+       /* Only update csum if we really have to */
+       if (sctph->dest != cp->dport || payload_csum ||
+           (skb->ip_summed == CHECKSUM_PARTIAL &&
+            !(skb_dst(skb)->dev->features & NETIF_F_SCTP_CSUM))) {
+               sctph->dest = cp->dport;
+               sctp_nat_csum(skb, sctph, sctphoff);
+       } else if (skb->ip_summed != CHECKSUM_PARTIAL) {
+               skb->ip_summed = CHECKSUM_UNNECESSARY;
+       }
 
        return 1;
 }
index 3588faebe5298149b918614656ca8b6ee7d12e4e..cc65b2f42cd40283fab4ed5a24a82767d8190a89 100644 (file)
@@ -115,27 +115,46 @@ ip_vs_sh_get(struct ip_vs_service *svc, struct ip_vs_sh_state *s,
 }
 
 
-/* As ip_vs_sh_get, but with fallback if selected server is unavailable */
+/* As ip_vs_sh_get, but with fallback if selected server is unavailable
+ *
+ * The fallback strategy loops around the table starting from a "random"
+ * point (in fact, it is chosen to be the original hash value to make the
+ * algorithm deterministic) to find a new server.
+ */
 static inline struct ip_vs_dest *
 ip_vs_sh_get_fallback(struct ip_vs_service *svc, struct ip_vs_sh_state *s,
                      const union nf_inet_addr *addr, __be16 port)
 {
-       unsigned int offset;
-       unsigned int hash;
+       unsigned int offset, roffset;
+       unsigned int hash, ihash;
        struct ip_vs_dest *dest;
 
+       /* first try the dest it's supposed to go to */
+       ihash = ip_vs_sh_hashkey(svc->af, addr, port, 0);
+       dest = rcu_dereference(s->buckets[ihash].dest);
+       if (!dest)
+               return NULL;
+       if (!is_unavailable(dest))
+               return dest;
+
+       IP_VS_DBG_BUF(6, "SH: selected unavailable server %s:%d, reselecting",
+                     IP_VS_DBG_ADDR(svc->af, &dest->addr), ntohs(dest->port));
+
+       /* if the original dest is unavailable, loop around the table
+        * starting from ihash to find a new dest
+        */
        for (offset = 0; offset < IP_VS_SH_TAB_SIZE; offset++) {
-               hash = ip_vs_sh_hashkey(svc->af, addr, port, offset);
+               roffset = (offset + ihash) % IP_VS_SH_TAB_SIZE;
+               hash = ip_vs_sh_hashkey(svc->af, addr, port, roffset);
                dest = rcu_dereference(s->buckets[hash].dest);
                if (!dest)
                        break;
-               if (is_unavailable(dest))
-                       IP_VS_DBG_BUF(6, "SH: selected unavailable server "
-                                     "%s:%d (offset %d)",
-                                     IP_VS_DBG_ADDR(svc->af, &dest->addr),
-                                     ntohs(dest->port), offset);
-               else
+               if (!is_unavailable(dest))
                        return dest;
+               IP_VS_DBG_BUF(6, "SH: selected unavailable "
+                             "server %s:%d (offset %d), reselecting",
+                             IP_VS_DBG_ADDR(svc->af, &dest->addr),
+                             ntohs(dest->port), roffset);
        }
 
        return NULL;
index 2d3030ab5b619c1a354ec328acf2e85bfd6fd250..a4b5e2a435acb4c2fafaf26ccb4fce349a151f9a 100644 (file)
@@ -39,21 +39,23 @@ static struct ctl_table acct_sysctl_table[] = {
 unsigned int
 seq_print_acct(struct seq_file *s, const struct nf_conn *ct, int dir)
 {
-       struct nf_conn_counter *acct;
+       struct nf_conn_acct *acct;
+       struct nf_conn_counter *counter;
 
        acct = nf_conn_acct_find(ct);
        if (!acct)
                return 0;
 
+       counter = acct->counter;
        return seq_printf(s, "packets=%llu bytes=%llu ",
-                         (unsigned long long)atomic64_read(&acct[dir].packets),
-                         (unsigned long long)atomic64_read(&acct[dir].bytes));
+                         (unsigned long long)atomic64_read(&counter[dir].packets),
+                         (unsigned long long)atomic64_read(&counter[dir].bytes));
 };
 EXPORT_SYMBOL_GPL(seq_print_acct);
 
 static struct nf_ct_ext_type acct_extend __read_mostly = {
-       .len    = sizeof(struct nf_conn_counter[IP_CT_DIR_MAX]),
-       .align  = __alignof__(struct nf_conn_counter[IP_CT_DIR_MAX]),
+       .len    = sizeof(struct nf_conn_acct),
+       .align  = __alignof__(struct nf_conn_acct),
        .id     = NF_CT_EXT_ACCT,
 };
 
index 5d892febd64ca88d957d6eeffac5de12daeaff77..e22d950c60b3c2a6e4ce7112ce13b9cb54e14d7a 100644 (file)
@@ -1109,12 +1109,14 @@ void __nf_ct_refresh_acct(struct nf_conn *ct,
 
 acct:
        if (do_acct) {
-               struct nf_conn_counter *acct;
+               struct nf_conn_acct *acct;
 
                acct = nf_conn_acct_find(ct);
                if (acct) {
-                       atomic64_inc(&acct[CTINFO2DIR(ctinfo)].packets);
-                       atomic64_add(skb->len, &acct[CTINFO2DIR(ctinfo)].bytes);
+                       struct nf_conn_counter *counter = acct->counter;
+
+                       atomic64_inc(&counter[CTINFO2DIR(ctinfo)].packets);
+                       atomic64_add(skb->len, &counter[CTINFO2DIR(ctinfo)].bytes);
                }
        }
 }
@@ -1126,13 +1128,15 @@ bool __nf_ct_kill_acct(struct nf_conn *ct,
                       int do_acct)
 {
        if (do_acct) {
-               struct nf_conn_counter *acct;
+               struct nf_conn_acct *acct;
 
                acct = nf_conn_acct_find(ct);
                if (acct) {
-                       atomic64_inc(&acct[CTINFO2DIR(ctinfo)].packets);
+                       struct nf_conn_counter *counter = acct->counter;
+
+                       atomic64_inc(&counter[CTINFO2DIR(ctinfo)].packets);
                        atomic64_add(skb->len - skb_network_offset(skb),
-                                    &acct[CTINFO2DIR(ctinfo)].bytes);
+                                    &counter[CTINFO2DIR(ctinfo)].bytes);
                }
        }
 
index eea936b70d15407be5f69681de0a8ecf0fbcbc05..08870b859046fb17f40125b7e1f8faeb42d93061 100644 (file)
@@ -211,13 +211,23 @@ nla_put_failure:
 }
 
 static int
-dump_counters(struct sk_buff *skb, u64 pkts, u64 bytes,
-             enum ip_conntrack_dir dir)
+dump_counters(struct sk_buff *skb, struct nf_conn_acct *acct,
+             enum ip_conntrack_dir dir, int type)
 {
-       enum ctattr_type type = dir ? CTA_COUNTERS_REPLY: CTA_COUNTERS_ORIG;
+       enum ctattr_type attr = dir ? CTA_COUNTERS_REPLY: CTA_COUNTERS_ORIG;
+       struct nf_conn_counter *counter = acct->counter;
        struct nlattr *nest_count;
+       u64 pkts, bytes;
 
-       nest_count = nla_nest_start(skb, type | NLA_F_NESTED);
+       if (type == IPCTNL_MSG_CT_GET_CTRZERO) {
+               pkts = atomic64_xchg(&counter[dir].packets, 0);
+               bytes = atomic64_xchg(&counter[dir].bytes, 0);
+       } else {
+               pkts = atomic64_read(&counter[dir].packets);
+               bytes = atomic64_read(&counter[dir].bytes);
+       }
+
+       nest_count = nla_nest_start(skb, attr | NLA_F_NESTED);
        if (!nest_count)
                goto nla_put_failure;
 
@@ -234,24 +244,19 @@ nla_put_failure:
 }
 
 static int
-ctnetlink_dump_counters(struct sk_buff *skb, const struct nf_conn *ct,
-                       enum ip_conntrack_dir dir, int type)
+ctnetlink_dump_acct(struct sk_buff *skb, const struct nf_conn *ct, int type)
 {
-       struct nf_conn_counter *acct;
-       u64 pkts, bytes;
+       struct nf_conn_acct *acct = nf_conn_acct_find(ct);
 
-       acct = nf_conn_acct_find(ct);
        if (!acct)
                return 0;
 
-       if (type == IPCTNL_MSG_CT_GET_CTRZERO) {
-               pkts = atomic64_xchg(&acct[dir].packets, 0);
-               bytes = atomic64_xchg(&acct[dir].bytes, 0);
-       } else {
-               pkts = atomic64_read(&acct[dir].packets);
-               bytes = atomic64_read(&acct[dir].bytes);
-       }
-       return dump_counters(skb, pkts, bytes, dir);
+       if (dump_counters(skb, acct, IP_CT_DIR_ORIGINAL, type) < 0)
+               return -1;
+       if (dump_counters(skb, acct, IP_CT_DIR_REPLY, type) < 0)
+               return -1;
+
+       return 0;
 }
 
 static int
@@ -488,8 +493,7 @@ ctnetlink_fill_info(struct sk_buff *skb, u32 portid, u32 seq, u32 type,
 
        if (ctnetlink_dump_status(skb, ct) < 0 ||
            ctnetlink_dump_timeout(skb, ct) < 0 ||
-           ctnetlink_dump_counters(skb, ct, IP_CT_DIR_ORIGINAL, type) < 0 ||
-           ctnetlink_dump_counters(skb, ct, IP_CT_DIR_REPLY, type) < 0 ||
+           ctnetlink_dump_acct(skb, ct, type) < 0 ||
            ctnetlink_dump_timestamp(skb, ct) < 0 ||
            ctnetlink_dump_protoinfo(skb, ct) < 0 ||
            ctnetlink_dump_helpinfo(skb, ct) < 0 ||
@@ -530,7 +534,7 @@ ctnetlink_proto_size(const struct nf_conn *ct)
 }
 
 static inline size_t
-ctnetlink_counters_size(const struct nf_conn *ct)
+ctnetlink_acct_size(const struct nf_conn *ct)
 {
        if (!nf_ct_ext_exist(ct, NF_CT_EXT_ACCT))
                return 0;
@@ -579,7 +583,7 @@ ctnetlink_nlmsg_size(const struct nf_conn *ct)
               + 3 * nla_total_size(sizeof(u_int8_t)) /* CTA_PROTO_NUM */
               + nla_total_size(sizeof(u_int32_t)) /* CTA_ID */
               + nla_total_size(sizeof(u_int32_t)) /* CTA_STATUS */
-              + ctnetlink_counters_size(ct)
+              + ctnetlink_acct_size(ct)
               + ctnetlink_timestamp_size(ct)
               + nla_total_size(sizeof(u_int32_t)) /* CTA_TIMEOUT */
               + nla_total_size(0) /* CTA_PROTOINFO */
@@ -673,10 +677,7 @@ ctnetlink_conntrack_event(unsigned int events, struct nf_ct_event *item)
                goto nla_put_failure;
 
        if (events & (1 << IPCT_DESTROY)) {
-               if (ctnetlink_dump_counters(skb, ct,
-                                           IP_CT_DIR_ORIGINAL, type) < 0 ||
-                   ctnetlink_dump_counters(skb, ct,
-                                           IP_CT_DIR_REPLY, type) < 0 ||
+               if (ctnetlink_dump_acct(skb, ct, type) < 0 ||
                    ctnetlink_dump_timestamp(skb, ct) < 0)
                        goto nla_put_failure;
        } else {
index e595e07a759b2df8ccdce5069d1974ec6ccaa754..1e634615ab9d6e4b2a5c7db5872332c5a522f435 100644 (file)
@@ -26,16 +26,18 @@ connbytes_mt(const struct sk_buff *skb, struct xt_action_param *par)
        u_int64_t what = 0;     /* initialize to make gcc happy */
        u_int64_t bytes = 0;
        u_int64_t pkts = 0;
+       const struct nf_conn_acct *acct;
        const struct nf_conn_counter *counters;
 
        ct = nf_ct_get(skb, &ctinfo);
        if (!ct)
                return false;
 
-       counters = nf_conn_acct_find(ct);
-       if (!counters)
+       acct = nf_conn_acct_find(ct);
+       if (!acct)
                return false;
 
+       counters = acct->counter;
        switch (sinfo->what) {
        case XT_CONNBYTES_PKTS:
                switch (sinfo->direction) {
index 3dd0e374bc2b3952f845470c67e3a8f77391ff23..1ba67931eb1b168fabfa78790f5ed53713188f9d 100644 (file)
 #include <net/netfilter/nf_conntrack.h>
 #endif
 
-static void
-xt_socket_put_sk(struct sock *sk)
-{
-       if (sk->sk_state == TCP_TIME_WAIT)
-               inet_twsk_put(inet_twsk(sk));
-       else
-               sock_put(sk);
-}
-
 static int
 extract_icmp4_fields(const struct sk_buff *skb,
                    u8 *protocol,
@@ -216,7 +207,7 @@ socket_match(const struct sk_buff *skb, struct xt_action_param *par,
                                        inet_twsk(sk)->tw_transparent));
 
                if (sk != skb->sk)
-                       xt_socket_put_sk(sk);
+                       sock_gen_put(sk);
 
                if (wildcard || !transparent)
                        sk = NULL;
@@ -381,7 +372,7 @@ socket_mt6_v1_v2(const struct sk_buff *skb, struct xt_action_param *par)
                                        inet_twsk(sk)->tw_transparent));
 
                if (sk != skb->sk)
-                       xt_socket_put_sk(sk);
+                       sock_gen_put(sk);
 
                if (wildcard || !transparent)
                        sk = NULL;