NAT44-ED会话与处理线程

NAT44-ED流表使用bihash创建,bihash类型为16_8,即16字节的key值和8字节的value值。默认情况下每个线程的会话数量为63K。bihash的哈希桶数量默认为32768。

int nat44_plugin_enable (nat44_config_t c)
{snat_main_t *sm = &snat_main;if (!c.sessions)c.sessions = 63 * 1024;sm->max_translations_per_thread = c.sessions;vlib_stats_set_gauge (sm->max_cfg_sessions_gauge, sm->max_translations_per_thread);sm->translation_buckets = nat_calc_bihash_buckets (c.sessions);vec_add1 (sm->max_translations_per_fib, sm->max_translations_per_thread);nat44_ed_db_init ();

bihash哈希桶translation_buckets的值要求为2的幂,以下函数根据63K流表项,计算buckets值。对于16_8类型bihash,文件bihash_16_8.h中定义每个page可保存4对KV值(#define BIHASH_KVP_PER_PAGE 4),理论上buckets的数量可设置为63K/4等于16128,这样63K表项完全平均分配在了16128个buckets桶中,每个桶中一个page,每个page有4个KV对。对于bihash,page为clib_bihash_value结构。

以下函数计算出的bucket值为最接近总数n_elts的一半值的2的幂值。理论上如果hash函数平均散列在这些桶(32768)之间,每个page中的KV值约等于2个,查询效率更高。

static_always_inline u32
nat_calc_bihash_buckets (u32 n_elts)
{n_elts = n_elts / 2.5;u64 lower_pow2 = 1;while (lower_pow2 * 2 < n_elts) {lower_pow2 = 2 * lower_pow2;}u64 upper_pow2 = 2 * lower_pow2;if ((upper_pow2 - n_elts) < (n_elts - lower_pow2)){if (upper_pow2 <= UINT32_MAX)return upper_pow2;}return lower_pow2;

nat流表的8字节value值,高4字节保存会话所在的worker线程索引;低4字节保存会话索引,即会话池(pool)中的索引。同一个会话保持在相同的worker线程处理,避免互锁问题,参见以下的handoff处理。

always_inline u32
ed_value_get_thread_index (clib_bihash_kv_16_8_t *value)
{         return value->value >> 32;
}         
always_inline u32
ed_value_get_session_index (clib_bihash_kv_16_8_t *value)
{      return value->value & ~(u32) 0;
}  

nat44流表

初始化全局的flow_hash结构,对于每个worker线程,初始化会话池。

static void
nat44_ed_db_init ()
{snat_main_t *sm = &snat_main;snat_main_per_thread_data_t *tsm;nat44_ed_flow_hash_init ();vec_foreach (tsm, sm->per_thread_data) {nat44_ed_worker_db_init (tsm, sm->max_translations_per_thread);}

初始化clib_bihash_16_8_t结构流哈希表flow_hash,所有worker线程都使用此流表,每个会话(session)由两个方向的流组成,所以,flow_hash的桶buckets的数量由以上三者的乘积组成。

这里是不是可以把两个方向的流量先做对称hash,减少一半的buckets数量?

static void
nat44_ed_flow_hash_init ()
{snat_main_t *sm = &snat_main;// we expect 2 flows per session, so multiply translation_buckets by 2clib_bihash_init_16_8 (&sm->flow_hash, "ed-flow-hash",clib_max (1, sm->num_workers) * 2 * sm->translation_buckets, 0);clib_bihash_set_kvp_format_fn_16_8 (&sm->flow_hash, format_ed_session_kvp);
}

对于每个worker线程,事先分配全部的流表,其所需内存此时已经被分配出来(pool_alloc)。

static void
nat44_ed_worker_db_init (snat_main_per_thread_data_t *tsm, u32 translations)
{dlist_elt_t *head;pool_alloc (tsm->per_vrf_sessions_pool, translations);pool_alloc (tsm->sessions, translations);

会话线程切换handoff

函数nat44_ed_get_in2out_worker_index根据6元组信息,包括报文的5元组信息(源/目的IP地址,源/目的端口号和协议号),以及fib索引(VRF),生成bihash表的key值(16字节),在全局流表flow_hash中查找value值(8字节),value中分别保存着会话索引和会话所在worker线程的索引。

报文结构b有值,表明处于数据转发路径。另外,对于分片报文,由于后续分片没有源和目的端口号信息,nat44插件需要开启报文重组。

u32 nat44_ed_get_in2out_worker_index (vlib_buffer_t *b, ip4_header_t *ip,  u32 rx_fib_index, u8 is_output)
{    snat_main_t *sm = &snat_main;u32 next_worker_index = sm->first_worker_index;clib_bihash_kv_16_8_t kv16, value16;u32 fib_index = rx_fib_index;if (b) {init_ed_k (&kv16, ip->src_address.as_u32, vnet_buffer (b)->ip.reass.l4_src_port, ip->dst_address.as_u32,vnet_buffer (b)->ip.reass.l4_dst_port, fib_index, ip->protocol);if (!clib_bihash_search_16_8 (&sm->flow_hash, &kv16, &value16)) {next_worker_index = ed_value_get_thread_index (&value16);vnet_buffer2 (b)->nat.cached_session_index =  ed_value_get_session_index (&value16);goto out;

相比于SNAT,对于DNAT,如下交换源和目的IP地址,以及源和目的端口号,生成新的key值,再次查询flow_hash流表。在命中之后,保存worker线程索引作为函数返回值;以及在vnet_buffer结构中缓存会话索引,留待其它node节点使用。

      // dst NATinit_ed_k (&kv16, ip->dst_address.as_u32,vnet_buffer (b)->ip.reass.l4_dst_port, ip->src_address.as_u32,vnet_buffer (b)->ip.reass.l4_src_port, rx_fib_index, ip->protocol);if (!clib_bihash_search_16_8 (&sm->flow_hash, &kv16, &value16)) {next_worker_index = ed_value_get_thread_index (&value16);vnet_buffer2 (b)->nat.cached_dst_nat_session_index = ed_value_get_session_index (&value16);goto out;}}

如果flow_hash流表中没有查询到value值,或者,对于控制平面,报文结构b为空,以下算法计算数据流的hash值,根据hash值,在所有worker线程中选择一个处理线程。

  hash = ip->src_address.as_u32 + (ip->src_address.as_u32 >> 8) +(ip->src_address.as_u32 >> 16) + (ip->src_address.as_u32 >> 24) +rx_fib_index + (rx_fib_index >> 8) + (rx_fib_index >> 16) + (rx_fib_index >> 24);if (PREDICT_TRUE (is_pow2 (_vec_len (sm->workers))))next_worker_index += sm->workers[hash & (_vec_len (sm->workers) - 1)];elsenext_worker_index += sm->workers[hash % _vec_len (sm->workers)];out:return next_worker_index;

节点snat_in2out_worker_handoff保证相同的会话在相同的worker线程处理。

VLIB_NODE_FN (snat_in2out_worker_handoff_node) (vlib_main_t * vm,vlib_node_runtime_t * node, vlib_frame_t * frame)
{return nat44_worker_handoff_fn_inline (vm, node, frame, 0, 1);
}
VLIB_REGISTER_NODE (snat_in2out_worker_handoff_node) = {.name = "nat44-in2out-worker-handoff",.vector_size = sizeof (u32),.sibling_of = "nat-default",.format_trace = format_nat44_handoff_trace,.type = VLIB_NODE_TYPE_INTERNAL,

在处理in2out报文,即还没有经过地址转换的报文时,节点nat44-in2out-worker-handoff的下一个处理节点为nat44-ed-in2out节点。如果接收到报文的worker线程,不等于报文所属会话所在的线程。通过frame_queue队列在worker之间传递,fq_in2out_index为frame_queue的索引。

static inline uword
nat44_worker_handoff_fn_inline (vlib_main_t * vm,vlib_node_runtime_t * node, vlib_frame_t * frame, u8 is_output, u8 is_in2out)
{u16 thread_indices[VLIB_FRAME_SIZE], *ti = thread_indices;snat_main_t *sm = &snat_main;u32 fq_index, thread_index = vm->thread_index;from = vlib_frame_vector_args (frame);n_left_from = frame->n_vectors;vlib_get_buffers (vm, from, b, n_left_from);if (is_in2out)fq_index = is_output ? sm->fq_in2out_output_index : sm->fq_in2out_index;

由以上nat44_ed_get_in2out_worker_index函数获取报文的处理worker线程索引,由函数vlib_buffer_enqueue_to_thread发送到对应的worker线程。

  while (n_left_from > 0) {ip0 = (ip4_header_t *) ((u8 *) vlib_buffer_get_current (b[0]) + iph_offset0);sw_if_index0 = vnet_buffer (b[0])->sw_if_index[VLIB_RX];rx_fib_index0 = ip4_fib_table_get_index_for_sw_if_index (sw_if_index0);if (is_in2out)ti[0] = nat44_ed_get_in2out_worker_index (b[0], ip0, rx_fib_index0, is_output);elseti[0] = nat44_ed_get_out2in_worker_index (b[0], ip0, rx_fib_index0, is_output);if (ti[0] == thread_index) same_worker++;else do_handoff++;b += 1; ti += 1; n_left_from -= 1;}n_enq = vlib_buffer_enqueue_to_thread (vm, node, fq_index, from,thread_indices, frame->n_vectors, 1);

以下在nat44插件使能时,创建了fq_in2out_index队列,队列的元素数量有frame_queue_nelts指定。

int
nat44_plugin_enable (nat44_config_t c)
{if (sm->num_workers > 1) {vlib_main_t *vm = vlib_get_main ();vlib_node_t *node;if (sm->fq_in2out_index == ~0) {node = vlib_get_node_by_name (vm, (u8 *) "nat44-ed-in2out");sm->fq_in2out_index = vlib_frame_queue_main_init (node->index, sm->frame_queue_nelts);}

在节点nat44-ed-in2out处理函数中,首先,根据报文信息初始化6元组结构lookup。

static inline uword
nat44_ed_in2out_fast_path_node_fn_inline (vlib_main_t *vm,vlib_node_runtime_t *node, vlib_frame_t *frame,int is_output_feature, int is_multi_worker)
{while (n_left_from > 0) {next[0] = vnet_buffer2 (b0)->nat.arc_next;ip0 = (ip4_header_t *) ((u8 *) vlib_buffer_get_current (b0) + iph_offset0);rx_sw_if_index0 = vnet_buffer (b0)->sw_if_index[VLIB_RX];tx_sw_if_index0 = vnet_buffer (b0)->sw_if_index[VLIB_TX];cntr_sw_if_index0 = is_output_feature ? tx_sw_if_index0 : rx_sw_if_index0;rx_fib_index0 = fib_table_get_index_for_sw_if_index (FIB_PROTOCOL_IP4, rx_sw_if_index0);lookup.fib_index = rx_fib_index0;lookup.proto = ip0->protocol;lookup.saddr.as_u32 = ip0->src_address.as_u32;lookup.daddr.as_u32 = ip0->dst_address.as_u32;lookup.sport = vnet_buffer (b0)->ip.reass.l4_src_port;lookup.dport = vnet_buffer (b0)->ip.reass.l4_dst_port;

之后根据上一个节点找到的会话索引,保存在cached_session_index变量中,在worker线程的会话池中找到会话结构s0。最后,对比lookup与会话结构中的6元组是否完全相等。

      /* there might be a stashed index in vnet_buffer2 from handoff or classify node, see if it can be used */if (is_multi_worker &&!pool_is_free_index (tsm->sessions, vnet_buffer2 (b0)->nat.cached_session_index)){s0 = pool_elt_at_index (tsm->sessions, vnet_buffer2 (b0)->nat.cached_session_index);if (PREDICT_TRUE (nat_6t_t_eq (&s0->i2o.match, &lookup)// for some hairpinning cases there are two "i2i" flows instead of i2o and o2i as both hosts are on inside|| (s0->flags & SNAT_SESSION_FLAG_HAIRPINNING && nat_6t_t_eq (&s0->o2i.match, &lookup)))) {/* yes, this is the droid we're looking for */lookup_skipped = 1;goto skip_lookup;}s0 = NULL;}

慢速处理路径

慢速路径不同于以上处理,例如对于新的数据流,不存在flow_hash中,在节点nat44-ed-in2out-slowpath中处理,核心函数为slow_path_ed。以静态映射nat为例,首先分配session结构,并且,初始化两个方向的元组结构,in2out和out2in,注意,这里out2in方向的报文还没有接收到。

static u32 slow_path_ed (vlib_main_t *vm, snat_main_t *sm, vlib_buffer_t *b, ...)
{snat_session_t *s = NULL;s = nat_ed_session_alloc (sm, thread_index, now, proto);tx_fib_index = get_tx_fib_index (rx_fib_index, r_addr);// static mappings->out2in.addr = outside_addr = sm_addr;s->out2in.port = outside_port = sm_port;s->in2out.addr = l_addr;s->in2out.port = l_port;s->proto = proto;s->in2out.fib_index = rx_fib_index;s->out2in.fib_index = tx_fib_index;s->flags |= SNAT_SESSION_FLAG_STATIC_MAPPING;

初始化session的i2o结构(nat_6t_flow_t),在查找session过程中,将用到i2o中的match成员。函数nat_ed_ses_i2o_flow_hash_add_del将session添加到全局flow_hash流表中。

  nat_6t_i2o_flow_init (sm, thread_index, s, l_addr, l_port, r_addr, r_port,rx_fib_index, proto); if (nat_ed_ses_i2o_flow_hash_add_del (sm, thread_index, s, 1)) {nat_elog_notice (sm, "in2out key add failed");goto error;}

根据i2o结构中的6元组信息生成key值,value值为worker线程索引,以及session在会话池中的索引,将kv结构添加到全局流表flow_hash中。

static_always_inline int
nat_ed_ses_i2o_flow_hash_add_del (snat_main_t *sm, u32 thread_idx,snat_session_t *s, int is_add)
{    snat_main_per_thread_data_t *tsm = vec_elt_at_index (sm->per_thread_data, thread_idx);clib_bihash_kv_16_8_t kv;{nat_6t_flow_to_ed_kv (&kv, &s->i2o, thread_idx, s - tsm->sessions);nat_6t_l3_l4_csum_calc (&s->i2o);}ASSERT (thread_idx == s->thread_index);return clib_bihash_add_del_16_8 (&sm->flow_hash, &kv, is_add);

其它

以下命令查看全局流表ed-flow-hash。

DBGvpp# show nat44 hash tables detail 
Hash table 'ed-flow-hash'0 active elements 0 active buckets0 free lists0 linear search bucketsheap: 1 chunk(s) allocatedbytes: used 6.50m, scrap 0
-------- thread 0 vpp_main --------
Hash table 'ed-flow-hash'0 active elements 0 active buckets0 free lists0 linear search bucketsheap: 1 chunk(s) allocatedbytes: used 6.50m, scrap 0
-------- hash table parameters --------
translation buckets: 32768

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/622796.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Express 应用生成器(脚手架)的安装与使用

1、简介 自动生成一个express搭建的项目结构 官网&#xff1a;Express 应用生成器 2&#xff0c;使用 2.1全局安装&#xff0c;使用管理员打开命令窗口 2.2、安装express # 全局安装express npm install -g express # 全局安装express脚手架 npm install -g express-gene…

Linux中的并发与并行概念解析

在现代计算环境中&#xff0c;特别是面对高性能计算、大规模服务部署以及实时数据处理等场景&#xff0c;对并发与并行的理解和运用显得至关重要。本文旨在深入探讨Linux操作系统中的并发与并行机制&#xff0c;并结合实践案例解析其技术细节。 并发&#xff08;Concurrency&a…

Socket编程-IO模型

1、首先IO模型的内容。 感觉可以简单理解为&#xff1a;我们写代码时&#xff0c;在基础的 IO 操作上做了一些其他的策略&#xff0c;根据策略的不同&#xff0c;一般有阻塞IO和非阻塞IO 1、阻塞IO 就是在操作的时候&#xff0c;比如网络通信中&#xff0c;某一线程使用下面这…

最大公约数和最小公倍数

1. 最大公约数 给定两个整数&#xff0c;求这两个数的最大公约数 暴力求解&#xff1a; 从较小的那个数开始&#xff0c;依次递减&#xff0c;直到某个数能够同时被整除 //暴力求解 int main() {int a 0;int b 0;scanf("%d %d", &a, &b);int i 0;int min …

8x8离散余弦的快速精确实现使用数据流单指令多数据扩展指令集进行转换MMX 说明书

1.https://www.cs.cmu.edu/~barbic/cs-740/ap922.pdf 2.FFmpeg: libavcodec/x86/fdct.c Source File 再学FDCT快速精确实现协议改写浮点FDCT, ffmpeg的dct使用的就是这个快速精确协议。

代码随想录 Leetcode142. 环形链表 II

题目&#xff1a; 代码(首刷看解析 2024年1月13日&#xff09;&#xff1a; class Solution { public:ListNode *detectCycle(ListNode *head) {if (head nullptr) return nullptr;ListNode* fast head;ListNode* slow head;while (true) {if(fast->next nullptr || fa…

git-生成证书、公钥、私钥、error setting certificate verify locations解决方法

解决方法 方法1-配置证书、公钥、私钥打开Git Bash设置名称和邮箱执行&#xff0c;~/.ssh执行&#xff0c;ssh-keygen -t rsa -C "这是你的邮箱"&#xff0c;如图&#xff1a;进入文件夹可以看到用记事本之类的软件打开id_rsa.pub文件&#xff0c;并且复制全部内容。…

apt一键升级

一键升级脚本 apt-update.sh #!/usr/bin/bash echo " deb https://mirrors.aliyun.com/ubuntu/ trusty main restricted universe multiverse deb-src https://mirrors.aliyun.com/ubuntu/ trusty main restricted universe multiverse deb https://mirrors.aliyun.com/…

LeetCode560. Subarray Sum Equals K

文章目录 一、题目二、题解 一、题目 给你一个整数数组 nums 和一个整数 k &#xff0c;请你统计并返回 该数组中和为 k 的子数组的个数 。 子数组是数组中元素的连续非空序列。 示例 1&#xff1a; 输入&#xff1a;nums [1,1,1], k 2 输出&#xff1a;2 示例 2&#xf…

社区团购配送超市与小程序的共赢之路

对于社区服务来说&#xff0c;搭建一个小程序可以提供更加便捷、高效的服务&#xff0c;提升用户体验。下面我们将详细介绍如何通过乔拓云第三方平台搭建一个社区团购小程序。 首先&#xff0c;你需要打开乔拓云第三方平台&#xff0c;这是一个专门为小程序开发提供的平台。在浏…

哪些代码是 Code Review 中的大忌?—— 以 Python 为例

Code Review 首要达成的结果是更好的可读性。 在此基础上才是进一步发现项目的 Bug、处理性能优化上的问题。 因为&#xff0c;编码是给人看的&#xff0c;不是给计算机&#xff08;Coding for human, NOT computer&#xff09;。 一. 滥用缩写命名 Overusing abbreviation …

windows 设置ip命令bat脚本

您可以使用以下命令创建一个批处理文件&#xff08;.bat&#xff09;来添加IP地址&#xff1a; echo off set ipaddress set subnetmask set gatewaynetsh interface ip set address name"以太网" sourcestatic address%ipaddress% mask%subnetmask% gateway%gatewa…

【LV12 DAY17-18 中断处理】

GPX1_1是外部中断9 EINT9 查询可知其中断ID是57 所以需要进行人为修正lr的地址 sub lr&#xff0c;lr&#xff0c;#4 //iqr异常处理程序 irq_handler: //IRQ异常后LR保存的地址是被IRQ打断指令的下一条再下一条指令的地址&#xff0c;所以我们需要人为进行修正一下sub LR,L…

泛微OA-Ecology8表单中填充用友U8数据

文章目录 1、需求及效果1.1 需求1.2 效果 2、思路及实现步骤2.1 思路2.2 实现步骤 3.结语 1、需求及效果 1.1 需求 在OA中填写表单中时候&#xff0c;比如物料号还需要从U8中查找后才能填写&#xff0c;非常的麻烦。想要在填写表单的时候可以搜索&#xff0c;并且带出其他的关…

如何查看串口号和波特率?

serialport引入后&#xff0c;设备也接上了&#xff0c;一直不知道串口号和波特率去哪里找&#xff0c;当时这个问题困扰了我很久 将设备的线插入到电脑上的插口(串口)桌面的【此电脑】上右击选择管理&#xff0c;打开【设备管理器】在【端口】中找到对应的端口&#xff0c;如果…

textContent和innerText有什么区别

textContent 和 innerText 都是用于获取或设置元素的文本内容的属性&#xff0c;但它们之间有一些区别。 textContent 属性返回元素的所有文本内容&#xff0c;包括元素内部的所有文本和注释节点。而 innerText 属性仅返回元素内部可见的文本内容&#xff0c;忽略任何被 CSS 隐…

【linux】软链接创建(linux的快捷方式创建)

软连接的概念 类似于windows系统中的快捷方式。有的文件目录很长或者每次使用都要找很不方便&#xff0c;于是可以用类似windows的快捷方式的软链接在home&#xff08;初始目录类似于桌面&#xff09;上创建一些软链接方便使用。 软链接的语法 ln -s 参数1 参数2 参数1&#…

智慧园区数字孪生智能可视运营平台解决方案:PPT全文82页,附下载

关键词&#xff1a;智慧园区解决方案&#xff0c;数字孪生解决方案&#xff0c;数字孪生应用场景及典型案例&#xff0c;数字孪生可视化平台&#xff0c;数字孪生技术&#xff0c;数字孪生概念&#xff0c;智慧园区一体化管理平台 一、基于数字孪生的智慧园区建设目标 1、实现…

在钉钉群通过机器人发送信息

在第三方API接口对接中&#xff0c;需要及时获取第三方接口请求结果情况&#xff0c;所以在代码中融合钉钉机器人&#xff0c;对请求的异常结果及时发送通知。 自定义机器人参考链接通用响应参数-封装API的错误码 public interface IErrorCode {long getCode();String getMess…

SpringMVC零基础入门 - 概述、入门搭建、PostMan的使用(常见数据类型的传输)、REST风格编程

SpringMVC零基础入门 - 概述、入门搭建、PostMan的使用(常见数据类型的传输)、REST风格编程 SpringMVC是隶属于Spring框架的一部分&#xff0c;主要是用来进行Web开发&#xff0c;是对Servlet进行了封装SpringMVC是处于Web层的框架&#xff0c;所以其主要的作用就是用来接收前…