1 论文主要idea
- 完整性:没有进行特征提取,保留原始数据包;
- 固定大小:对不同类型的数据包进行统一格式编码,使得编码后的向量大小一致(见图3)
- 将一些与目标任务不一致的字段去掉,如操作系统指纹识别,就把IP源地址、目的地址、TCP源端口、目的端口等字段去掉。
2 我们的想法
- 操作系统指纹识别字段有效性分析:仔细研究操作系统指纹识别数据集的数据特征,分析哪些字段对操作系统指纹识别有效?
- 去掉无效字段后如何保证固定大小?
- 可否借鉴图像处理的方法,将最终编码处理为图像形式,利用图像识别算法来提高指纹识别率?
- 考虑数据包之间的时序,这个应该是New directions in automated traffic analysis没有考虑过的,如何对具有时序性质的多个数据包一起进行编码?