文章目录
- 1 背景
- 2 参考知识
- 2.1 grep
- 2.2 HTML基础语言标签
- 3 解决方案
1 背景
在html中是一堆表格、图片、文字什么的,想从表格中提取关键词为“GJC”后对应的数字,怎么办呢?
逐个打开html文件,“ctrl+F”搜一下,然后复制粘贴?数量少可以的,数量多就不ok了。
2 参考知识
2.1 grep
grep命令中的-A
参数
-A NUM,--after-context=NUM
列出符合搜索行之后的NUM行,使用示例如下:
$ grep -A 1 panda file
从文件 file 中搜索有 panda 字样的行,并同时显示该行的后 1 行。
2.2 HTML基础语言标签
<tr></tr>、<td></td>
属于HTML语言标签,含义如下:
- tr 标签 ,代表HTML表格中的一行,tr标签是成对出现的,以开始,以结束。
- td 标签 , 代表HTML表格中的一个单元格,td标签是成对出现的,以开始,以结束。
3 解决方案
输出:当前所有文件夹下的所有html文件中,GJC所在行 及后面3行
grep GJC -A 3 */*.html
如果输出内容比较多,可以将终端中输出的所有内容复制粘贴到excel中,善用数据-分列/排序功能
分列中分隔符号-空格(连续分隔符号视为单个处理)
排序中可以看看根据哪个列来操作