🚩【组件功能】:通过前后截取、通配符参数组合或纯正则方式提取源字符串中指定的文本内容
配置预览
配置说明
源内容 支持T或# 默认FLOW输入项
进行处理、匹配的对象,若为空,以上一个组件的输出为源内容。
提取方式
前后截取/通配符参数组合/纯正则
前字符串 支持T或#
指定结果字符串的前字符串,作为截取源内容的开始字符,需能准确定位到指定结果字符串,不可匹配到其他字符串,造成处理结果错误。若前字符串中包含可能变化的字符串,使用通配符[*]
替代。
后字符串 支持T或#
指定结果字符串的后字符串,作为截取源内容的结束字符,需能明确指定结果字符串的范围。若后字符串中包含可能变化的字符串,使用通配符[*]
替代。
匹配内容 支持T或#
使用[参数]
代表最终所需的指定结果字符串,用指定结果字符串的前后字符来定位参数,这个前后字符串的写法同前后截取
。若前后字符串中包含可能变化的字符串,使用通配符[*]
替代。
组合结果 支持T或#
[参数1]
[参数2]
[参数N]
等参数中对应的值是按照匹配内容
中的[参数]
的位置顺序来匹配。
纯正则表达式 支持T或#
纯正则方式,填写正则表达式从源内容提取结果,“(?<content>?)”表示匹配所有。需注意此方法用到了正则表达式相关知识,需了解正则表达式使用方法,才能熟练使用此功能。
提取结果
循环匹配提取多条:匹配源内容中所有符合截取规律的指定结果字符串,输出至list变量
仅提取第一条单条:仅匹配源内容中第一条符合截取规律的指定结果字符串,输出至string变量
忽略大小写
在执行提取方式时,通过此项确定是否忽略截取字符的大小写。
示例
前后截取
描述
获取文章https://www.huoyuyan.com/help/demo-pages/spider/demo.html
的html源码,获取文章发布时间
配置
① Http请求
请求https://www.huoyuyan.com/help/demo-pages/spider/demo.html
获取源码
② 获取文章发布时间,通过分析发布时间在源码中所处位置,确定前字符串为发布于
,前字符串在源码中唯一,不会匹配到错误字符,后字符串为</span>
,为发布时间结束字符串
③ 发布时间仅有一条,因此选择 仅提取第一条单条
输出结果
通配符参数组合
描述
组件获取文章https://www.huoyuyan.com/help/demo-pages/spider/demo.html
的html源码,提取img图片链接,并补全图片链接
配置
① Http请求
请求https://www.huoyuyan.com/help/demo-pages/spider/demo.html
获取源码
② 获取图片链接,图片有多张,通过分析多张图片共同的前后字符,确定匹配内容为<img src=".[参数]"
,因要补全链接,因此组合结果中需添加图片前缀为https://www.huoyuyan.com/help/demo-pages/spider[参数1]
③ 图片有多张,因此选择 循环匹配提取多条
④ 输出结果至List变量
输出结果
纯正则
描述
组件获取文章https://www.huoyuyan.com/help/demo-pages/spider/demo.html
的html源码,提取文章标题
配置
① Http请求
请求https://www.huoyuyan.com/help/demo-pages/spider/demo.html
获取源码
② 获取标题,运用正则表达式相关知识,确定纯正则表达式为<title>(?<content>[\s\S]*)</title>
③ 标题仅有一条,因此选择 仅提取第一条单条