最近一位同事提出要采集alibaba上的公司信息,关键词是工业加湿器。
主管把任务分配给我后,推荐了一款软件,火车采集器(真心不是做广告)。
研究了两天,还算简单,除了正则表达式似懂非懂,其他都还好,也成功的采集了alibaba的信息。
做点笔记:
1、可视化Xpath虽然很好用,但alibaba的页面却不支持,原因不明,报错。
2、多级网址获取,会从上往下一条一条的遍历搜索,太多条的话数据量很大。
3、建议用前后提取,html代码简单明了,用firebug查看方便。
4、前后截取不一定要是标签,也可以是标签内的文字。
5、标签编辑-数据处理(添加-HTML标签排除很有用),建议全选,可以去除很多空格。
6、同样,数据处理中的替换也很有用。
7、内容过滤,可以用来排除重复的公司,设置公司名的标签不重复和非空。
8、尽可能用多页管理来进行生成分页,而不是直接进行采集,速度要快很多很多。。
9、发布内容(导出内容),免费版不让导出excel,可以在任务上右键,打开Data下任务文件夹,然后用数据库文件导出excel。