-
导入需要的库:requests,BeautifulSoup,re,chardet
requests用于发送HTTP请求;BeautifulSoup用于解析HTML;re用于正则表达式;chardet用于识别网页编码。 -
定义函数,接受URL参数,并返回爬取的数据。
-
使用requests模块发送GET请求,并将返回的响应对象传给BeautifulSoup解析。
-
使用BeautifulSoup对象查找商品信息的标签,如商品名称,价格,评价等。
-
使用正则表达式提取商品信息。
-
将提取的信息保存到本地文件。