python输入三个商品_用python3采集shopify站点商品

import requests,bs4,csv,os,re,time

'''采集商品url'''

def shopifylist(url):

while True:

try:

res=requests.get(url,timeout=30)

res.encoding = res.apparent_encoding

print('请求',url,'状态',res.status_code)

res.raise_for_status()#如果返回状态不是200，则抛出异常

break

except:

timeout=3

print('链接失败,等待',timeout,'秒重试')

time.sleep(timeout)

print('')

print('重新链接中')

print('链接顺畅，开始获取商品链接')

noStarchSoup=bs4.BeautifulSoup(res.text,'html.parser')#html.parser 指定解析器

url=noStarchSoup.select('.product-card.sc-pb-element')

for i in range(len(url)):

imgurl='https://tribalhollywood.com'+url[i].get('href')

print('获取产品url')

shopify(imgurl,site)#调用采集内容方法

print('\n')

'''采集商品url结束'''

'''采集商品内容开始'''

def shopify(url,site):

print('开始请求产品页面',url)

while True:

try:

res=requests.get(url,timeout=30)

res.encoding = res.apparent_encoding

print('成功请求商品页面:',res.status_code)

res.raise_for_status()#如果下载发生问题，就抛出异常

break

except:

print('请求商品页面',url,'失败，重新链接')

noStarchSoup=bs4.BeautifulSoup(res.text,'html.parser')

#匹配class属性为‘wc-block-grid__product-title’的内容

name=noStarchSoup.select('.product-single__title')

name=name[0].getText()

price=noStarchSoup.select('.product-single__price')

price=price[0].getText()

price=re.sub(' ','',price)

price=re.sub('\n','',price)

#特别注意class="rte product-single__description"只需要product-single__description

des=noStarchSoup.select('.product-single__description')

des=des[0].getText()

des=re.sub('Hollywood','customadd.com',des)#替换版权信息

img=noStarchSoup.select('#ProductThumbs-product-template img')

if img==[]:

img=noStarchSoup.select('.sc-pb-element1')

l=img[0].get('src')

l='http:'+l

l=re.sub('_960x','',l)

else:

l=[]

for i in range(len(img)):

imgurl=img[i].get('src')

imgurl=re.sub('_160x160','',imgurl)

l.append('https:'+imgurl)

l=','.join(l)

fileHeader=['标题','产品url','价格','描述','图片']

file=[name,url,price,des,l]

#文件存储的地方，文件夹需要事先创建，并指定文件的格式为utf-8

while True:

try:

csvFile=open(site,'a',encoding='utf-8')

break

except:

print('')

print(site+'文件写入失败，重试中。。。。。')

time.sleep(5)

size=os.path.getsize(site)#判断文件大小，如果文件大于0则表示文件有内

writer=csv.writer(csvFile)

if size==0:

writer.writerow(fileHeader)

writer.writerow(file)

csvFile.close()

else:

writer.writerow(file)

csvFile.close()

print('采集成功！')

'''采集内容结束'''

#urlpro=str(input('输入要采集的商品列表'))

urlpro='https://www.tribalhollywood.com/collections/mens-necklaces'

site='D:\Backup\桌面\python3\mens-necklaces1.csv'

nt=['我不是空的']

n=1

while nt!=[]:

url=urlpro+'?page='+str(n)

prourl=shopifylist(url)#调用采集列表方法

print('成功采集',n,'页')

n=n+1

res=requests.get(url)

res.raise_for_status()

noStarchSoup=bs4.BeautifulSoup(res.text,'html.parser')

nt=noStarchSoup.select('.next')

print('全部采集完毕！！')

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/513554.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

python输入三个商品_用python3采集shopify站点商品

相关文章

好代码实践：基于Redis的轻量级分布式均衡消费队列

浅析低功耗广域网及在智慧城市中的应用

python启动http服务_Python命令开启http.server服务器

rocketmq怎么保证数据不会重复_RocketMQ保证信息有序性和防止重复

云效Codeup代码评审中的代码协同

代码安全无忧—云效Codeup代码加密技术发展之路

基于python的文件加密传输_基于python实现文件加密功能

杀死 Oculus ，Facebook 改名 Meta ，是押注元宇宙还是“金蝉脱壳”？

java sdp_[java,SDP] java 7 SDP 技术/Socket Direct Protocol 2

百信银行基于 Apache Hudi 实时数据湖演进方案

如何做一场高质量的分享

python beautifulsoup4_Python之Beautiful Soup 4使用实例

RTE2021，实时互动技术的进化与蝶变

Java编程技巧之单元测试用例编写流程

KubeVela + KEDA：为应用带来“与生俱来”的弹性伸缩能力

mysql行转列函数_一个小知识点-Hive行转列实现Pivot

java类的理解_Java类该怎么理解？

安全之心：一文读懂可信计算

国内顶级AI赛事再启程，第三届“中国人工智能大赛”聚焦算法治理、深度伪造与网络安全

看阿里云如何用云上技术创新，帮助哈啰单车实现智能数据收治