利用代理IP爬取Zillow房产数据用于数据分析

 引言

最近数据分析的热度在编程社区不断攀升,有很多小伙伴都开始学习或从事数据采集相关的工作。然而,网站数据已经成为网站的核心资产,许多网站都会设置一系列很复杂的防范措施,阻止外部人员随意采集其数据。为了解决这个问题,使用代理IP来访问网站就是一种既简单又有效的解决方案。使用代理IP能够让访问网站的流量看起来是由多个用户发出,而不是来自同一用户,从而避免被网站识别为爬虫程序。今天就和大家分享如何使用代理IP爬取数据。


亮数据最佳商用代理IP网络服务商,极易配置,高级代理包括:机房代理、动态住宅、静态住宅ISP以及移动IP代理。icon-default.png?t=O83Ahttps://www.bright.cn/proxy-types/?utm_source=brand&utm_campaign=brnd-mkt_cn_csdn_yingjie6&promo=yingjie6

亮数据ISP代理服务

        目前市面上代理IP服务的厂家有很多,亮数据属于比较早开始做的一批。经过多年的技术积累,不论是IP质量、稳定性还有一些便捷工具上都有它独到之处。这次我们就选择它作为我们代理IP的服务平台。

 

        注册并登录账号之后,点击无限数据中心就可以开始购买服务了。下方的抓取浏览器、网络解锁器和搜索引擎爬虫SERP是亮数据为用户设计的低代码爬虫工具,大家可以按需取用。

 

        这里我们需要填写名称和IP数量,其他使用默认设置即可。这次由于我们采集的是境外网站,所以IP区域选择大陆以外提高访问成功率。

 

        配置好之后即可在控制台找到购买的业务,这是也会弹出一个帮助,为我们提供了预设的API接口和一段预置的代码。

 

        我们把它复制下来,方便后面编写爬虫。之后我们要到代理服务的设置中添加白名单,把我们本地的IP地址填进白名单中,就可以正常访问了。

 

最后我们使用生成的样例代码测试一下服务是否通畅。可以看到运行之后回显了代理IP的区域信息。

 

实战:爬取Zillow房屋租赁页面

        Zillow是一个美国的在线房地产信息平台,主要提供住宅买卖、租赁和投资信息。它包含了丰富的房数据和工具帮助用户了解市场、寻找合适的房源并做出明智的决策。首先我们先来观察一下目标网页。以纽约房价为例,我们搜索“new york”可以得到搜索结果。

 

        我们本次的目标就在右边这个区域。按F12观察页面结构,可以看到所有搜索结果都是result-list-container的div中的一个列表中,每个<li>代表一个信息卡片。

 

        展开<li>标签即可看到房源的地址和页面链接对应一个address标签和一个a标签。

 

        而价格和户型则分别位于一个property-card-price的span和另一个ul列表中。

 

        这里户型信息分散在ul的每个li中,要多次取出再拼接。顺便在网络中获得一些请求的头信息,等一下制作爬虫的时候会用到。

 

        分析完页面,我们就可以开始制作爬虫了。我们主要分两个阶段执行,首先下载网页,然后使用xpath提取出目标数据。我们这次的任务目标是房源的地址、价钱、页面链接和户型信息。

        首先我们配置一些全局参数。包括亮数据平台的API接口,前面我们拿到的请求头,目标URL。

proxy = {'http': 'http://brd-customer-hl_a0a48734-zone-zillow:1ps57ihiyeg1@brd.superproxy.io:22225','https': 'http://brd-customer-hl_a0a48734-zone-zillow:1ps57ihiyeg1@brd.superproxy.io:22225'}
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:128.0) Gecko/20100101 Firefox/128.0'}
url = 'http://www.zillow.com/new-york-ny/'

        之后我们通过get_page()函数发送请求并获取页面内容。首先构建一个opener并将代理信息包含进去。之后通过这个opener和前面定义的请求头发送请求,将响应结果转换为文本并返回。

def get_page(target_url):opener = urllib.request.build_opener(urllib.request.ProxyHandler(proxy))req = urllib.request.Request(target_url, headers=headers)res = opener.open(req).read()return res

之后通过parse_page()函数解析HTML并提取数据。首先将网页HTML字符串解析为一个lxml的Element对象。然后使用XPath查找所有<li>标签,这些标签即为每个房产的信息卡片。接下来在每个<li>中分别提取:每个房产的链接,路径为/article//a[@class="property-card-link"]/@href;房产地址,路径为/article//a[@class="property-card-link"]/address/text();房产价格,路径为/article//span[@data-test="property-card-price"]/text();房产的详细信息,包括房间数、面积等,路径为/article//div[@class="property-card-data"]/div[2]/ul/li。最后将提取的数据被放入result列表中,并返回。

def parse_page(html):root = etree.HTML(html)lis = root.xpath('//div[@class="search-page-list-header"]/ul/li')result = []for li in lis:link = li.xpath('/article//a[@class="property-card-link"]/@href')[0]address = li.xpath('/article//a[@class="property-card-link"]/address/text()')[0]price = li.xpath('/article//span[@data-test="property-card-price"]/text()')[0]details = li.xpath('/article//div[@class="property-card-data"]/div[2]/ul/li')detail = ""for d in details:detail += d.xpath('/b/text()')[0] + ';'result.append({"link": link, "address": address, "price": price, "detail": detail})return result

最后调用这两个函数获取结果。完整代码如下:

#!/usr/bin/env python
import urllib.request
from lxml import etreeproxy = {'http': 'http://brd-customer-hl_a0a48734-zone-zillow:1ps57ihiyeg1@brd.superproxy.io:22225','https': 'http://brd-customer-hl_a0a48734-zone-zillow:1ps57ihiyeg1@brd.superproxy.io:22225'}
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:128.0) Gecko/20100101 Firefox/128.0'}
url = 'http://www.zillow.com/new-york-ny/'def get_page(target_url):opener = urllib.request.build_opener(urllib.request.ProxyHandler(proxy))req = urllib.request.Request(target_url, headers=headers)res = opener.open(req).read()print(res)return resdef parse_page(html):root = etree.HTML(html)lis = root.xpath('//div[@class="search-page-list-header"]/ul/li')result = []for li in lis:link = li.xpath('/article//a[@class="property-card-link"]/@href')[0]address = li.xpath('/article//a[@class="property-card-link"]/address/text()')[0]price = li.xpath('/article//span[@data-test="property-card-price"]/text()')[0]details = li.xpath('/article//div[@class="property-card-data"]/div[2]/ul/li')detail = ""for d in details:detail += d.xpath('/b/text()')[0] + ';'result.append({"link": link, "address": address, "price": price, "detail": detail})return resultprint(parse_page(get_page(url)))

运行之后可以看到成功抓取到了数据。

 

总结

          通过上面的实战,我们可以看到代理服务可以大大提高爬虫的匿名性和效率。亮数据家的代理可以满足这两点需求。

        对开发者而言,亮数据代理以其简单易用的特性,大幅降低了技术门槛。 开发者可以快速上手,无需深入了解代理服务的底层技术细节,即可实现高效的数据抓取。这不仅加快了开发进程,也使得开发者能够将更多精力投入到数据分析和业务逻辑的构建上。

        对于采购者,亮数据代理提供的价格实惠和套餐灵活,满足了不同规模和需求的采购预算。 用户可以根据自己的实际需求选择合适的套餐,无论是初创企业还是大型机构,都能找到符合自身预算的解决方案。

促销来啦

亮数据重磅推出“免费试用优惠”及“首次充值优惠”

1)即日起,注册新用户,可以获得2+5共7美金免费试用产品的机会。

2)新客户首次充值优惠,充多少送多少,最高500美金。

3)数据中心代理和静态代理,最近做了大幅的价格和收费模式的调整,颇具竞争力,有兴趣的可以上公司主页了解详情。以上充值赠送活动,针对数据中心和静态代理同样有效!

智能助手,一路随行

        许多新手用户,刚开始接触亮数据的产品,对于代理及相关技术不熟悉,一时不知如何操作。我们的软件研发团队在产品里内嵌了ChatGPT,您可以直接以中文提出问题,获得相关的帮助。

        您可以在初始登录界面的上方,找到这个可以输入文字的小框,开始用AI查询并获得帮助。

 

        输入问题后,稍等片刻,就会弹出相应的帮助内容回答。这里我们以“如何选择代理服务”举例,可以看到系统处理后,自动弹出中英文双语的内容,并提供了相关的链接,供您进一步参考。

 

        亮数据为此次内容提供额外优惠:现在体验,可以享受以上所有的价格优惠的同时,再送15美金特别试用金!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/889620.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Kafka系列教程 - Kafka 生产者 -2

1. 生产者简介 不管是把 Kafka 作为消息队列系统、还是数据存储平台&#xff0c;总是需要一个可以向 Kafka 写入数据的生产者和一个可以从 Kafka 读取数据的消费者&#xff0c;或者是一个兼具两种角色的应用程序。 使用 Kafka 的场景很多&#xff0c;诉求也各有不同&#xff…

语音芯片赋能可穿戴设备:开启个性化音频新体验

在科技日新月异的今天&#xff0c;语音芯片与可穿戴设备的携手合作&#xff0c;正引领我们步入一个前所未有的个性化音频时代。这一创新融合&#xff0c;用户可以享受到更加个性化、沉浸式的音频体验。下面将详细介绍语音芯片与可穿戴设备合作的优点和具体应用。 1. 定制化音效…

1. Flink自定义Source

一. Source 简介 DataStream是Flink的低级API&#xff0c;用于进行数据的实时处理&#xff0c;Flink编程模型分为Source、Transformation、Sink三个部分&#xff0c;如下图所示。 默认Flink提供了大量的内置Source&#xff0c;常见的Source如下&#xff1a; 基于文件的Sour…

Yolov8界面可视化

本教程使用的是Pyside6 1、安装PySide6模块 pip install pyside6 安装完成之后&#xff0c;会有一个designer.exe可执行文件&#xff0c;打开之后&#xff0c;我们可以通过拖拉拽的方式来布局我们的界面。 designer.exe文件位置&#xff0c;一般位于当前虚拟环境下面的路径…

谷粒商城—分布式高级①.md

1. ELASTICSEARCH 1、安装elastic search dokcer中安装elastic search (1)下载ealastic search和kibana docker pull elasticsearch:7.6.2 docker pull kibana:7.6.2(2)配置 mkdir -p /mydata/elasticsearch/config mkdir -p /mydata/elasticsearch/data echo "h…

系统性能优化

一、概述 性能优化的目标&#xff1a;是提高系统或应用程序的响应时间、吞吐量、cpu、内存、磁盘IO、网络、流量、JVM、Tomcat、DB等方面的性能指标。 性能优化需要有一些技巧&#xff1a;对于整个产品或项目而言&#xff0c;比如可以从前端优化、后端优化、架构优化、高并发…

基于STM32设计的粮食仓库(粮仓)环境监测系统

一、前言 当前项目使用的相关软件工具、传感器源代码工程已经上传到网盘&#xff08;实时更新项目内容&#xff09;&#xff1a;https://ccnr8sukk85n.feishu.cn/wiki/QjY8weDYHibqRYkFP2qcA9aGnvb?fromfrom_copylink 1.1 项目开发背景 随着现代农业的发展和粮食储存规模的…

基于STM32的智能导盲/智能拐杖系统

基于STM32的智能导盲/智能拐杖系统 持续更新&#xff0c;欢迎关注!!! ** 基于STM32的智能导盲/智能拐杖系统 ** 据统计&#xff0c;全球视障人士的数量已经超过2.5亿&#xff0c;其中大部分人需要一种有效的辅助器具来帮助他们感知周围环境&#xff0c;安全行走。 近年来&am…

关于idea-Java-servlet-Tomcat-Web开发中出现404NOT FOUND问题的解决

在做web项目时&#xff0c;第一次使用servlet开发链接前端和后端的操作&#xff0c;果不其然&#xff0c;遇到了诸多问题&#xff0c;而遇到最多的就是运行项目打开页面时出现404NOT FOUND的情况。因为这个问题我也是鼓捣了好久&#xff0c;上网查了许多资料才最终解决&#xf…

【数据结构——栈与队列】链栈的基本运算(头歌实践教学平台习题)【合集】

目录&#x1f60b; 任务描述 相关知识 测试说明 我的通关代码: 测试结果&#xff1a; 任务描述 本关任务&#xff1a;编写一个程序实现链栈的基本运算。 相关知识 为了完成本关任务&#xff0c;你需要掌握&#xff1a; 初始化栈、销毁栈、判断栈是否为空、进栈、出栈、取栈…

与 Cursor AI 对话编程:2小时开发报修维修微信小程序

本文记录了如何通过与 Cursor AI 对话&#xff0c;全程不写一行代码的情况下&#xff0c;完成一个完整的报修小程序。整个过程展示了 AI 如何帮助我们&#xff1a; 生成代码 、解决问题、优化实现、完善细节。 先看一下效果图&#xff1a; 一、项目配置 首先我是这样和 AI 对…

基于windows环境使用nvm安装多版本nodejs

目录 前言 一、卸载node 二、nvm是什么&#xff1f; 三、nvm安装 1.官网下载 nvm 包 2. 安装nvm-setup.exe 3. 配置路径和下载镜像 4. 检查安装是否完成 四、 使用nvm安装node 五、修改npm默认镜像源为淘宝镜像 六、环境变量配置 1. 新建目录 2. 设置环境变量 七…

MVP模式的理解和实践

MVP&#xff08;Model-View-Presenter&#xff09;模式是一种用于组织代码的架构模式&#xff0c;主要用于用户界面的开发。它通过将应用程序的三个主要组件分开&#xff0c;提高了应用的可维护性和可测试性。本文将详细介绍MVP模式的理解和实践&#xff0c;并通过Java语言提供…

在Liunx中安装JDK、Tomcat、mysql、lrzsz、Nginx

一.软件安装方式 在Linux系统中&#xff0c;安装软件的方式主要有四种&#xff0c;这四种安装方式的特点如下&#xff1a; 二.安装JDK 上述我们介绍了Linux系统软件安装的四种形式&#xff0c;接下来我们就通过第一种(二进制发 布包)形式来安装JDK。 在/下创建soft目录&…

神经网络基础-初识神经网络

人工神经网络&#xff08; Artificial Neural Network&#xff0c; 简写为ANN&#xff09;也简称为神经网络&#xff08;NN&#xff09;&#xff0c;是一种模仿生物神经网络结构和功能的计算模型。人脑可以看做是一个生物神经网络&#xff0c;由众多的神经元连接而成。各个神经…

Python中PyTorch详解

文章目录 Python中PyTorch详解一、引言二、PyTorch核心概念1、张量&#xff08;Tensor&#xff09;1.1、创建张量1.2、张量操作 2、自动求导&#xff08;Autograd&#xff09;2.1、自动求导示例 三、构建神经网络1、使用nn模块2、优化器&#xff08;Optimizer&#xff09; 四、…

云服务器挖矿程序占用资源处理

云服务器挖矿程序占用资源处理 文章目录 云服务器挖矿程序占用资源处理top查看服务器后台运行情况关闭病毒删除病毒文件top 云服务器通过手机短信发送了多次预警&#xff0c;疑似出现挖矿程序&#xff0c;登录口令可能已经被暴力破解。处理方法是立即更改口令&#xff0c;然后处…

电脑文件夹打不开了,能打开但是会闪退,提示“找不到iUtils.dll”是什么原因?

电脑运行时常见问题解析&#xff1a;文件夹打不开、闪退及“找不到iUtils.dll”报错 在使用电脑的过程中&#xff0c;我们可能会遇到文件夹打不开、软件闪退或系统报错等问题&#xff0c;特别是提示“找不到iUtils.dll”的报错&#xff0c;更是让人困惑不已。今天我将为大家详…

【教程】让Jupyter支持打开CSV和Excel(xlsx)文件

转载请注明出处&#xff1a;小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你&#xff0c;欢迎[点赞、收藏、关注]哦~ 支持CSV JupyterLab本身支持直接打开CSV文件&#xff0c;因此只需要在JupyterLab的文件浏览器中找到CSV文件并双击它&#xff0c;就可以在JupyterLab的…

自动驾驶域控制器简介

汽车智能驾驶功能持续高速渗透&#xff0c;带来智能驾驶域控制器市场空间快速增 长。智驾域控制器是智能驾驶决策环节的重要零部件&#xff0c;主要功能为处理感知 信息、进行规划决策等。其核心部件主要为计算芯片&#xff0c;英伟达、地平线等芯 片厂商市场地位突出。随着消费…