用Swift库写爬虫采集统计局公开数据

国家统计局公开的信息还是比较真实准确的,他可以给一个行业带来一些参考性意见。因此,有公司找上我,让我爬取一些行业数据,因为是老客户了也就没推辞,但是因为最近也比较忙,也就利用晚上时间加个班搞下。

在这里插入图片描述

首先,我们需要导入必要的库,包括SwiftSoupSwiftyJSONSwiftSoup是一个强大的库,用于在Swift中解析HTML和XML文档。SwiftyJSON是一个Swift版的JSON解析器,可以很容易地将JSON数据转换为Swift对象。

import SwiftSoup
import SwiftyJSON

然后,我们需要设置代理。在这个例子中,我们使用的是duoip的代理,端口是8000。

let proxyHost = "duoip"
let proxyPort = 8000
提取//IP  //  jshk.com.cn/mb/reg.asp?kefu=xjy&csdn
let proxy = CFNetwork.CFProxyType(type: CFNetwork.kCFProxyTypeHTTP, subType: 0)
let proxySettings = CFNetwork.CFProxySettings()
proxySettings.host = proxyHost
proxySettings.port = Int32(proxyPort)
CFNetwork.CFNetworkSetGlobalProxySettings(proxySettings)

接下来,我们需要获取统计局网站的HTML文档。我们将使用SwiftSoup来解析这个文档。

let url = URL(string: "http://data.stats.gov.cn/zhengcehuobisi/2017/index.html")
let task = URLSession.shared.dataTask(with: url!) { (data, response, error) inif let error = error {print("Error: \(error.localizedDescription)")return}guard let data = data else {print("Data not found")return}do {let doc: Document = try SwiftSoup.parse(data)// 我们在这里解析HTML文档} catch let error {print("Error parsing HTML: \(error.localizedDescription)")}
}
task.resume()

最后,我们需要使用SwiftyJSON来解析JSON数据。在这个例子中,我们假设JSON数据包含在HTML文档中的<script>标签中。

let scriptElement = doc.select("script").first()
if let scriptNode = scriptElement?.html, let json = try? JSON(data: scriptNode) {// 我们在这里解析JSON数据
}

这就是一个简单的Swift爬虫程序的基本框架。请注意,这只是一个基本的示例,实际的爬虫程序可能需要更复杂的逻辑,例如处理重定向,处理JavaScript,处理动态内容,等等。此外,爬虫行为可能受到网站的robots.txt文件的限制,因此在编写爬虫程序时,需要遵守网站的robots.txt文件的规则。

其实只要遵守网站规则,并且利用爬虫IP就能实现实时抓取信息,虽说只是一个基本的爬虫模版,但是相对于新手来说,只要稍微修改下就可以使用,而且爬虫模版兼容性非常好,适合随时拓展增加代码。当然了,如果有任何问题都可以评论区留言一起讨论。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/613584.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python学习从0到1 day1 你好 Python

我会在那腥臭腐朽的日子里熠熠生辉 ——24.1.11 1.第一个Python程序 安装python程序,输出第一个程序:你好,世界 print("Hello World"); 2.Python解释器 python解释器,是一个计算机程序,用来翻译python代码,并提交给计算机执行 功能:1.翻译代码 2.提交给计算机…

自动化测试框架搭建

思想&#xff1a; 1、基本目录的搭建 report:静态输出目录(报告或者日志) data&#xff1a;静态输入目录(可以存放Excel数据&#xff0c;被读取的一些数据) utils:实用方法层(这里存放的是项目的公共方法&#xff0c;一般拿到别…

汽车产线设备CAN总线一键刷写方案

汽车产线设备CAN总线一键刷写方案 一、概述 随着汽车工业的不断发展&#xff0c;CAN总线技术在汽车产线设备中得到了广泛应用。然而&#xff0c;在实际生产过程中&#xff0c;设备的软件升级和配置更改是不可避免的。为了提高生产效率&#xff0c;我们推出了一键刷写CAN总线解…

初识QT。

文章目录 前言一、QWidget1、了解内容main文件中的基本内容。.pro项目文件的内容。mywidget.h文件内容。命名规范和快捷键Qt助手 2、button按钮3、对象树4、信号和槽5、自定义信号和槽函数拓展 6、Lambda表达式7、练习 二、QMainWindow1、菜单栏和菜单项2、工具栏3、状态栏4、铆…

UKP3d和AutoPDMS管道出图线宽的设置

杭州的一家用户A截轴测图在群里&#xff0c;不料被杭州另一家细心的用户B捕捉到了&#xff0c;B带着疑惑&#xff0c;不相信的口吻问到&#xff1a;“优易抽出来的轴测图吗&#xff1f;我的单线图线很细&#xff0c;这个是怎么设置的&#xff1f;” 可惜&#xff0c;杭州用户A回…

SpringBoot 启动流程

一、SpringBoot 启动流程主要可以概括为以下几个步骤&#xff1a; 加载启动类 当 SpringBoot 项目启动时&#xff0c;会在当前工作目录下寻找有SpringBootApplication注解标识的类&#xff0c;并把这个类作为应用程序的入口点。如果找不到这样的主类&#xff0c;则会打印错误信…

Macos下修改Python版本

MacOS下修改Python版本 安装 查看本机已安装的Python版本&#xff1a;where python3 ~ where python3 /usr/bin/python3 /usr/local/bin/python3 /Library/Frameworks/Python.framework/Versions/3.12/bin/python3如果没有你想要的版本&#xff0c;去python官网下载安装包。…

科技云报道:“存算一体”是大模型AI芯片的破局关键?

科技云报道原创。 在AI发展历史上&#xff0c;曾有两次“圣杯时刻”。 第一次发生在2012年10月&#xff0c;卷积神经网络&#xff08;CNN&#xff09;算法凭借比人眼识别更低的错误率&#xff0c;打开了计算机视觉的应用盛世。 第二次是2016年3月&#xff0c;DeepMind研发的…

无公网ip如何随时随地远程查看本地群晖NAS存储的文件资源

文章目录 前言本教程解决的问题是&#xff1a;按照本教程方法操作后&#xff0c;达到的效果是前排提醒&#xff1a; 1. 搭建群晖虚拟机1.1 下载黑群晖文件vmvare虚拟机安装包1.2 安装VMware虚拟机&#xff1a;1.3 解压黑群晖虚拟机文件1.4 虚拟机初始化1.5 没有搜索到黑群晖的解…

Linux单主机模拟测试docker macvlan网络

在单台宿主机上使用Linux Bridge&#xff0c;桥接不同网络命名空间&#xff08;namespace&#xff09;的方式&#xff0c;模拟测试docker macvlan网络&#xff0c;记录如下&#xff1a; 参考 链接: Macvlan network driver链接: Docker 网络模型之 macvlan 详解&#xff0c;图…

HackTheBox - Medium - Linux - UpDown

UpDown UpDown 是一台中等难度的 Linux 机器&#xff0c;暴露了 SSH 和 Apache 服务器。在Apache服务器上&#xff0c;有一个Web应用程序&#xff0c;允许用户检查网页是否已启动。服务器上标识了一个名为“.git”的目录&#xff0c;可以下载以显示目标上运行的“dev”子域的源…

Neo4j备份

这里主要讲Neo4j在windows环境下如何备份&#xff0c;Linux环境同理 Neo4j恢复看这里:Neo4j恢复-CSDN博客 Step1:停服 关闭neo4j.bat console会话窗口即可 Step2: 备份 找到数据目录&#xff0c;并备份、压缩 copy即可 data - 20240108.7z Step3: 启动服务 进入命令行&am…

浏览器缓存引发的odoo前端报错

前两天&#xff0c;跑了一个odoo16项目&#xff0c;莫名其妙的前端报错&#xff0c; moment.js 报的错&#xff0c; 这是一个时间库&#xff0c;不是我自己写的代码&#xff0c;我也没做过任何修改&#xff0c;搞不清楚为什么报错。以为是odoo的bug&#xff0c;所以从gitee下载…

DevEco Studio for Mac:zsh: command not found: ohpm

一、检查是否配置有ohpm环境 1、新打开一个终端输入export&#xff0c;查看是否有 ohpm路径&#xff1a; 二、如果没有找到ohpm路径&#xff0c;开始配置环境 。 1、查找本机ohpm路径&#xff0c;并记录ohpm解释器的路径&#xff1a; 2、打开终端工具&#xff0c;执行命令 ech…

现代操作系统复习笔记【核心考点知识+重点复习题】

文章目录 一、核心考点基础知识第一章 概述1、操作系统的基本概念、基本功能2、分时系统、批处理系统、实时系统的主要特征3、用户接口、系统调用过程4、单到与多道程序技术5、操作系统虚拟机体系结构6、CPU工作模式&#xff1b;7、部分课后习题 第二章 进程与线程1、进程的基本…

谷粒学院项目redirect_uri 参数错误微信二维码登录

谷粒学院项目redirect_uri 参数错误_redirect_uri": "http%3a%2f%2fguli.shop%2fapi%2fuce-CSDN博客 修改本地配置 # &#xfffd;&#xfffd;&#xfffd;&#xfffd;˿&#xfffd; server.port8160 # &#xfffd;&#xfffd;&#xfffd;&#xfffd;&#x…

内存分区模型---C++

目录 内存分区模型1.1 程序运行前1.2 程序运行后1.2.1 new操作符 内存分区模型 C程序在执行时&#xff0c;将内存大方向划分为4个区域 代码区&#xff1a;存放函数体的二进制代码&#xff0c;由操作系统进行管理的&#xff1b;全局区&#xff1a;存放全局变量和静态变量以及常…

STL标准库与泛型编程(侯捷)笔记5

STL标准库与泛型编程&#xff08;侯捷&#xff09; 本文是学习笔记&#xff0c;仅供个人学习使用。如有侵权&#xff0c;请联系删除。 参考链接 Youbute: 侯捷-STL标准库与泛型编程 B站: 侯捷 - STL Github:STL源码剖析中源码 https://github.com/SilverMaple/STLSourceCo…

花为缘积萨伯爵奢侈品牌顺应趋势创新发展,重新定义行业新风向

随着中国高线市场进入第四消费时代&#xff0c;“可以买贵的&#xff0c;不能买贵了”成为消费者购物的指导方针。麦肯锡在《2023年麦肯锡中国消费者报告》中表示&#xff0c;当前消费者保守审慎的态度是追求性价比&#xff0c;试图掌握消费自主权&#xff0c;从而选择更明智的…

Jenkins-Pipeline语法总结大全

这里写目录标题 pipeline的组成1、pipeline最简单结构1.1、pipeline1.2、stages1.3、stage1.4、steps1.5、agent 2、post3、pipeline支持的命令3.1、environment3.2、tools3.3、input3.4、options3.5、parameters3.6、parallel3.7、triggers3.8、when pipeline的组成 1、pipel…