Swift使用Embassy库进行数据采集:热点新闻自动生成器

亿牛云.png

概述

爬虫程序是一种可以自动从网页上抓取数据的软件。爬虫程序可以用于各种目的,例如搜索引擎、数据分析、内容聚合等。本文将介绍如何使用Swift语言和Embassy库编写一个简单的爬虫程序,该程序可以从新闻网站上采集热点信息,并生成一个简单的新闻摘要。

正文

Swift语言和Embassy库

Swift是一种现代的、高性能的、安全的、表达力强的编程语言,主要用于开发iOS、macOS、watchOS和tvOS等平台的应用。Swift也可以用于开发服务器端和命令行工具等应用。Swift支持多种编程范式,例如面向对象、函数式、协议导向等。Swift还提供了强大的错误处理机制,可以让开发者更容易地处理异常情况。

Embassy是一个基于Swift NIO的网络库,可以让开发者轻松地创建异步的网络应用。Embassy提供了一个事件循环,可以在单线程中处理多个网络请求和响应。Embassy还提供了一个HTTP客户端,可以发送HTTP请求并接收HTTP响应。Embassy还支持HTTPS、WebSocket、HTTP/2等协议。

爬虫程序的设计和实现

本文将使用Swift语言和Embassy库编写一个爬虫程序,该程序可以从新浪新闻网站上采集热点信息,并生成一个简单的新闻摘要。该程序的设计和实现如下:

  • 首先,创建一个事件循环,用于处理网络请求和响应。
  • 然后,创建一个HTTP客户端,用于发送HTTP请求并接收HTTP响应。
  • 接着,使用爬虫代理,通过代理IP池用于随机选择代理IP地址,以避免被目标网站屏蔽。
  • 然后,创建一个URL队列,用于存储待抓取的URL地址。
  • 接着,创建一个解析器,用于解析HTML文档,并提取出新闻标题、链接、时间和内容等信息。
  • 然后,创建一个生成器,用于根据新闻内容生成一个简单的新闻摘要。
  • 最后,创建一个主函数,用于启动事件循环,并从URL队列中取出URL地址,发送HTTP请求,并处理HTTP响应。

以下是该程序的代码实现(加上中文注释):

// 导入Embassy库
import Embassy// 创建一个事件循环
let loop = try SelectorEventLoop(selector: try KqueueSelector())// 创建一个HTTP客户端
let httpClient = DefaultHTTPClient(eventLoop: loop)// 创建一个URL队列
let urlQueue = ["https://news.sina.com.cn/",// ...
]// 创建一个解析器
func parse(html: String) -> (title: String, link: String, time: String, content: String)? {// 使用正则表达式或其他方法解析HTML文档,并提取出新闻标题、链接、时间和内容等信息// 如果解析成功,返回一个元组;如果解析失败,返回nil// 这里只是一个示例,实际的解析方法可能需要更复杂的逻辑let pattern = "<h1><a href=\"(.*?)\".*?>(.*?)</a></h1>.*?<span class=\"time\">(.*?)</span>.*?<p class=\"content\">(.*?)</p>"let regex = try? NSRegularExpression(pattern: pattern, options: [])if let match = regex?.firstMatch(in: html, options: [], range: NSRange(location: 0, length: html.count)) {let link = (html as NSString).substring(with: match.range(at: 1))let title = (html as NSString).substring(with: match.range(at: 2))let time = (html as NSString).substring(with: match.range(at: 3))let content = (html as NSString).substring(with: match.range(at: 4))return (title, link, time, content)} else {return nil}
}// 创建一个生成器
func generate(content: String) -> String {// 使用自然语言处理或其他方法根据新闻内容生成一个简单的新闻摘要// 这里只是一个示例,实际的生成方法可能需要更复杂的逻辑// 这里使用了一个简单的规则:取出新闻内容中的前三句话作为新闻摘要let sentences = content.components(separatedBy: ".")if sentences.count >= 3 {return sentences[0...2].joined(separator: ".") + "."} else {return content}
}// 创建一个主函数
func main() {// 启动事件循环loop.runForever { error inprint(error)}// 从URL队列中取出URL地址for url in urlQueue {// 使用代理IP池(参考 亿牛云 爬虫代理的域名、端口、用户名、密码,需要到官网注册并免费获取)let proxy = "http://16YUN:16IP@www.16yun.cn:7102"// 发送HTTP请求,并处理HTTP响应httpClient.request(method: "GET",url: url,headers: ["User-Agent": "Mozilla/5.0"],proxyURLString: proxy,body: nil) { response, error inif let error = error {print(error)} else if let response = response {print("Status code:", response.statusCode)print("Headers:", response.headers)var data = Data()response.body.drain { chunk, error inif let chunk = chunk {data.append(chunk)} else if let error = error {print(error)} else {// 将数据转换为字符串if let html = String(data: data, encoding: .utf8) {// 调用解析器,解析HTML文档,并提取出新闻信息if let news = parse(html: html) {print("Title:", news.title)print("Link:", news.link)print("Time:", news.time)print("Content:", news.content)// 调用生成器,根据新闻内容生成一个简单的新闻摘要let summary = generate(content: news.content)print("Summary:", summary)} else {print("Failed to parse HTML")}} else {print("Failed to convert data to string")}}}} else {print("No response")}}}
}// 调用主函数
main()

结语

本文介绍了如何使用Swift语言和Embassy库编写一个简单的爬虫程序,该程序可以从新闻网站上采集热点信息,并生成一个简单的新闻摘要。本文还提供了该程序的代码实现,并加上了中文注释。如果你对爬虫技术感兴趣,可以继续深入学习和探索。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/112434.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GCC优化相关

文章目录 优化选项博文链接 单独设置某段代码优化等级博文链接 优化选项 -O/-O0:无优化(默认)-O1:使用能减少目标文件大小以及执行时间并且不会使编译时间明显增加的优化。该模式在编译大型程序的时候会花费更多的时间和内存。在-O1 下&#xff0c;编译会尝试减少代码体积和代码…

Sarscape5.6版本中导入外部控制点、写入精密轨道文件与GACOS用于大气相位

SARscape中导入外部GCP点用于轨道精炼 https://www.cnblogs.com/enviidl/p/16524645.html在SAR处理时&#xff0c;有时会加入GCP点文件&#xff0c;SAR处理中用到的控制点分为两类&#xff1a;用于校正地理位置的几何控制点&#xff08;Geometry GCP&#xff09;和用于轨道精炼…

多测师肖sir_高级金牌讲师___ui自动化之selenium001

一、认识selenium &#xff08;1&#xff09;selenium是什么&#xff1f; a、selenium是python中的一个第三方库 b、Selenium是一个应用于web应用程序的测试工具&#xff0c;支持多平台&#xff0c;多浏览器&#xff0c;多语言去实现ui自动化测试&#xff0c;我们现在讲的Sel…

Atlassian Confluence OGNL表达式注入RCE CVE-2021-26084

影响版本 All 4.x.x versions All 5.x.x versions All 6.0.x versions All 6.1.x versions All 6.2.x versions All 6.3.x versions All 6.4.x versions All 6.5.x versions All 6.6.x versions All 6.7.x versions All 6.8.x versions All 6.9.x versions All 6.1…

RK3568笔记四:基于TensorFlow花卉图像分类部署

若该文为原创文章&#xff0c;转载请注明原文出处。 基于正点原子的ATK-DLRK3568部署测试。 花卉图像分类任务&#xff0c;使用使用 tf.keras.Sequential 模型&#xff0c;简单构建模型&#xff0c;然后转换成 RKNN 模型部署到ATK-DLRK3568板子上。 在 PC 使用 Windows 系统…

使用telegram机器人发送通知

文章目录 背景1 创建机器人2 与机器人的会话3 调用API让机器人发送消息 背景 在训练深度学习模型时&#xff0c;除了粗略估计外&#xff0c;很难预测训练何时结束。此外&#xff0c;我们可能还想随时随地查看训练情况&#xff0c;如果每次都需要登录回服务器的话并不方便。因此…

wordpress网站部署了ssl证书之后就排版混乱了

刚给自己的小网站部署了SSL证书&#xff0c;之后就发现https访问主页竟然乱套了。在手机上访问却是正常的。 直接上解决方案&#xff1a; 编辑网站根目录下的wp-config.php文件 在自定义文本处添加以下代码&#xff1a; if ($_SERVER[HTTP_X_FORWARDED_PROTO] https) $_SE…

PHP-FFMpeg 操作音视频

✨ 目录 &#x1f388; 安装PHP-FFMpeg&#x1f388; 视频中提取一张图片&#x1f388; 视频中提取多张图片&#x1f388; 调整视频大小&#x1f388; 视频添加水印&#x1f388; 生成音频波形&#x1f388; 音频转换&#x1f388; 给音频添加元数据&#x1f388; 拼接多个音视…

利用ArcGIS获取每一个冰川的中心位置经纬度坐标:要素转点和要素折点转点的区别

问题概述&#xff1a;下图是天山地区的冰川的分布&#xff0c;我们可以看到每一条冰川是一个面要素&#xff0c;要求得到每一个冰川&#xff08;面要素&#xff09;的中心经纬度坐标。 1.采用要素转点功能 选择工具箱的【数据管理工具】-【要素】-【要素转点】。完成之后再采用…

计算机基础知识36

数据库数据的演变史 ATM&#xff1a;1. 把数据都存在了文件中&#xff0c;文件名不规范 kevin|123 kevin123 kevin*123 2. 存储数据的文件越来越多&#xff0c;放在db文件夹&#xff0c;占用空间&#xff0c;查询存储不方便&#xff0c;速度慢 # 数据库软件能解…

lnmp架构部署Discuz论坛并配置重定向转发

lnmp架构部署Discuz论坛并配置重定向转发 文章目录 lnmp架构部署Discuz论坛并配置重定向转发环境说明部署Discuz论坛系统下载Discuz论坛系统代码包&#xff0c;官网地址如下&#xff1a;部署Discuz论坛系统步骤&#xff1a;解压安装Discuz源码包配置虚拟主机进入Discuz安装界面…

Janus: 逆向思维,以数据为中心的MoE训练范式

文章链接&#xff1a;Janus: A Unified Distributed Training Framework for Sparse Mixture-of-Experts Models 发表会议: ACM SIGCOMM 2023 (计算机网络顶会) 目录 1.背景介绍all-to-allData-centric Paradigm 2.内容摘要关键技术Janus细粒度任务调度拓扑感知优先级策略预取…

Android推送问题排查

针对MobPush智能推送服务在使用过程中可能出现的问题&#xff0c;本文为各位开发者们带来了针对MobPush安卓端推送问题的解决办法。 TCP在线推送排查 排查TCP在线收不到推送时&#xff0c;我们先通过客户端的RegistrationId接口获取设备的唯一标识 示例&#xff1a; MobPush…

代码随想录算法训练营第五十六天 | 1143.最长公共子序列、1035.不相交的线 、53. 最大子序和 动态规划

1143.最长公共子序列 视频讲解&#xff1a;动态规划子序列问题经典题目 | LeetCode&#xff1a;1143.最长公共子序列_哔哩哔哩_bilibili 代码随想录 &#xff08;1&#xff09;代码 1035.不相交的线 视频讲解&#xff1a;动态规划之子序列问题&#xff0c;换汤不换药 | Leet…

高数二阶导数例子

例子&#xff1a; 当 x 0 x 0 x0时 f(x) 1&#xff0c;当 x ≠ 0 x \ne 0 x0时&#xff0c; f ( x ) sin ⁡ x x f(x) \frac{\sin x}{x} f(x)xsinx​, 求f’(x)。 解&#xff1a; 二阶导数是导数的导数&#xff0c;按照定义为&#xff1a; f ′ ′ ( x ) lim ⁡ x →…

基于Java的垃圾分类管理系统设计与实现(源码+lw+部署文档+讲解等)

文章目录 前言具体实现截图论文参考详细视频演示为什么选择我自己的网站自己的小程序&#xff08;小蔡coding&#xff09; 代码参考数据库参考源码获取 前言 &#x1f497;博主介绍&#xff1a;✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师、全栈领域优质创作者&am…

安卓逆向之抽象函数public abstract的hook定位处理

一、抽象类调用过程 1、定义接口 public abstract class AbsNetHelper{public abstract int X(int x,int y); }2、其他类调用 public class f extends AbsNetHelper {public abstract int X(int x,int y){ return xy;} }二、如何HOOK 想hook调用AbsNetHelper类的X抽…

linux uboot kenerl filesystem关系

每次烧写都是uboot&#xff0c;image&#xff0c;roots&#xff0c;为什么不整一套&#xff0c;为什么分开 什么是uboot 什么是内核&#xff0c;三者为什么分开 如果你上网去搜一下&#xff0c;你会发现这样的答案 另注&#xff1a;本文含有大量的错误和意测成份&#xff0c…

Linux系统编程04

进程的概念 进程&#xff08;动态&#xff09;是一个正在运行的程序&#xff08;静态&#xff09; 多道程序设计缺点&#xff1a; &#xff08;1&#xff09;缺乏隔离&#xff0c;各个程序之间可以直接访问&#xff0c;使用对方的数据 &#xff08;2&#xff09;内存使用率低&a…

香港服务器在国内访问太慢怎么能提高?

​  一直以来&#xff0c;全球化业务需求的增长是跟随着蓬勃向上的互联网而发展的。有了网络&#xff0c;海外贸易就在鼠标的轻点中完成。而IDC市场中的香港服务器也因为免备案政策的特性&#xff0c;开始逐渐成为企业想要跨越地域壁垒而考虑的对象。但在使用过程中&#xff…