python 知乎 合并 pdf_一键下载:将知乎专栏导出成电子书

原标题:一键下载:将知乎专栏导出成电子书

老是有同学问,学了 Python 基础后不知道可以做点什么来提高。今天就再用个小例子,给大家讲讲,通过 Python和爬虫,可以完成怎样的小工具。

在知乎上,你一定关注了一些不错的专栏(比如 Crossin的编程教室)。但万一有那么一天,你喜欢的答主在网上被人喷了,一怒之下删帖停更,这些好内容可就都看不到了。尽管这是小概率事件(可也不是没发生过),但未雨绸缪,你可以把关注的专栏导出成电子书,这样既可以离线阅读,又不怕意外删帖了。

只是需要工具和源码的可以拉到文章底部获取代码。

【最终效果】

运行程序,输入专栏的 id,也就是网页地址上的路径:

之后程序便会自动抓取专栏中的文章,并按发布时间合并导出为 pdf文件。

【实现思路】

这个程序主要分为三个部分:

抓取专栏文章地址列表

抓取每一篇文章的详细内容

导出 PDF1. 抓取列表

在之前的文章 爬虫必备工具,掌握它就解决了一半的问题 中介绍过如何分析一个网页上的请求。按照其中的方法,我们可以通过开发者工具的 Network 功能找出专栏页面获取详细列表的请求:

https://www.zhihu.com/api/v4/columns/crossin/articles

观察返回结果中发现,通过 next 和 is_end 的值,我们能获取下一次列表请求的地址(相当于向下滚动页面的触发效果)以及判断是否已经拿到所有文章。

而 data 中的 id、title、url 就是我们需要的数据。因为 url 可以通过 id 拼出,所以我们的代码里未保存它。

使用一个 while 循环,直到抓取完所有文章的 id 和 title,保存在文件中。

whileTrue: resp = requests.get(url, headers=headers) j = resp.json() data = j[ 'data']

forarticle indata:

# 保存id和title(略)ifj[ 'paging'][ 'is_end']:

breakurl = j[ 'paging'][ 'next']

# 按 id 排序(略)

# 导入文件(略)

2. 抓取文章

有了所有文章的 id / url,后面的抓取就很简单了。文章主体内容就在 Post-RichText 的标签中。

需要稍微花点功夫的是一些文本上的处理,比如原页面的图片效果,会加上 no 标签和 data-actual、src="data:image 这样的属性,我们为了正常显示得把它们去掉。

url = 'https://zhuanlan.zhihu.com/p/'+ idhtml = requests.get(url, headers=headers).textsoup = BeautifulSoup(html, 'lxml')content = soup.find(class_= 'Post-RichText').prettify()

# 对content做处理(略)

withopen(file_name, 'w') asf: f.write(content)

到这一步,就已经完成了所有内容的抓取,可以在本地阅读了。

3. 导出 PDF

为了更便于阅读,我们使用 wkhtmltopdf+ pdfkit,将这些 HTML 文件打包成 PDF。

wkhtmltopdf 是一个 HTML 转 PDF 的工具,需要单独安装,具体可参考它的官网介绍。

https://wkhtmltopdf.org/downloads.html

https://github.com/JazzCore/python-pdfkit/wiki/Installing-wkhtmltopdf

pdfkit 是对此工具封装的 Python 库,可从 pip 安装:

pip install pdfkit

使用起来很简单:

# 获取htmls文件名列表(略)

pdfkit.from_file(sorted(htmls), 'zhihu.pdf')

这样就完成了整个专栏导出。

不仅是知乎专栏,几乎大多数信息类网站,都是通过 1.抓取列表2.抓取详细内容这两个步骤来采集数据。因此这个代码稍加修改,即可用在很多别的网站上。只不过有些网站需登录后访问,那么就需要对 headers里的 cookie信息进行设置。此外,不同网站的请求接口、参数、限制都不尽相同,所以还是要具体问题具体分析。

关于这些爬虫的开发技巧,都可以在我们的爬虫实战课程中学到。有需要的请在公众号里回复 爬虫实战

【源码下载】

获取知乎专栏下载器源码,请在公众号(Crossin的编程教室)里回复关键字 知乎

除了代码外,本专栏打包好的 PDF也一并奉上,欢迎阅读与分享。

crossincode.com返回搜狐,查看更多

责任编辑:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/507184.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

php语句过滤掉html标签_php过滤html标签

标签&#xff1a;php自带函数strip_tagsecho strip_tags("hello world! ");自定义函数&#xff1a;function filterhtml($str) {$streregi_replace("*[^<>]*>", , $str);$strstr_replace(" ", , $str);$strstr_replace("n", …

无符号有符号乘法_刘帅嵌入式系统-乘法指令

ARM有两类乘法指令&#xff1a;一类为32位的乘法指令&#xff0c;即乘法操作的结果为32位&#xff1b;另一类为64位的乘法指令&#xff0c;即乘法操作的结果为64位。两类指令共有以下6条。MUL&#xff1a;32位乘法指令MLA&#xff1a;32位带加数的乘法指令SMULL&#xff1a;64位…

php导出csv_原生PHP实现导出csv格式Excel文件的方法示例【附源码下载】

本文实例讲述了原生PHP实现导出csv格式Excel文件的方法。分享给大家供大家参考&#xff0c;具体如下&#xff1a;效果图源码分析index.phprequire_once "./Export.php";//测试数据$headerList [列名1,列名2,列名3];$data [[值1,值2,值3],[值11,值22,值33],[值111,值…

python 颜色_如何使用python中matplotlib库分析图像颜色

用代码分析图像可能很困难。你如何使代码“理解”图像的上下文?通常&#xff0c;使用AI分析图像的第一步 是找到主要颜色。在如何使用python中matplotlib库分析图像颜色中&#xff0c;我们将使用matplotlib的 image类在图像中找到主色 。查找主导色也是你可以使用第三方API进行…

python自动登录校园网_免费自动登录国科大校园网python脚本

UCAS-Network-LoginA python program that helps you log in UCAS network for free. 免费自动登录国科大校园网声明&#xff1a;本软件不会收集你的任何信息&#xff0c;即使保存密码也都是保存在本地。软件编写思想是模拟浏览器填充用户名和加密后的密码&#xff0c;发送认证…

php的时间函数,PHP 常用时间函数

PHP语言中的函数有许多种&#xff0c;各种应用方式不同&#xff0c;实现的功能也不尽相同。我们在本文种为大家总结了PHP时间戳函数&#xff0c;希望能作为参考学习对象。一&#xff0c;PHP时间戳函数获取指定日期的unix时间戳 strtotime(”2009-1-22″) 示例如下&#xff1a;e…

python画彩虹爱心_用python画一颗彩虹色爱心送给女朋友!!!

1.准备工作&#xff1a;代码中用到numpy和matplotlib&#xff0c;需要先安装这两个库pip3 install numpypip3 install matplotlib会用到的数学公式&#xff1a;(x^2y^2-1)^3x^2*y^302.编写代码&#xff1a;importnumpy asnpimportmatplotlib.pyplot aspltx_coords np.linspace…

智能解析php源码,PHP源码:XyPlayer在线影视v3.8二次智能解析源码

版本更新&#xff1a;注意&#xff1a; 升级完成后请务必清空缓存,包括浏览器缓存和视频缓存;2019.3.24更新* 修复v.php调用失败的bug;* 优化播放调用&#xff0c;修复若干bug;* 异常处理优化&#xff0c;使用fundebug插件收集异常信息;* 播放器优化,发生异常会调用H5播放器解决…

cnn 准确率无法提升_清华类脑芯片再登Nature: 全球首款基于忆阻器的CNN存算一体芯片...

传统计算架构中计算与存储在不同电路单元中完成&#xff0c;造成大量数据搬运功耗增加和额外延迟&#xff0c;被认为是冯诺依曼计算架构的核心瓶颈。人类的大脑却并非如此&#xff0c;而是直接在记忆体里计算。被认为具有「存算一体」潜力的忆阻器&#xff0c;因而成为类脑计算…

php artisan 计划任务,Laravel 定时任务 任务调度 可手动执行

1、创建一个命令php artisan make:command TestCommand执行成功后会提示&#xff1a;Console command created successfully.生成了一个新的命令文件App\Console\Commands\TestCommand.phpuse Illuminate\Console\Command;classTestCommand extends Command{/*** The name and …

python中定义变量为啥要用下划线_关于python中带下划线的变量和函数 的意义

核心风格&#xff1a;避免用下划线作为变量名的开始。因为下划线对解释器有特殊的意义&#xff0c;而且是内建标识符所使用的符号&#xff0c;我们建议程序员避免用下划线作为变量名的开始。一般来讲&#xff0c;变量名_xxx被看作是“私有 的”&#xff0c;在模块或类外不可以使…

php加密码访问,怎么给一个PHP密码访问页面加超链接

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼$password "1234"; // 这里是密码$p "";if(isset($_COOKIE["isview"]) and $_COOKIE["isview"] $password){$isview true;}else{if(isset($_POST["pwd"])){if($_POST["…

pythonsearch结果_python 查询Elasticsearch的小例子

#!/usr/bin/env python# -*- coding: utf-8 -*-from sfo_common.agent import Agentfrom sfo_common.import_common import *class ElkLog(object):"""处理ELK数据类"""def __init__(self):passdef get_elk_log_json(self):"""通…

matlab程序svm四等级分类,支持向量机(SVM)多分类matlab程序代码

%模型训练及数据整理model_12svmtrain(class_12_label,class_12_value);model_13svmtrain(class_13_label,class_13_value);model_14svmtrain(class_14_label,class_14_value);model_23svmtrain(class_23_label,class_23_value);model_24svmtrain(class_24_label,class_24_valu…

python requests form data_python使用requests发送multipart/form-data请求数据

def client_post_mutipart_formdata_requests(request_url,requestdict):#功能说明&#xff1a;发送以多部分表单数据格式(它要求post的消息体分多个部分(fields)发送&#xff0c;每个fields之间用自定义的且唯一的随机字符串boundary进行分割。)请求到远程服务器&#xff0c;并…

oracle 几个字段中某个字段大于0其他字段不再进行统计?_如何深入理解MySQL 8.0直方图?...

MySQL8.0 新功能直方图&#xff0c;继承于Oracle &#xff0c;MairaDB的实现方式。 那下面从mysql角度认识下&#xff0c;直方图是什么。先看下官方直方图的实现方式。 从上图上可以看到原来是ANALYZE命令。先了解一下MySQL里 ANALYZE命令到底有什么用。ANALYZE在MySQL里提交一…

Apache java文件比对,Java Apache Commons的字符串比较

1&#xff64;使用Apache Commons的equals()实现字符串比较StringUtils类的equals()方法是String类方法equals()的增强版&#xff0c;它会处理null值:assertThat(StringUtils.equals(null, null)).isTrue();assertThat(StringUtils.equals(null, "equals method")).i…

godaddy修改php版本,Godaddy美国主机Plesk面板修改PHP版本教程

由于不同的需求&#xff0c;我们站长朋友们建站所用的网站程序也不尽相同&#xff0c;有PHP、ASP和ASP.NET等。Godaddy美国主机作为全球最大域名主机商&#xff0c;当之无愧成为站长使用最多的主机。不少朋友应该都知道不同的网站程序对于PHP和ASP的版本要求又不一样&#xff0…

mysql数据结构_mysql的底层数据结构

一&#xff0e;数据结构1. 二叉树特点&#xff1a;左侧子节点比父节点小&#xff0c;右侧子节点比父节点大(对于同一个父节点下的两个子节点)缺点&#xff1a;对于一直递增得数据不能存在该数据结构中&#xff0c;会变成链表&#xff0c;不能降低树的高度图 1-1图1-22. 红黑树特…