知乎python练手的_Python—爬虫之初级实战项目:爬取知乎任一作者的文章练手

爬虫之初级实战项目:爬取知乎任一作者的文章练手

在正式上代码之前,先过一遍之前所学知识的框架内容,温故而知新!!!

接下来我们直接上代码,一定要手敲代码、手敲代码、手敲代码!!!

import requests,csv

csv_file = open('知乎-收录.csv','w',newline = '',encoding = 'utf-8')

#加newline=' '参数的原因是,可以避免csv文件出现两倍的行距(就是能避免表格的行与行之间出现空白行);

#加encoding='utf-8',可以避免编码问题导致的报错或乱码。

writer = csv.writer(csv_file)

writer.writerow(['标题','摘要','链接'])

url ='https://www.zhihu.com/api/v4/members/zhang-jia-wei/included-articles?'

headers={'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}

offset = 0

while True:

params = {

'include': 'data[*].comment_count,suggest_edit,is_normal,thumbnail_extra_info,thumbnail,can_comment,comment_permission,admin_closed_comment,content,voteup_count,created,updated,upvoted_followees,voting,review_info,is_labeled,label_info;data[*].author.badge[?(type=best_answerer)].topics',

'offset': str(offset),

'limit': '10',

'sort_by': 'included'

}

res = requests.get(url,headers = headers)

js_zh = res.json()

zhihu = js_zh['data']

for i in zhihu:

list1 = [i['title'],i['excerpt'],i['url']]

writer.writerow(list1)

offset = offset + 10 #利用offset对循环进行控制

if offset > 50:

break

csv_file.close()

标签:练手,comment,知乎,Python,代码,writer,offset,csv

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/370423.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java url帮助类_Spring居然还提供了这么好用的URL工具类

1. 前言开发中我们经常会操作 URL,比如提取端口、提取路径以及最常用的提取参数等等。很多时候需要借助于一些第三方类库或者自己编写工具类来实现,今天胖哥给大家介绍一种方法,无需新的类库引入,只要你使用了 Spring Web 模块都可…

Java并发之CyclicBarria的使用(二)

Java并发之CyclicBarria的使用(二) 一.简介 之前借助于其他大神写过一篇关于CyclicBarria用法的博文,但是内心总是感觉丝丝的愧疚,因为笔者喜欢原创,而不喜欢去转载一些其他的文章,为此笔者自己原创了一个C…

需加装饰——装饰模式

装饰模式指的是在不必改变原类文件和使用继承的情况下,动态地扩展一个对象的功能。它是通过创建一个包装对象,也就是装饰来包裹真实的对象。 类图分析 我们先假设一个业务场景,有三种房子需要装修,分别是公寓,木屋和别…

Java正则表达式教程及示例

当我开始使用Java时,正则表达式对我来说是一场噩梦。 本教程旨在帮助您掌握Java正则表达式,并让我定期返回以刷新我的正则表达式学习。 什么是正则表达式? 正则表达式定义字符串的模式。 正则表达式可用于搜索,编辑或处理文本。…

Vue2.0 --- vue-cli脚手架中全局引入JQ

第一步:安装jQuery npm/cmpn方式安装(默认安装1.7.X版本的JQ) npm/cnpm install jQuery 如果想安装更高版本的JQ那么可以选择在package.json文件下面这个位置添加代码断(当前图片安装的是2.2.3版本,如果想安装更高或者其他可以更改版本号&…

python笔记全_Python笔记

一、数据结构和序列1.1、元组:有一种固定长度,不可修改的python对象序列tup 1,2,3 tup : (1,2,3)tup tuple([4,0,2]) tup : (4,0,2)tup[0] 4元组添加元素:tup (["foo",[1,2],True])tup[1].append(3)tup : ("foo",[1,…

java 分布式编译_linux分布式编译distcc和ccache的部署

unset LANGUAGEexport LANG"en"cd /home/kingsoftmkdir distcccd distccrpm包用:rpm -ivh ...bz2包用:tar -xvf ...进入distcc解压后的目录./configure && make && make installmkdir /usr/lib/distccmkdir /usr/lib/distcc/b…

Unity——用UnityEditor拷贝FBX中的AnimationClip

最近有个新需求,要用代码添加动画的事件,但是Unity不能直接修改FBX中的AnimationClip 在Animation窗口中可以看到,AnimationClip是Read-Only状态,用代码修改这个AnimationClip也是不会生效的,包括用代码添加事件 解决方…

sql 分页存储过程

ALTER procedure [dbo].[fenye]pagesize int, --每页显示数量pageCurrent int, --当前页tablename varchar(20), --表名field varchar(20), --显示的列名(eg: id,name)where varchar(20), --筛选条件 (eg: name not null)orderBy varchar(20), --排序的列名(eg: id …

使用Hadoop计算共现矩阵

这篇文章继续我们在MapReduce的数据密集型文本处理一书中实现MapReduce算法的系列。 这次,我们将从文本语料库创建单词共现矩阵。 本系列以前的文章是: 使用MapReduce进行数据密集型文本处理 使用MapReduce进行数据密集型文本处理-本地聚合第二部分 共…

HTML5 拖放、交换位置

设置元素为可拖放 draggable 属性设置为 true: <img draggable"true" /> 拖动什么 - ondragstart 和 setData() dataTransfer.setData() 方法设置被拖数据的数据类型和值: function drag(e) { e.dataTransfer.setData("text/html", value); }注&…

java 工作6年 面试_为什么不想搞Java了,6年经验去面试5分钟结束,现在Java面试为何这么难...

3、Java并发什么是可重入锁、乐观锁、悲观锁、公平锁、非公平锁、独占锁、共享锁&#xff1f;讲讲ThreadLocal 的实现原理&#xff1f;ThreadLocal 作为变量的线程隔离方式&#xff0c;其内部是如何做的&#xff1f;说说InheritableThreadLocal 的实现原理&#xff1f;并发包中…

mvc如何嵌套第三方页面_长文观点丨为什么我不再使用MVC框架?

原创&#xff1a; 张卫滨 译 Jean-Jacques Dubray是一名资深工程师&#xff0c;他最近引入了一个新的模式&#xff1a;状态-行为-模(State-Action-Model&#xff0c;SAM)。SAM是一个函数式反应型的编程模式&#xff0c;它致力于简化数据Model和View之间的交互。它究竟有何优点值…

JSON和XML的区别

转载于:https://www.cnblogs.com/mr-wuxiansheng/p/6974239.html

屏幕适配

rem是什么&#xff1f; rem&#xff08;font size of the root element&#xff09;是指相对于根元素的字体大小的单位。简单的说它就是一个相对单位。看到rem大家一定会想起em单位&#xff0c;em&#xff08;font size of the element&#xff09;是指相对于父元素的字体大小…

【存储过程】MySQL存储过程/存储过程与自定义函数的区别

---------------------------存储过程-------------------- 语法: 创建存储过程: CREATE [definer {user|current_user}] PROCEDURE sp_name ([ proc_parameter [,proc_parameter ...]]) [ characteristics..] routime_body 其中: proc_parameter : [IN|OUT|INOUT] parameter_…

Java死锁故障排除和解决

JavaOne年度会议的一大优点是&#xff0c;主题专家介绍了几个技术和故障排除实验室。 其中的一个实验室今年特别吸引了我的注意力&#xff1a;“ HOL6500-查找和解决Java死锁 ”&#xff0c;由Java冠军Heinz Kabutz提出 。 这是我在该主题上看到的最好的演示之一。 我建议您自己…

java.util.scanner sc_关于Java的Scanner的问题,菜鸟求各大神解答

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼package leetcode;import java.util.ArrayList;import java.util.Collections;import java.util.Comparator;import java.util.HashMap;import java.util.List;import java.util.Map;import java.util.Map.Entry;import java.util.…

3. HTML中的容器标签

什么是容器标签&#xff1f;在HTML开发中我们常常会使用一类标签作为容器放置一些内容&#xff0c;我们把这类标签称之为容器标签&#xff0c;可以作为容器标签的包括列表标签、表格标签、框架标签、布局标签&#xff0c;在这里我们就来总结下这些内容。 列表标签 1 <!-- 无…

python自带sqlite库_Python标准库之sqlite3使用实例

Python自带一个轻量级的关系型数据库SQLite。这一数据库使用SQL语言。SQLite作为后端数据库&#xff0c;可以搭配Python建网站&#xff0c;或者制作有数据存储需求的工具。SQLite还在其它领域有广泛的应用&#xff0c;比如HTML5和移动端。Python标准库中的sqlite3提供该数据库的…