python怎么查看网页编码格式_怎么用python爬取网页文字?

7a22c64c1e98836b494d4fd09fd97000.png

用Python进行爬取网页文字的代码:#!/usr/bin/python# -*- coding: UTF-8 -*-import requestsimport re# 下载一个网页url = 'htt

56d4c8dec49c311b58d1516850e01525.png

用python进行爬取网页文字的代码:

  1. #!/usr/bin/python

  2. # -*- coding: UTF-8 -*-

  3. import requests

  4. import re

  5. # 下载一个网页

  6. url = 'https://www.biquge.tw/75_75273/3900155.html'

  7. # 模拟浏览器发送http请求

  8. response = requests.get(url)

  9. # 编码方式

  10. response.encoding='utf-8'

  11. # 目标小说主页的网页源码

  12. html = response.text

  13. print(html)

834b33ca67367825a611787fd8c657ec.gif

1、编写爬虫思路:

18f9b1c02fecc293ed01ebc37c023fa9.png

确定下载目标,找到网页,找到网页中需要的内容。对数据进行处理。保存数据。

2、知识点说明:

18f9b1c02fecc293ed01ebc37c023fa9.png

1)确定网络中需要的信息,打开网页后使用F12打开开发者模式。
在Network中可以看到很多信息,我们在页面上看到的文字信息都保存在一个html文件中。点击文件后可以看到response,文字信息都包含在response中。
对于需要输入的信息,可以使用ctrl+f,进行搜索。查看信息前后包含哪些特定字段。
对于超链接的提取,可以使用**左边的箭头点击超链接,这时Elements会打开有该条超链接的信息,从中判断需要提取的信息。从下载小说来看,在目录页提取出小说的链接和章节名。

2)注意编码格式

18f9b1c02fecc293ed01ebc37c023fa9.png

输入字符集一定要设置成utf-8。页面大多为GBK字符集。不设置会乱码。

d25193019de0abb52c428a60b684674c.gif

动力猫机器人教育专注于青少年STEAM教育、创客教育产品及课程体系的开发,为3-18岁学生提供全方位STEAM创客教育课程解决方案。
目前公司已取得多项发明专利、实用新型专利及多项软件著作权专利,拥有上百种控制器、传感器等电子模块,近300种机械结构件,兼容国内外主流编程软件,能够实现较为复杂的物联网和人工智能项目的模型搭建,能充分满足教学、比赛、创新创意等多种需求。
      公司产品进入了中国电子学会发起的“全国青少年机器人技术等级考试”准用器材系列,自主研发软件Scraino已经写入山东中小学三个版本的信息技术课本,在天津、河北、山东等地开展培训中心业务,为美国加州中小学课堂提供产品。
     动力猫课程依托自身强大的研发实力,软硬件相结合,软件方面拥有业界领先的 Scraino(具有自主产权)图形化编程软件以及配套的电子件(各类传感器及控制器等);硬件采用硬件采用动力猫的idea-x积木,该积木具有多项国家发明专利,六面拼插,多方式组合,围绕6-18岁适龄儿童在教具器材、编程平台、评价机制及课程体系、技能等级评测、科技创意赛事等领域多元化搭建教育平台。其 Scraino、Python 课程,不仅能编程,还能通过自主研发的 Nano 控制器,各类传感器,实现机器人物联网课程学习,搭建属于自己的智慧机器人。

声明:编辑此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本号联系,我们将及时更正、删除,谢谢。

526f8e741a3769befadb3b26f91c317e.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/505379.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

leetcode41 --- firstMissingPositive

1 题目 给你一个未排序的整数数组 nums ,请你找出其中没有出现的最小的正整数。 请你实现时间复杂度为 O(n) 并且只使用常数级别额外空间的解决方案。 2 解法 最笨的方法是从1开始试, 看1在数组里面是否出现过, 2, 3, ....不过时间复杂度是. 2.1 hash 可以考虑…

计算机网络中的数据链路层

概述 结点: 主机, 路由器 链路: 网络中两个结点之间的物理通道, 链路的传输介质主要有双绞线, 光纤和微波, 分为有线链路和无线链路. 数据链路: 网络中两个结点之间的逻辑通道, 把实现控制数据传输协议的硬件和软件加到链路上就构成数据链路. 帧: 链路层的协议数据单元…

jnativecpp.dll一定要放到系统目录下吗_电脑硬盘有必要分区吗,分几个区最好?...

购买电脑后,必不可少的一个步骤就是对电脑硬盘进行分区了,其实硬盘分区也是有讲究的,并不是随意分的,下面租物租就给大家介绍下电脑分区的知识。硬盘分区可以提高数据的安全,防止数据丢失,但是防止数据丢失…

数据结构中的树

1. 树 即是以层次化方式组织和存放数据的特定数据结构 边: 节点与节点之间的连线 根节点: 叶子节点: 度: 节点的度数即为其分叉数, 即其子节点个数. 整棵树的度数是所有节点中度数的最大值 节点深度: 根节点到该节点的唯一路径长(即边的数量) 树高: 所有节点中深度的最大…

排序算法 --- 堆排序

根据大顶堆的描述, 父节点的值始终大于子节点(如果有的话)的值, 再加上堆是完全二叉树, 可以用数组表示, 那么就可以用来进行排序. 具体做法就是, 对于随机排列的数组: 1. 首先将其构建成一个大顶堆, 根据堆的性质, 此时堆顶就是最大值. 2. 把堆顶元素与数组最后一个元素进行…

数据结构中的树 --- 红黑树

红黑树是一种几近平衡的二叉搜索树, 但不是AVL树. 1 红黑树的一些特殊性质 1. 每个节点皆为红色或者黑色。 2. 根节点是黑色。 3. 每个叶子节点(NIL)是黑色(注意, 每个叶子节点必须都为空节点, 也就是指针为nullptr, 无key值)。 4. 每个红色结点的两…

c++数据结构中 顺序队列的队首队尾_数据结构与算法—队列详解

前言栈和队列是一对好兄弟,前面我们介绍过数据结构与算法—栈详解,那么栈的机制相对简单,后入先出,就像进入一个狭小的山洞,山洞只有一个出口,只能后进先出(在外面的先出去)。而队列就好比是一个隧道&#…

phpstudy apache无法启动_phpstudy和wamp哪个好

刚刚接触php的同学会想知道phpstudy和wamp的区别有哪些?phpstudy和wamp哪个好?下面我们来总结一下。一:phpstudy好还是wamp好php的运行环境配置对于新手都是一件比较困难的事情,但是对于高手配置是一件繁琐的事情,个人…

哈夫曼树(最优二叉树)

1 用途 现在假如有一个需求, 把一个很长的字符串用二进制编码的形式存储, 要尽可能的占用较小空间, 那么应该怎么存储呢. 肯定是要确定每个字母的编码方法, 比如 001是A, 010是B等. 那么要怎么确定每个字符编成什么二进制码从而使得总长度最短? 一个根本思想是, 出现频率高的…

visual studio无法更新_VS Code Python 扩展 5 月更新

(给Python编程开发加星标,提升编程技能.)12 号,微软在官方博客发布了 VS Code 编辑器中 Python 扩展的 5 月更新,其中只有一个较为重要的特性:新增了浏览选择 Python 解释器的能力。增加这个功能,主要是为了让选择或变…

至强cpu型号列表_装机必看——CPU型号参数详解

装机必看——CPU型号参数详解——装机个人练习生-海在初步解了电脑构成后,我们DIY装机首先要看的就是如何选CPU,今天就带大家详细学习CPU的各类数据。说到CPU,我们先来介绍下生产CPU的两大公司——Intel和AMD。这两家公司相爱相杀接近50年了&…

多路平衡查找树 --- B(B-)树

1 简介 可以用阶数来描述B树, 一棵M阶B树代表着该B树最多有M个孩子节点. 如果M为2, 那么该B树就是一棵二叉搜索树. 一棵M阶B树具有以下性质: 1. 每个节点最多有M - 1个关键字. 跟普通的树不同, B树的关键字有多个. 2. 根节点最少可以只有一个关键字. 3. 非根节点至少有k个关…

B+树操作方式

1 简介 B树与B树相似, 也存在不同. 可以理解为把所有元素都放在叶子节点, 索引B树化的树. B树的一些性质: 1. B树的节点分类: 内部节点(索引节点), 叶子节点. 如果只有根节点有元素, 那么其可以是内部节点也可以是叶子节点. 2. B树与B树最大的不同是内部节点不保存数据, 只…

java执行查询postgresql得到中文乱码_比这个夏天还要热的PostgreSQL数据库来啦!

什么是PostgreSQL?云数据库 PostgreSQL 是京东云基于开源的 PostgreSQL 10.6 版本构建的一款功能强大的企业级关系型数据库管理系统。PostgreSQL有“世界上可获得的最先进的开源数据库”之称,在过去20年的飞速发展中,该数据库已经广泛应用在G…

python按列读取txt文件_如何使用pandas读取txt文件中指定的列(有无标题)

最近在倒腾一个txt文件,因为文件太大,所以给切割成了好几个小的文件,只有第一个文件有标题,从第二个开始就没有标题了。 我的需求是取出指定的列的数据,踩了些坑给研究出来了。 import pandas as pd # 我们的需求是 取…

jpa多表关联查询_Spring Boot 整合mybatis如何自定义 mapper 实现多表关联查询

上一篇文章已经介绍了自定义 mapper 实现自定义的方法,其实实现了通过自定义的mapper就可以做多表关联等复杂查询。但是很多朋友还是反馈说没有实现多表关联查询,所以,今天把文章又重新修改了,增加了多表关联的实现步骤。Mybatis …

spark on yarn 完全分布式_「大数据」(七十一)Spark之架构介绍

【导读:数据是二十一世纪的石油,蕴含巨大价值,这是情报通大数据技术系列第[71]篇文章,欢迎阅读和收藏】1 基本概念Spark 架构采用了分布式计算中的 Master-Slave 模型。 Master 是对应集群中的含有 Master 进程的节点,…

计算机网络数据链路层 --- 停止等待协议

停止等待协议的意义 除了比特出差错,底层信道还会出现丢包问题。为了实现流量控制。 停止等待协议的前提 虽然现在常用全双工通信方式,但为了讨论问题方便,仅考虑一方发送数据(发送方),一方接收数据&…

python import如何使用_python之import引用

关于python的import引用的最大关键是init.py文件的作用,这个文件对于import的方法使用至关重要。这个是我在搭建自动化框架过程中用到的import的方法使用。 比如说,我现在login.py想引用bottom底下的log.py的时候,这个时候,我们如…

计算机网络数据链路层 --- 后退n帧协议(GBN)

滑动窗口 发送窗口 发送方维持一组连续的允许发送的帧的序号 接收窗口 接收方维持一组连续的允许接收帧的序号 发送过程 如图,假如发送方的发送窗口大小是6,首先发送0号帧,并建立0号帧的副本,防止帧丢失,然后发送…