python爬虫实现网页采集器

import requests #导入requests模块
#UA:User-Agnet:请求载体身份标识
#UA检测:各大门户网站的服务器都会检测请求载体的身份标识,如果请求载体的身份标识为某一款服务器,
#则该请求为正常请求,如果请求载体的身份标识为某个爬虫程序,则服务器很可能拒绝该请求
#UA伪装:将爬虫程序伪装成某款浏览器
#指定URL
#如果该python文件为入口程序,则执行if语句下的代码
if __name__=="__main__":url='https://www.sogou.com/web'#进行UA伪装,模拟浏览器,注意将User-Agent封装在一个字典中headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.57.2 (KHTML, like Gecko) Version/5.1.7 Safari/534.57.2 '}#url携带参数,参数封装在一个字典中word=input('enter a word:')params ={'query':word}#向服务器发起请求,url携带参数,并在请求过程中处理了参数response=requests.get(url=url,headers=headers,params=params)#获取字符串形式的响应数据page_text=response.text#持久化存储,写入一个文件fileName=word+'.html'with open(fileName,'w',encoding='utf8')  as fp:fp.write(page_text)print(fileName+'网页采集成功!!!')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/261579.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mongodb备份oplog_MongoDB 备份(mongodump)与恢复(mongorestore)

MongoDB 备份(mongodump)与恢复(mongorestore)MongoDB数据备份在Mongodb中我们使用mongodump命令来备份MongoDB数据。该命令可以导出所有数据到指定目录中。mongodump命令可以通过参数指定导出的数据量级转存的服务器。语法mongodump命令脚本语法如下:>mongodump…

[转]MVC中如何使用RDLC报表

本文转自:http://www.cnblogs.com/BlueWoods/archive/2009/04/27/1444311.html 在用MVC开发项目的时候遇到了一个问题,如何运用RDLC报表? 首先想到的是在Controller返回DataSet,然后在View绑定值,但是遇到一个异常:...…

关于javascript作用域

今天一个挚友给我出了道javascript笔试题,代码如下: function test(){var a b 2; } test(); alert(b); alert(a);我看到这段代码,我笑了,很自信的回答道,会报错,因为a,b都是局部变量,所以a an…

string类的实现(构造函数,析构函数,运算符重载)

String类的代码:class String { public:String(char* str""){_str new char[strlen(str) 1];strcpy(_str, str);}String(const String& str){_str new char[strlen(str._str) 1];strcpy(_str, str._str);}~String(){delete[] _str;}String& o…

html网页设计一个简单的用户登录页面

结果 代码 login.html <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>用户登录页面</title><link rel"stylesheet" href"./css/login.css"><script src"j…

python url模块介绍_python 中 urlparse 模块介绍

urlparse模块主要是用于解析url中的参数 对url按照一定格式进行 拆分或拼接1.urlparse.urlparse将url分为6个部分&#xff0c;返回一个包含6个字符串项目的元组&#xff1a;协议、位置、路径、参数、查询、片段。import urlparseurl_change urlparse.urlparse(https://i.cnbl…

欢迎光临CAX软件二次开发开源社区!

欢迎光临CAX软件二次开发开源社区&#xff01; http://uucax.uueasy.com转载于:https://www.cnblogs.com/uucax/archive/2011/02/20/1959265.html

ORA-20446: The owner of the job is not registered ORA-06512: at SYSMAN.MGMT

Login as sysman user to the database and execute the following :execute MGMT_USER.MAKE_EM_USER(ARCER);//标红处为需要导出导入权限的用户的用户名 备注:假如你没有开启SYSMAN用户&#xff0c;自行开启&#xff1b;转载于:https://www.cnblogs.com/arcer/archive/2013/06…

ip聚合简介

练习一 本题选择&#xff1a;D 解释如下&#xff1a; 人事部 205.67.159.1110 0000 /27 培训部 205.67.159.1101 0000 /28 销售部 205.67.159.1100 0000 /28 先是培训部与销售部做IP聚合&#xff08;只有网络前缀位数相同才可以做ip聚合&#xff09; 保留相同的位数&…

css编写的技巧效果总结

1. 垂直对齐 如果你之前遇到过这个问题&#xff0c;你就应该知道它是多么的烦人&#xff0c;幸运的是&#xff0c;现在你可以使用CSS3变换来解决这个问题&#xff1a; .vc{ position: relative; top: 50%; -webkit-transform: translateY(-50%); -o-transform: translateY(-50%…

微信公众平台消息接口开发(34)桃花运测试

微信公众平台开发 微信公众平台开发者 微信公众平台开发模式 桃花运 作者&#xff1a;方倍工作室 原文&#xff1a;http://www.cnblogs.com/txw1958/archive/2013/06/06/weixin-if34-peach-blossom-luck.html 桃花运&#xff0c;一般指得到异性缘的运气。而这种运气又常常蕴涵在…

sharepoint 2013 个人站点母版

最近做了个项目&#xff0c;&#xff0c;sharepoint 个人站点要求定制&#xff0c;&#xff0c;搞了好久不知引用的模板 在何位置&#xff0c;查了好多资料还是没有办法解决&#xff0c;&#xff0c;经过不懈的努力&#xff0c;终于找到了&#xff0c;现在记录下&#xff0c;做…

telnet不是内部或外部命令解决方法

在使用window系统在使用telnet命令时&#xff0c;会出现“telnet不是内部或外部命令”的错误。 这是因为windows默认没有开启telnet client 开启window的telnet客户端功能&#xff0c;命令就可以使用了。 1.打开控制面板 2.选择程序 3.选择启用或关闭windows功能 4.将telnet…

java文件读写操作指定编码格式[转]

读文件&#xff1a; BufferedReader 从字符输入流中读取文本&#xff0c;缓冲各个字符&#xff0c;从而提供字符、数组和行的高效读取。 可以指定缓冲区的大小&#xff0c;或者可使用默认的大小。大多数情况下&#xff0c;默认值就足够大了。 通常&#xff0c;Reader 所作的每个…

bean覆盖 springboot_SpringBoot中如何进行Bean配置

在控制器MessageController中注入IMessageService&#xff1a;package com.gwolf.controller;import ch.qos.logback.core.net.SyslogOutputStream;import com.gwolf.service.IMessageService;import com.gwolf.util.controller.AbstractBaseController;import org.springframe…

C# 自定义箭头组件

C#自定义箭头组件&#xff0c;效果如图&#xff1a; 实现的功能&#xff1a; 1&#xff09; 箭头方向属性左、右、上、下&#xff1b; 2&#xff09; 颜色渐变&#xff0c;且颜色任意调整&#xff1b; 3&#xff09; 箭头大小位置任意调整&#xff1b; 4&#xff09; 其他。 主…

Android的debug.keystore拒绝访问导致的生成异常及解决方案

为什么80%的码农都做不了架构师&#xff1f;>>> 构建Android应用程序的时候输出异常:[apkbuilder] keytool 错误: java.io.FileNotFoundException: C:\Users\my\.android\debug.keystore(拒绝访问.) 导致BUILD FAILED. ##异常原因: Android要求所有的应用程序必须有…

C语言猜数字游戏

程序代码 #define _CRT_SECURE_NO_WARNINGS 1 #include<stdio.h> #include<string.h> #include<windows.h> #include<stdlib.h> #include<time.h> void menu() {printf("***********************\n");printf("** …

cml sml区别_资本市场线简介,资本市场线CML与SML的区别

资本市场线可表达为&#xff1a;总报酬率Q*(风险组合的期望报酬率)(1-Q)*(无风险利率)其中 &#xff1a;Q代表投资者自有资本总额中投资于风险组合M的比例&#xff0c;1-Q代表投资于无风险组合的比例。虽然资本市场线表示的是风险和收益之间的关系&#xff0c;但是这种关系也决…

第一夜 主公说啥俺做啥

话说公元198年7月15日&#xff0c;吴国大都督周瑜帐前&#xff0c;忽闻侍卫传报“报大都督&#xff0c;鲁肃求见”。 鲁肃进入周瑜营中&#xff0c;递上一纸SCRF公文&#xff0c;曰“报大都督&#xff0c;主公欲在我军PO&#xff08;采购单&#xff09;系统中添加一新字段 Ca…