Flask框架小程序后端分离开发学习笔记《4》向服务器端发送模拟请求-爬虫

Flask框架小程序后端分离开发学习笔记《4》向服务器端发送模拟请求-爬虫

Flask是使用python的后端,由于小程序需要后端开发,遂学习一下后端开发。
下面代码,是一个比较老的版本了,可以借鉴一下。

import socket
import ssldef parsed_url(url):#检查协议protocol = 'http'if url[:7] == 'http://':u = url.split('://')[1]elif url[:8] == 'https://':protocol = 'https'u = url.split('://')[1]else:#':/l '定位然后取第一个/的位置来切片u = url# 经过这样,url中的协议被切掉了,注意切片后数组下标由0开始# 例如 https://www.baidu.com:2024/apple# 切除后 www.baidu.com:2024/apple# 检查默认pathi = u.find('/')if i == -1:host = upath ='/'else:host = u[:i]path = u[i:]# 这一步处理过后# host = www.baidu.com:2024# path = apple# 检查端口# 默认端口port_dict = {'http': 80,'https': 443,}# 非默认端口port = port_dict[protocol]if ':' in host:h = host.split(':')# print(h)  测试用,当控制台说哪有问题,阔以尝试使用打印大法,看看是啥问题host = h[0]port = int(h[1])return protocol, host, port, path#以下test开头的函数是单元测试
def test_parsed_url():#parsed_url函数很容易出错,所以我们写测试函数来运行看检测是否正确运mhttp = 'http'https = 'https'host = 'g.cn'path = '/'test_items = [('http://g.cn', (http,host,80,path)),('http://g.cn/', (http,host,80,path)),('http://g.cn:90',(http, host,90,path)),('http://g.cn:90/', (http,host, 90,path)),# 这里面的都是典型测试用例即可('https://g.cn', (https,host,443,path)),('https://g.cn:233/',(https,host,233,path)),]for t in test_items:url, expected = tu = parsed_url(url)# assert是一个语句,名字叫断言# 如果断言成功,条件成立,则通过测试,否则为测试失败,中断程序报错e = "parsed_url ERROR,{}{}{}".format(url,u,expected)assert u == expected, e    # 如果u == expected为true,就没问题,继续;否则就会中断,然后打印e# print("test_parsed_url测试通过!")def socket_by_protocol(protocol,host):# 根据协议返回一个socket实例s = socket.socket()if protocol == 'https':# 创建一个默认的SSL上下文环境context = ssl.create_default_context()# 使用SSL上下文环境来包装socket对象s = context.wrap_socket(s, server_hostname=host)return sdef response_by_socket(s):# 持续接收响应,返回响应的byte型# 参数是一个socket实例# 返回这个socket读取的所有数据response = b''buffer_size = 1024while True:r = s.recv(buffer_size)if len(r) == 0:breakresponse += rreturn responsedef parsed_response(r):# 把response解析出状态码headers body返回# 状态码是int# headers 是dict# body是strheader, body = r.split('\r\n\r\n',1)     # \r\n\r\n是其分界线h = header.split('\r\n')   # 就会切分很多行  例如:HTTP/1.1 301 Moved Permanentlystatus_code = h[0].split()[1]   # h[0]就是响应行 status_code=301  按照空格切分status_code = int(status_code)headers = {}for line in h[1:]:   # 把响应Header部分每一行都存成字典k, v = line.split(': ')headers[k] = vreturn status_code, headers, bodydef get(url):# 用GET请求url并返回响应protocol,host,port,path= parsed_url(url)# 因为协议不一样,socket实例构建方式不同s = socket_by_protocol(protocol,host)s.connect((host,port))request = 'GET HTTP/1.1\r\nhost: {}\r\nconnectibn: close\r\n\r\n'.format(path,host)encoding = 'utf-8's.send(request.encode(encoding))response = response_by_socket(s)r = response.decode(encoding)# 利用parsed_response处理接收到的响应,分别得到想要的东西status_code, headers, body = parsed_response(r)if status_code in [301, 302]:     # 301、302说明是需要重定向url = headers['Location']return get(url)return status_code, headers, bodydef test_get():# 测试是否能正确处理HTTP和HTTPSurls = ['http://movie.douban.com/top250','https://movie.douban.com/top250',]# 这里就直接调用了get如果出错就会挂,测试得比较简单for u in urls:status_code, headers, body = get(u)print(status_code,headers,body)def test():# 用于测试的主函数test_parsed_url()test_get()# test_parsed_response()if __name__ == '__main__':test()# main()# 代码注意模块化,写what不写how,不写具体怎么实现,具体怎么实现就封装起来

最后尝试请求豆瓣的网页,并未得到,我怀疑是有反爬手段,我们的请求数据还有很多东西没加进去,所以看起来不像是浏览器发送的请求,后续会继续学习,解决这个问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/635759.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

贪心算法 ——硬币兑换、区间调度、

硬币兑换: from book:挑战程序设计竞赛 思路:优先使用大面额兑换即可 package mainimport "fmt"func main() {results : []int{}//记录每一种数额的张数A : 620B : A//备份cnts : 0 //记录至少需要多少张nums : []int{1, 5, 10, 5…

大数据质量管制规范示例

大数据质量管制规范示例 一、前提概要二、相关概念三、管理原则四、治理委员五、应用管理六、查验方式七、考核比率八、扣分标准九、责任划分十、追责范围十一、其它条例十二、总结 一、前提概要 在当今大数据信息时代,大数据平台(大数据平台开发规范示…

Linux之Shell脚本编程入门

Linux之Shell脚本编程入门 文章目录 Linux之Shell脚本编程入门Shell脚本编程入门1. 脚本格式2. 第一个Shell脚本:hello World3.第二个 shell脚本:duo命令处理4. shell中变量4.1 常用系统变量4.2 自定义变量4.3 特殊字符: $n4.4 特殊变量: $#4.5 特殊变量…

Spark在降本增效中的一些思考

背景 在大环境不好的情况下,本司也开始了“降本增效”,本文探讨一下,在这种背景下 Spark怎么做的降本增效。 Yarn 基于 EMR CPU 是xlarge,也就是内存和核的比例在7:1左右的 ,磁盘是基于 NVMe SSD Spark 3.5.0(也是刚由3.1 升级而…

关于大模型学习中遇到的3

来源:网络 Embedding模型 随着大型语言模型的发展,以ChatGPT为首,涌现了诸如ChatPDF、BingGPT、NotionAI等多种多样的应用。公众大量地将目光聚焦于生成模型的进展之快,却少有关注支撑许多大型语言模型应用落地的必不可少的Embed…

中仕教育:社会人员可以报名三支一扶吗?

三支一扶是针对高校应届毕业生的一种考试,社会人员并不满足报考条件,所以不能报考。 三支一扶报考条件: 1.应届毕业生或者毕业两年内未就业的往届毕业生。 2.专科以上学历 3.遵纪守法,作风良好。 不同地区的考试要求不同&…

【AJAX框架】AJAX入门与axios的使用

文章目录 前言一、AJAX是干什么的?二、AJAX的安装2.1 CDN引入2.2 npm安装 三、基础使用3.1 CDN方式3.2 node方式 总结 前言 在现代Web开发中,异步JavaScript和XML(AJAX)已经成为不可或缺的技术之一。AJAX使得网页能够在不刷新整个…

【C++】std::string 转换成非const类型 char* 的三种方法记录

std::string 有两个方法:data() 和 c_str(),都是返回该字符串的const char类型,那如何转换成非const的char呢? 下面展示三种方法: 强转:char* char_test (char*)test.c_str();使用string的地址&#xff…

LeetCode 热题 100 | 双指针(下)

目录 42. 接雨水 1 方法一:我的方法 2 方法二:动态规划 3 方法三:双指针 菜鸟做题第一周,语言是 C 42. 接雨水 1 方法一:我的方法 Warning:这是我的智障做法,请勿模仿 我只能说它教会…

17.正则表达式

正则表达式 正则表达式1.字符类2. 逻辑运算符3. 预定义字符4. 数量词5. 数据爬取6. 按要求爬取6.1 贪婪爬取6.2 非贪婪爬取 7. 字符串中使用正则表达式的方法8. 分组括号8.1 匹配和捕获分组8.2 引用和后向引用8.3 零宽断言8.4 分组嵌套与递归8.5 忽略大小写8.6 代码示例 正则表…

用Go plan9汇编实现斐波那契数列计算

斐波那契数列是一个满足递推关系的数列,如:1 1 2 3 5 8 ... 其前两项为1,第3项开始,每一项都是其前两项之和。 用Go实现一个简单的斐波那契计算逻辑 func fib(n int) int {if n 1 || n 2 {return 1}return fib(n-1) fib(n-2) …

MySQL---视图索引

表定义: 学生表:Student (Sno, Sname, Ssex , Sage, Sdept) 学号,姓名,性别,年龄,所在系 Sno为主键 课程表:Course (Cno, Cname,) 课程号,课程名 Cno为主键 学生选课表:S…

Redis设置开机自启动

1.新建一个系统服务文件 首先输入命令:vi /etc/systemd/system/redis.service 进入vim后粘贴下方代码,注意查看地址是否一致。 ExecStart后面接的是你的redis-server的安装位置和redis配置文件的目录 [Unit] Descriptionredis-server Afternetwork.ta…

Pycharm无法刷新远程解释器的框架: Can‘t get remote credentials for deployment server

在Pycharm上部署项目到远程服务器,有时候需要启动SSH会话,启动的时候发现没反应,且事件日志显示:无法刷新远程解释器的框架: Can’t get remote credentials for deployment server 观察pycharm界面最下边,发现“无默…

怎样陪孩子度过一个充实的假期?

你好,我是白丽丽。之前我作为得到图书的负责人,为你介绍过李希贵校长的《家庭教育指南》这本书的使用方法,今天我和你聊聊,怎么用这本书来迎接假期里的一个个挑战,帮助你和孩子度过一个充实的假期。 作为家长&#xf…

2024最新最全:【CISP系列考试大纲】零基础入门到精通

CISP(Certified Information Security Professional)中文全称注册信息安全专业人员认证,是经中国信息安全测评中心依据中编办批准开展“信息安全人员培训与资质认证”的职能,推出的代表国家对信息安全专业人员能力认可的证书。 C…

数据结构——排序

前言:哈喽小伙伴们好久不见,也是顺利的考完试迎来了寒假。众所周知,不怕同学是学霸,就怕学霸放寒假,假期身为弯道超车的最佳时间,我们定然是不能懒散的度过。 今天我们就一起来学习数据结构初阶的终章——…

不要让努力变成一种自虐

当我们为了工作而连续熬夜,不顾身体健康,可能只是在自虐。举个例子,长时间的工作压力和过度努力可能导致身体和心理的疲惫,反而影响到工作效率和生活质量。正确的努力包括合理的工作时间、科学的工作方式,以及关注自己…

嵌入式软件工程师面试题——2025校招社招通用(Linux篇)(二十六)

说明: 面试群,群号: 228447240面试题来源于网络书籍,公司题目以及博主原创或修改(题目大部分来源于各种公司);文中很多题目,或许大家直接编译器写完,1分钟就出结果了。但…

仰暮计划|“学校四周无围墙,教室通风望天窗”

一九七二年高中毕业,我成了回乡青年。玉米地里抡过锄,当阳峪村烧白干,化肥厂内装卸车,深山修渠扛石块。一九七四年十月,村革委会主任找我谈话,“回乡二年来,你无论是政治思想改造,还…