Python抓取天气信息

 Python的详细学习还是需要些时间的。如果有其他语言经验的,可以暂时跟着我来写一个简单的例子。

2024年最新python教程全套,学完即可进大厂!(附全套视频 下载) (qq.com)

  我们计划抓取的数据:杭州的天气信息,杭州天气 可以先看一下这个网站。

  实现数据抓取的逻辑:使用python 请求 URL,会返回对应的 HTML 信息,我们解析 html,获得自己需要的数据。(很简单的逻辑)

 第一步:创建 Python 文件

  

  写第一段Python代码

if __name__ == '__main__':url = 'http://www.weather.com.cn/weather/101210101.shtml' print('my frist python file')

  这段代码类似于 Java 中的 Main 方法。可以直接鼠标右键,选择 Run。

  

 第二步:请求RUL

  python 的强大之处就在于它有大量的模块(类似于Java 的 jar 包)可以直接拿来使用。

  我们需要安装一个 request 模块: File - Setting - Product - Product Interpreter

  

  

  点击如上图的 + 号,就可以安装 Python 模块了。搜索 requests 模块(有 s 噢),点击 Install。

  

  我们顺便再安装一个 beautifulSoup4 和 pymysql 模块,beautifulSoup4 模块是用来解析 html 的,可以对象化 HTML 字符串。pymysql 模块是用来连接 mysql 数据库使用的。

  

  

  相关的模块都安装之后,就可以开心的敲代码了。

  定义一个 getContent 方法:

# 导入相关联的包
import requests
import time
import random
import socket
import http.client
import pymysql
from bs4 import BeautifulSoupdef getContent(url , data = None):header={'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Accept-Encoding': 'gzip, deflate, sdch','Accept-Language': 'zh-CN,zh;q=0.8','Connection': 'keep-alive','User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.235'} # request 的请求头timeout = random.choice(range(80, 180))while True:try:rep = requests.get(url,headers = header,timeout = timeout) #请求url地址,获得返回 response 信息rep.encoding = 'utf-8'breakexcept socket.timeout as e: # 以下都是异常处理print( '3:', e)time.sleep(random.choice(range(8,15)))except socket.error as e:print( '4:', e)time.sleep(random.choice(range(20, 60)))except http.client.BadStatusLine as e:print( '5:', e)time.sleep(random.choice(range(30, 80)))except http.client.IncompleteRead as e:print( '6:', e)time.sleep(random.choice(range(5, 15)))print('request success')return rep.text # 返回的 Html 全文

  在 main 方法中调用:

if __name__ == '__main__':url ='http://www.weather.com.cn/weather/101210101.shtml'html = getContent(url) # 调用获取网页信息print('my frist python file')

 第三步:分析页面数据

  定义一个 getData 方法:

def getData(html_text):final = []bs = BeautifulSoup(html_text, "html.parser")  # 创建BeautifulSoup对象body = bs.body #获取bodydata = body.find('div',{'id': '7d'})ul = data.find('ul')li = ul.find_all('li')for day in li:temp = []date = day.find('h1').stringtemp.append(date) #添加日期inf = day.find_all('p')weather = inf[0].string #天气temp.append(weather)temperature_highest = inf[1].find('span').string #最高温度,夜间可能没有这个元素,需要注意temperature_low = inf[1].find('i').string  # 最低温度temp.append(temperature_low)temp.append(temperature_highest)final.append(temp)print('getDate success')return final

  上面的解析其实就是按照 HTML 的规则解析的。可以打开 杭州天气 在开发者模式中(F12),看一下页面的元素分布。

 

  在 main 方法中调用:

if __name__ == '__main__':url ='http://www.weather.com.cn/weather/101210101.shtml'html = getContent(url)    # 获取网页信息result = getData(html)  # 解析网页信息,拿到需要的数据print('my frist python file')

数据写入excel

  现在我们已经在 Python 中拿到了想要的数据,对于这些数据我们可以先存放起来,比如把数据写入 csv 中。

  定义一个 writeDate 方法:

import csv #导入包def writeData(data, name):with open(name, 'a', errors='ignore', newline='') as f:f_csv = csv.writer(f)f_csv.writerows(data)print('write_csv success')

  在 main 方法中调用:

if __name__ == '__main__':url ='http://www.weather.com.cn/weather/101210101.shtml'html = getContent(url)    # 获取网页信息result = getData(html)  # 解析网页信息,拿到需要的数据writeData(result, 'D:/py_work/venv/Include/weather.csv') #数据写入到 csv文档中print('my frist python file')

  执行之后呢,再指定路径下就会多出一个 weather.csv 文件,可以打开看一下内容。

  

  

  到这里最简单的数据抓取--储存就完成了。

 数据写入数据库

   因为一般情况下都会把数据存储在数据库中,所以我们以 mysql 数据库为例,尝试着把数据写入到我们的数据库中。

 第一步创建WEATHER 表:

  创建表可以在直接在 mysql 客户端进行操作,也可能用 python 创建表。在这里 我们使用 python 来创建一张 WEATHER 表。

  定义一个 createTable 方法:(之前已经导入了 import pymysql 如果没有的话需要导入包)

def createTable():# 打开数据库连接db = pymysql.connect("localhost", "zww", "960128", "test")# 使用 cursor() 方法创建一个游标对象 cursorcursor = db.cursor()# 使用 execute()  方法执行 SQL 查询cursor.execute("SELECT VERSION()")# 使用 fetchone() 方法获取单条数据.data = cursor.fetchone()print("Database version : %s " % data) # 显示数据库版本(可忽略,作为个栗子)# 使用 execute() 方法执行 SQL,如果表存在则删除cursor.execute("DROP TABLE IF EXISTS WEATHER")# 使用预处理语句创建表sql = """CREATE TABLE WEATHER (w_id int(8) not null primary key auto_increment, w_date  varchar(20) NOT NULL ,w_detail  varchar(30),w_temperature_low varchar(10),w_temperature_high varchar(10)) DEFAULT CHARSET=utf8"""  # 这里需要注意设置编码格式,不然中文数据无法插入cursor.execute(sql)# 关闭数据库连接db.close()print('create table success')

  在 main 方法中调用:

if __name__ == '__main__':url ='http://www.weather.com.cn/weather/101210101.shtml'html = getContent(url)    # 获取网页信息result = getData(html)  # 解析网页信息,拿到需要的数据writeData(result, 'D:/py_work/venv/Include/weather.csv') #数据写入到 csv文档中createTable() #表创建一次就好了,注意print('my frist python file')

  执行之后去检查一下数据库,看一下 weather 表是否创建成功了。

  

 第二步批量写入数据至 WEATHER 表:

   定义一个 insertData 方法:

def insert_data(datas):# 打开数据库连接db = pymysql.connect("localhost", "zww", "960128", "test")# 使用 cursor() 方法创建一个游标对象 cursorcursor = db.cursor()try:# 批量插入数据cursor.executemany('insert into WEATHER(w_id, w_date, w_detail, w_temperature_low, w_temperature_high) value(null, %s,%s,%s,%s)', datas)# sql = "INSERT INTO WEATHER(w_id, \#                w_date, w_detail, w_temperature) \#                VALUES (null, '%s','%s','%s')" % \#       (data[0], data[1], data[2])# cursor.execute(sql)    #单条数据写入# 提交到数据库执行db.commit()except Exception as e:print('插入时发生异常' + e)# 如果发生错误则回滚db.rollback()# 关闭数据库连接db.close()

  在 main 方法中调用:

if __name__ == '__main__':url ='http://www.weather.com.cn/weather/101210101.shtml'html = getContent(url)    # 获取网页信息result = getData(html)  # 解析网页信息,拿到需要的数据writeData(result, 'D:/py_work/venv/Include/weather.csv') #数据写入到 csv文档中# createTable() #表创建一次就好了,注意insertData(result) #批量写入数据print('my frist python file')

  检查:执行这段 Python 语句后,看一下数据库是否有写入数据。有的话就大功告成了。

  

Python学习籽料直接戳:2024年最新python教程全套,学完即可进大厂!(附全套视频 下载) (qq.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/30222.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

六、C#变量作用域

在 C# 中,变量的作用域定义了变量的可见性和生命周期。 变量的作用域通常由花括号 {} 定义的代码块来确定。 以下是关于C#变量作用域的一些基本规则: 局部变量 在方法、循环、条件语句等代码块内声明的变量是局部变量,它们只在声明它们的…

docker pull xxx拉取超时time out

文章目录 前言总结 前言 换了镜像源,改配置的都不行,弄了一个下午,最后运行一下最高指令就可以了 sudo docker_OPTS"--dns 8.8.8.8"总结 作者:加辣椒了吗? 简介:憨批大学生一枚,喜欢…

02-ES6新语法

1. ES6 Proxy与Reflect 1.1 概述 Proxy 与 Reflect 是 ES6 为了操作对象引入的 API 。 Proxy 可以对目标对象的读取、函数调用等操作进行拦截,然后进行操作处理。它不直接操作对象,而是像代理模式,通过对象的代理对象进行操作,…

JAVA8 常用Stram处理方法

JAVA8 常用Stram处理方法 排序排序对象集合属性一升序 属性二降序List转MapList分组求和提取字符串根据属性去重分组排序求和 排序 List<MachineOrderResponse.BackRecord> noSList ss.stream().sorted(Comparator.comparing(MachineOrderResponse.BackRecord::getTime)…

WEB3-众筹合约

构建众筹合约的框架&#xff0c;包括定义 IERC20 接口&#xff0c;并通过构造函数初始化代币合约。 By:HackQuesthttps://www.hackquest.io/zh

如何用Vue3和ApexCharts打造引人注目的3D径向条形图

本文由ScriptEcho平台提供技术支持 项目地址&#xff1a;传送门 使用 ApexCharts 构建美观的 Vue.js 径向条形图 应用场景 径向条形图是一种用于可视化单一数据点及其与目标或理想值的关系的图表类型。它在显示进度、完成率或其他类似度量时非常有用。 基本功能 这段代码…

同三维T80002JEHV H.265高清解码器

同三维T80002JEHV H.265高清解码器 1路HDMI1路VGA解码输出&#xff0c;1/2/4画面分割或16路轮询显示 产品简介&#xff1a; 同三维T80002JEHV解码器使用Linux系统&#xff0c;支持VGA/HDMI二种接口同时输出&#xff0c;支持多流输入多流解码及多屏显示&#xff0c;具有完善的…

【时序预测】-Transformer系列

Transformer 2017 NIPS 重点&#xff1a;Attention Is All You Need 核心&#xff1a;Attention Is All You Need Informer 2021 AAAI&#xff08;Best Paper&#xff09; 重点&#xff1a;Transformer Sparse attention &#xff08;稀疏&#xff09; 核心&#xff1a;S…

Django REST framework数据展示技巧:分页、过滤与搜索的实用配置与实践

系列文章目录 Django入门全攻略&#xff1a;从零搭建你的第一个Web项目Django ORM入门指南&#xff1a;从概念到实践&#xff0c;掌握模型创建、迁移与视图操作Django ORM实战&#xff1a;模型字段与元选项配置&#xff0c;以及链式过滤与QF查询详解Django ORM深度游&#xff1…

【修复Win11错误 0x80010135: 路径太长】

1. 问题现象&#xff1a; 一个意外错误使你无法复制该文件。如果你继续收到此错误&#xff0c;可以使用错误代码来搜索有关此问题的帮助。 错误 0x80010135: 路径太长 或者这样 2. 分析问题 造成这个问题的主要原因包括&#xff1a; 文件路径长度超过 260 个字符&#xf…

Qt利用Coin3D(OpenInventor)进行3d绘图

文章目录 1.安装1.1.下载coin3d1.2.下载quarter1.3.解压并合并 2.在Qt中使用3.画个网格4.加载wrl模型 1.安装 1.1.下载coin3d 首先&#xff0c;到官网下载[coin3d/coin] 我是Qt5.15.2vs2019的&#xff0c;因此我选择这个coin-4.0.2-msvc17-x64.zip 1.2.下载quarter 到官网…

Docker:现代软件开发的基石

在当今快速发展的科技世界中&#xff0c;Docker 已成为现代软件开发和部署的关键工具。作为一种开源平台&#xff0c;Docker 使开发者能够在容器中创建、部署和运行应用程序&#xff0c;从而极大地提高了开发效率和环境一致性。本文将深入探讨 Docker 的基本概念、主要优势及其…

【信息资源组织与管理】【开卷考】如何准备 期末考试复习必备

索引篇 先去xhs找了开卷考有什么准备技巧&#xff0c;来自Prozac ❗️首先&#xff0c;适用于考试范围为课本内容或者课堂内容&#xff0c;如果有那种拓展题&#xff0c;脱离课本的&#xff0c;那我就没办法了。 ✅一定要熟悉熟悉熟悉课本 1. 第一遍略看课本&#xff0c;可以不…

万界星空科技QMS质量管理介绍

产品的生产质量是企业发展之根本&#xff0c;对所有企业来说&#xff0c;建立完善质量控制体系&#xff0c;对企业生产经营以及发展竞争具有至关重要的影响&#xff0c;可以说是企业质量保证的防火墙。QMS质量管理系统对任何一家企业都具有重要意义&#xff0c;可帮助企业提高生…

shell脚本监控docker容器和supervisor 运行情况

1.ASR服务 需求: 在ASR服务器中 docker 以下操作中 忽略容器名字叫 nls-cloud-mongodb 的容器 在ASR服务器中 docker ps 查看正在运行的容器 docker stats -a --no-stream 可以监控容器所占资源 确认是否有pid且不等于0 docker inspect -f “{{.RestartCount}}” 容器名称 可…

为何Proteus用户争相拥抱SmartEDA?揭秘背后的强大吸引力!

在电路设计与仿真领域&#xff0c;Proteus一度以其稳定性能和丰富功能赢得了众多用户的青睐。然而&#xff0c;近年来&#xff0c;越来越多的Proteus用户开始转向SmartEDA&#xff0c;这一新兴电路仿真软件正迅速崭露头角&#xff0c;成为行业内的翘楚。那么&#xff0c;究竟是…

【Java】已解决java.util.ConcurrentModificationException异常

文章目录 一、分析问题背景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项 已解决java.util.ConcurrentModificationException异常 一、分析问题背景 java.util.ConcurrentModificationException异常是Java集合框架中常见的一个运行时异常。这个异常通常会…

llama-factory微调工具使用入门

一、定义 环境配置案例&#xff1a; https://zhuanlan.zhihu.com/p/695287607chatglm3 案例多卡训练deepspeedllama factory 案例Qwen1.5报错 二、实现 环境配置 git clone https://github.com/hiyouga/LLaMA-Factory.git conda create -n llama_factory python3.10 conda …

适合企业的TTS文本转语音接口:微软TTS最新模型,发布9种更真实的AI语音

微软对Azure Al语音服务的Personal Voice功能进行了升级&#xff0c;引入了新的零样本学习(zero-shot)的文本到语音(TTS)模型。与初始模型相比&#xff0c;这些新模型提高了合成语音的自然度&#xff0c;并更好地模仿了提示语音中的语音特征。 微软提供了超过400种神经语音&am…

视频监控管理平台智能边缘分析一体机安防监控平台离岗检测算法

在工业自动化和智能制造的背景下&#xff0c;智能边缘分析一体机的应用日益广泛。这些设备通常在关键岗位上执行监控、分析和数据处理任务。然而&#xff0c;设备的稳定运行至关重要&#xff0c;一旦发生故障或离岗&#xff0c;可能会导致生产线停滞甚至安全事故。因此&#xf…