解决Python爬虫开发中的数据输出问题:确保正确生成CSV文件

亿牛云代理.png

引言

在大数据时代,爬虫技术成为获取和分析网络数据的重要工具。然而,许多开发者在使用Python编写爬虫时,常常遇到数据输出问题,尤其是在生成CSV文件时出错。本文将详细介绍如何解决这些问题,并提供使用代理IP和多线程技术的完整示例代码,以确保高效、准确地生成CSV文件。

正文

一、常见问题分析

  1. 数据提取不完整:网页结构变化或抓取逻辑错误导致数据提取不全。
  2. 编码问题:不同网页的编码格式不同,可能导致乱码。
  3. 文件写入问题:CSV文件写入过程中的格式或权限问题。

二、解决方案

  1. 使用代理IP:避免因IP被封禁导致的数据提取失败。
  2. 设置User-Agent和Cookie:模拟浏览器行为,提高成功率。
  3. 多线程技术:提升数据抓取效率,减少等待时间。
  4. 编码处理:确保爬取数据的编码统一,避免乱码。

实例

以下代码展示了如何使用代理IP、多线程技术进行高效、稳定的数据抓取,并正确生成CSV文件。示例中使用了亿牛云爬虫代理。

import requests
from bs4 import BeautifulSoup
import csv
import threading
import queue# 常量
SEARCH_URL = "https://pubmed.ncbi.nlm.nih.gov/"
QUERY = "Breast Cancer"
START_DATE = "2023/06/01"
END_DATE = "2023/12/31"
HEADERS = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36","Cookie": "your_cookie_here"
}
# 设置代理 亿牛云爬虫代理加强版 www.16yun.cn
PROXY = {"http": "http://username:password@proxy.16yun.cn:12345","https": "http://username:password@proxy.16yun.cn:12345"
}# 线程锁
lock = threading.Lock()# 获取文章链接
def fetch_article_links(query, start_date, end_date):params = {"term": query,"mindate": start_date,"maxdate": end_date}response = requests.get(SEARCH_URL, params=params, headers=HEADERS, proxies=PROXY)soup = BeautifulSoup(response.text, 'html.parser')article_links = [a['href'] for a in soup.find_all('a', class_='docsum-title')]return article_links# 获取文章详情
def fetch_article_details(article_link, data_queue):try:response = requests.get(article_link, headers=HEADERS, proxies=PROXY)soup = BeautifulSoup(response.text, 'html.parser')title = soup.find('h1', class_='heading-title').text.strip()authors = [a.text.strip() for a in soup.find_all('a', class_='full-name')]pub_date = soup.find('span', class_='cit').text.strip()abstract = soup.find('div', class_='abstract-content').text.strip()data_queue.put({"Title": title,"Authors": ", ".join(authors),"Publication Date": pub_date,"Abstract": abstract})except Exception as e:print(f"Error fetching details for {article_link}: {e}")# 保存为CSV文件
def save_to_csv(data_queue, filename='pubmed_breast_cancer.csv'):with lock:with open(filename, mode='w', newline='', encoding='utf-8') as file:writer = csv.DictWriter(file, fieldnames=["Title", "Authors", "Publication Date", "Abstract"])writer.writeheader()while not data_queue.empty():writer.writerow(data_queue.get())# 主函数
def main():article_links = fetch_article_links(QUERY, START_DATE, END_DATE)base_url = "https://pubmed.ncbi.nlm.nih.gov"data_queue = queue.Queue()threads = []for link in article_links:full_link = f"{base_url}{link}"t = threading.Thread(target=fetch_article_details, args=(full_link, data_queue))t.start()threads.append(t)for t in threads:t.join()save_to_csv(data_queue)if __name__ == "__main__":main()

结论

本文介绍了如何通过使用代理IP、设置User-Agent和Cookie、多线程技术,以及正确处理编码等方法,解决Python爬虫开发中的数据输出问题。通过这些措施,开发者可以确保高效、准确地生成CSV文件,为后续数据分析提供可靠支持。希望这篇文章能为您的爬虫开发提供实用的指导和帮助。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/865757.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

富格林:落实安全方略实现出金

富格林认为,投资其实是一个被缩小了的生活,身处投资世界的人们同样面临着恐惧和贪婪的驱使。假设投资者不懂得如何鉴别市场上的黑幕的话,就很容易落入陷阱当中导致不能安全出金。富格林总结了以下几点建议,希望能帮助投资者避免落…

【网络安全的神秘世界】SQL注入(下)

🌝博客主页:泥菩萨 💖专栏:Linux探索之旅 | 网络安全的神秘世界 | 专接本 | 每天学会一个渗透测试工具 3.7 二次注入 不好挖这个漏洞,需要搞懂业务逻辑关系 二次注入通常是指在存入数据库时做了过滤,但是取…

解码AWS EC2:塑造云服务器新标杆的五大核心优势

在云计算领域,亚马逊弹性计算云(Amazon Elastic Compute Cloud, 简称EC2)作为AWS的明星服务,凭借其卓越的性能、灵活性和广泛的生态系统,已经成为企业构建云上基础设施的首选。EC2不仅仅是一个简单的云服务器租用服务&…

研发税优分析系统

1.Excel文档的读取于结构化 辅助帐: 数据格式化问题: 1)日期, "27-一月-2021" 需要转换,需确定格式(已解决) 2)种类, 3)凭证号, 2.0210100010153E13 需要转换,需…

sqlalchemy Lost connection to MySQL server during query

遇到 “Lost connection to MySQL server during query” 的错误通常与多种因素有关,这些因素可能包括网络问题、MySQL服务器配置、SQLAlchemy的使用方式等。以下是一些解决此问题的步骤和建议: 1. 检查网络连接 确保你的应用程序能够稳定地连接到MySQ…

mojo编程语言:开发者的新宠儿

Mojo是一种新兴的编程语言,正迅速成为AI开发者的热门选择。以下是一些关于Mojo的关键点: ### 1. 高性能 Mojo的设计目标是提供接近C和Rust等系统编程语言的性能,但同时保留Python的易用性。这使得AI开发者可以编写高效的代码,而不…

AI在软件开发:助力开发者还是取而代之?

在软件开发领域,生成式人工智能(AIGC)正逐步展现其巨大的潜力,成为开发者们不可或缺的助手。无论是代码生成、错误检测,还是自动化测试,AI工具都在为开发者们提供前所未有的支持。然而,随着AI技…

ERROR 2002 (HY000)

Can’t connect to local MySQL server through socket ‘/var/lib/mysql/mysql.sock’ (2) Redirecting to /bin/systemctl restart mysqld.service Job for mysqld.service failed because the control process exited with error code. See “systemctl status mysqld.serv…

“2024软博会” 为软件企业提供集展示、交流、合作一站式平台

随着全球科技浪潮的涌动,软件行业正迎来前所未有的发展机遇,成为了全球新一轮竞争的“制高点”,以及未来经济发展的“增长点”。在当前互联网、大数据、云计算、人工智能、区块链等技术加速创新的背景下,数字经济已经渗透到经济社…

设计模式简单示例

1. 设计模式 2. 设计模式分类 2.1. 命令模式 命令模式(Command Pattern)是一种行为型设计模式,又叫动作模式或事务模式。它将请求(命令)封装成对象,使得可以用不同的请求对客户端进行参数化,…

使用androidx.appcompat:appcompat:1.7.0无法运行的问题

问题: 使用 implementation ‘androidx.appcompat:appcompat:1.7.0’ 出现无法运行的问题,编译都没有问题 AGPBI: {“kind”:“error”,“text”:“java.lang.NullPointerException”,“sources”:[{“file”:“C:\Users\10557\.gradle\caches\transfor…

工控软件开发框架,GTK和QT好难选,快来拯救开发者。

工控软件开发框架如何选,有人喜欢GTK,有人钟意QT,而且每个人都有自己的一番道理,好像说的还都有理,这种情况该怎么办呢?大千UI工场带着你深入了解下。 一、GTK是什么 GTK(GIMP Toolkit)是一个…

【JavaWeb】利用IntelliJ IDEA 2024.1.4 +Tomcat10 搭建Java Web项目开发环境(图文超详细)

1、启动IntelliJ idea 2024.1.4 在欢迎页面,请确认好版本。因为不同的版本,搭建项目过程不太一样。 点击,新建项目。如图: 2、新建项目 在新建项目界面,选择java,在右侧信息模块内,根据个人情…

帮公司搭了个Nuxt3项目框架

theme: smartblue 最近公司立项了一个新项目,因为是to C 的,所以对SEO是有较高需求的,由于公司前端技术栈统一用的VUE,顺理成章的就选择了nuxt这个全栈框架。项目立项之后我就被安排了负责前端项目框架的搭建,从搭建过…

高校教师教学质量评估系统-计算机毕业设计源码03344

摘要 在高等教育中,教学质量是培养优秀人才的关键。为了提高教学质量,高校需要建立一套科学、有效的教师教学质量评估系统。本研究采用 SSM技术框架,旨在开发一款高校教师教学质量评估系统。 SSM框架作为一种成熟的Java开发框架,具…

网安小贴士(6)TCP/IP分层

一、前言 1983年,美国国防部决定将TCP/IP作为所有计算机网络的标准协议,这标志着TCP/IP正式成为互联网的基础协议。随着个人计算机的普及和网络技术的发展,TCP/IP模型被广泛应用于各种网络环境中,包括局域网(LAN&#…

java-5 道经典算法题

字符串处理、动态规划、递归和二分查找等方面。通过详细的题目描述、解题思路和完整的代码示例,展示了如何在实际开发中应用这些经典算法。以下是对每道题目和对应算法的进一步探讨和总结。 ### 1. 求数组的最大子数组和 #### 进一步探讨 最大子数组和问题是一个…

银行清算业务功能测试解析

银行清算业务是指银行间通过账户或有关货币当地清算系统,在办理结算和支付中用以清讫双边或多边债权债务的过程和方法。按地域划分,清算业务可分为国内联行清算和国际清算。常见的清算模式包括实时全额清算、净额批量清算、大额资金转账系统及小额定时清…

【图说中国】大江大河你知道哪些?

【图说中国】大江大河你知道哪些? 中国河流 中国是世界上河流最多国家之一,其中流域面积超过1000平方米河流就有1500多条。 主要有长江、黄河、黑龙江、珠江、淮河、海河、辽河、雅鲁藏布江、塔里木河、澜沧江、怒江、闽江、钱塘江、韩江、鸭绿江、图…

Qt绘制多线段

最近画辅助线有刚需。 画图准备增加绘制多线段功能。 有哪些方法呢&#xff1f; QPainter Class | Qt GUI 5.15.17 void QPainter::drawPolyline(const QPolygon &points) QPolygon Class | Qt GUI 5.15.17 QPolygon polygon; polygon << QPoint(10, 20) <&…