Python爬虫实战(实战篇)—17获取【CSDN某一专栏】数据转为Markdown列表放入文章中

文章目录

  • 专栏导读
  • 背景
  • 结果预览
  • 1、页面分析
  • 2、通过返回数据发现适合利用lxml+xpath
  • 3、进行Markdown语言拼接
  • 总结

专栏导读

在这里插入图片描述

🔥🔥本文已收录于《Python基础篇爬虫》

🉑🉑本专栏专门针对于有爬虫基础准备的一套基础教学,轻松掌握Python爬虫,欢迎各位同学订阅,专栏订阅地址:点我直达

🤞🤞此外如果您已工作,如需利用Python解决办公中常见的问题,欢迎订阅《Python办公自动化》专栏,订阅地址:点我直达

🔺🔺此外《Python30天从入门到熟练》专栏已上线,欢迎大家订阅,订阅地址:点我直达

背景

  • 我经常会将CSDN写过的某一专栏的其他文章转为Markdown列表,放入到新的文章中,这样方便友友们看到我之前的写的文章,然后点击链接即可跳转查看!!,我觉得这样非常方便

结果预览

在这里插入图片描述

1、页面分析

  • 就以我的【爬虫专栏进行分析】

  • 爬取URL:https://blog.csdn.net/weixin_42636075/category_11978272.html

  • 爬取方法:GET

  • 返回数据:整个页面(TXT)

在这里插入图片描述

在这里插入图片描述

  • 初步代码

# -*- coding: UTF-8 -*-
'''
@Project :项目名称
@File    :程序.py
@IDE     :PyCharm
@Author  :一晌小贪欢
@Date    :2024/05/27 17:00
'''import json
import requests
from lxml import etreeurl = 'https://top.baidu.com/board?'
cookies = {'Cookie': '填写自己的Cookie',
}headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36',}params = {
'spm': '1001.2014.3001.5482'
}res_data = requests.get(url=url, params=params, headers=headers, cookies=cookies)
res_data.encoding = "utf-8"
print(res_data.text)

在这里插入图片描述

2、通过返回数据发现适合利用lxml+xpath

  • 我们发现返回的数据是整个网页,其中每一个【文章标题】以及【文章链接】都在其中

  • 经过分析得到,所有的 【文章标题】以及【文章链接】都在如下的xpath中

  • //ul[@class="column_article_list"]//li//a【文章链接】
  • //ul[@class="column_article_list"]//li//div[@class="column_article_title"]//h2【文章标题】

3、进行Markdown语言拼接

  • 搞定!!

-在这里插入图片描述

文章名称链接
Python爬虫实战(实战篇)—16获取【百度热搜】数据—写入Ecel(附完整代码)点我进行跳转
Python爬虫实战(基础篇)—15获取东方财富网股票数据—写入csv(附完整代码)点我进行跳转
Python爬虫实战(基础篇)—14获取【巴黎圣母院新闻网(Notre Dame News)】新闻写入Word(附完整代码)点我进行跳转
Python爬虫实战(基础篇)—13获取《人民网》【最新】【国内】【国际】写入Word(附完整代码)点我进行跳转
Python爬虫实战(基础篇)—11—360翻译(附完整代码)点我进行跳转
爬虫模板(附完整代码+案例)点我进行跳转
Python爬虫实战(基础篇)—10获取故宫博物院—故宫壁纸(附完整代码)点我进行跳转
Python爬虫实战(基础篇)—9获取某个城市天气(附完整代码)点我进行跳转
Python爬虫实战(进阶篇)—8获取TOP电影信息并存入Excel(附完整代码)点我进行跳转
Python爬虫实战(进阶篇)—7获取每日菜价(附完整代码)点我进行跳转
关于一些xpath定位小技巧(svg,img,g等元素的定位问题)点我进行跳转
Python爬虫实战(进阶篇)—6获取微某博信息(附完整代码)点我进行跳转
Python爬虫实战(基础篇)—5获取xx小说(附完整代码)点我进行跳转
Python爬虫实战(基础篇)—4获取古诗词给孩子学习(附完整代码)点我进行跳转
Python爬虫实战(高级篇)—3百度翻译网页版爬虫(附完整代码)点我进行跳转
Python爬虫实战(基础篇)—2获取一首歌的歌词(附完整代码)点我进行跳转
Python爬虫实战(基础篇)—1获取微博TOP10热搜(附完整代码)点我进行跳转
Xpath定位同级、父级元、子级元素、最后一个元素点我进行跳转
Python+Fiddler爬取手机app1----配置(保姆级)点我进行跳转
Python控制selenium之谷歌驱动器切入iframe(内嵌框架)点我进行跳转
Python—selenium控制本地浏览器并获取网页数据点我进行跳转
python解决输入框支持输入多个单号(5000单)快速复制粘贴进去点我进行跳转
国税局验证码识别 & 识别不了我还不能input吗点我进行跳转
selenium之显示等待(等到某个元素出现后再继续执行)点我进行跳转

总结

  • 希望对初学者有帮助

  • 致力于办公自动化的小小程序员一枚

  • 希望能得到大家的【一个免费关注】!感谢

  • 求个 🤞 关注 🤞

  • 此外还有办公自动化专栏,欢迎大家订阅:Python办公自动化专栏

  • 求个 ❤️ 喜欢 ❤️

  • 此外还有爬虫专栏,欢迎大家订阅:Python爬虫基础专栏

  • 求个 👍 收藏 👍

  • 此外还有Python基础专栏,欢迎大家订阅:Python基础学习专栏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/17196.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

电脑可以录音吗?这里有你想要的答案!

在数字化时代,电脑已经成为我们日常生活中不可或缺的工具。除了办公、娱乐等基本功能外,电脑还具备许多实用的辅助功能,其中之一就是录音功能。可是电脑可以录音吗?本文将介绍两种在电脑上录音的方法,希望通过本文的介…

客服快捷回复话术分享:618议价话术和催发货话术

随着618活动大促的临近,客服小伙伴们将迎来一年中最繁忙的时刻。面对顾客的议价、催发货等需求,我们应该如何回复才能既满足顾客的需求,又能保持良好的服务形象呢?下面就为大家分享一些议价和催发货的快捷回复话术,希望…

申请免费通配符SSL证书教程

申请免费通配符SSL证书的步骤相对直接,但需要注意的是免费且支持通配符的证书提供商较为有限,JoySSL是一个被多次提及提供此类服务的机构。以下是一个基于汇总信息的简明教程,帮助你申请免费的通配符SSL证书: 1. 准备工作 确认兼…

Android studio 连接 adb传输文件到电脑

前提是已经连接到adb window R: 打开控制台adb devices:可以查看已经连接的设备adb pull /storage/emulated/0/Download/aa.png C:\Users\Administrator\Desktop:拉取连接设备的文件 aa.png 到电脑桌面上 (在电脑控制台进行拉取操作) 如果…

C字符串和内存函数介绍(二)——长度不固定的字符串函数

前面我们一起学习了strlen,strcpy,strcmp,strcat的使用以及它们的模拟实现,它们的特点是你传参的时候,传过去的是数组首元素的地址,然后无论是计算长度,实现拷贝,相互比较还是进行追…

拓展虚拟世界边界,云手机可以做到吗

虚拟世界,AI,VR等词汇是21世纪最为流行的词汇,在科技背后,这些词汇的影响变得越来越大,已经走进了人们的世界,比如之前APPLE发布的vision pro,使人们能够更加身临其境的体验到原生os系统&#x…

如何理解Spring Boot自动配置原理和应用?

我们知道,基于Spring Boot,我们只需要在类路径中引入一组第三方框架的starter组件,就能在Spring容器中使用这些框架所提供的各项功能。这在当下的开发过程中已经习以为常,但在Spring Boot还没有诞生之前却是不可想象的。如果我们使…

这款信创FTP软件,可实现安全稳定的文件传输

信创,即信息技术应用创新,2018年以来,受“华为、中兴事件”影响,国家将信创产业纳入国家战略,并提出了“28n”发展体系。“8”具体指金融、石油、电力、电信、交通、航空航天、医院、教育等主要行业。目前企业使用比较…

0527_C++1

练习1&#xff1a; 定义自己的命名空间my_sapce&#xff0c;在my_sapce中定义string类型的变量s1&#xff0c;再定义一个函数完成对字符串的逆置。 #include <iostream>using namespace std; namespace my_space {string s1"hello world";void my_strreverse…

对比表征学习(一)Contrastive Representation Learning

对比表征学习&#xff08;二&#xff09;Sentence Embedding 主要参考翁莉莲的Blog&#xff0c;本文主要聚焦于对比损失函数 对比表示学习&#xff08;Contrastive Representation Learning&#xff09;可以用来优化嵌入空间&#xff0c;使相似的数据靠近&#xff0c;不相似的数…

数据结构(四)双向链表

文章目录 一、概念二、无头双向链表示意图三、操作&#xff08;一&#xff09;定义结构体&#xff08;二&#xff09;创建链表1. 函数定义2. 注意点3. 代码实现 &#xff08;三&#xff09;插入1. 函数定义2. 注意点3. 代码实现 &#xff08;四&#xff09;删除1. 函数定义2. 注…

B端:ElementUI、AntDesign、若依等看腻了,来点不一样的。

现在对ElementUI、AntDesign和若依这些 UI 框架感到厌倦了&#xff0c;本次给大家分享一些更加个性化的UI界面。

干货|图生代码实例整理,让你的代码更高效

前言 “图生代码”。这项新功能允许开发人员直接利用产品设计图一键生成相应的代码&#xff0c;极大地提高了编程效率和研发速度。甚至会未来软件开发可能迎来一场革命性的变革。但图生代码究竟能直到什么程度&#xff1f;本文结合一款图生代码的实例程序整理了一些有代表意义…

C语言 数组——排序算法的函数实现

目录 交换法排序 用交换法对成绩数组升序排序 选择法排序 冒泡法排序 归并法排序 交换法排序 用交换法对成绩数组升序排序 选择法排序 冒泡法排序 归并法排序

期望薪资30k字节java2面,A给B转账的同时B给A转账怎么并发量最高

一面 1、自我介绍 2、详细介绍一下自己的做的项目&#xff1f;根据项目提了一些问题 3、hashmap原理 4、B树原理&#xff1f; 5、final禁止重排序原理&#xff1f; 6、设计一个榨汁机类&#xff0c;面向对象怎么设计&#xff1f; 7、get、post区别&#xff0c;使用场景&…

已解决ModuleNotFoundError : No module named ‘pandas亲测有效!!!

已解决ModuleNotFoundError : No module named ‘pandas亲测有效&#xff01;&#xff01;&#xff01; 亲测有效 报错问题解决思路解决方法 报错问题 在运行Python代码时&#xff0c;你可能会遇到以下报错信息&#xff1a; ModuleNotFoundError: No module named pandas这个…

华为昇腾310B初体验,OrangePi AIpro开发板使用测评

0、写在前面 很高兴收到官方的OrangePi AIpro开发板测试邀请&#xff0c;在过去的几年中&#xff0c;我在自己的博客写了一系列有关搭载嵌入式Linux系统的SBC&#xff08;单板计算机&#xff09;的博文&#xff0c;包括树莓派4系列、2K1000龙芯教育派、Radxa Rock5B、BeagleBo…

攒粒是什么?怎么用攒粒赚钱?

攒粒简介 攒粒的前身是91问问&#xff0c;隶属于上海道道永泉市场调查有限公司&#xff0c;是一家专业的全球在线调研服务公司&#xff0c;也是是国内排名前列的社区调查之一&#xff0c;10年在线调研&#xff0c;600万会员亲身体验&#xff0c;提供网络调查、市场调查、问卷调…

KT6368A蓝牙芯片AT命令会被透传出去,指令对为什么会被透传出去

一、简介 KT6368A再被连接之后&#xff0c;AT命令会被透传出去。被透传的这组AT命令是符合文档要求&#xff0c;不应被透传&#xff0c;实际却经常被透传。并且可以每次都复现 详细描述 有问题部分的串口数据监控结果如下&#xff1a;其中41 54 2B 42 4D 46 30 41 46 42 43 3…

从零自制docker-15-【实现 mydocker run -d 支持后台运行容器】

文章目录 实现目的莫名奇妙的问题对之前upper层出现root补充对run某些命令出现找不到文件或目录的原因代码效果 实现目的 docker run -d时容器在后台运行&#xff0c;而不会进入命令行交互形式 首先是需要添加-d选项然后设置当添加-d选项时候主进程不会等待子进程&#xff0c…