使用Python制作一个批量查询搜索排名的SEO免费工具

搭建背景

最近工作中需要用上 Google SEO(搜索引擎优化),有了解过的朋友们应该都知道SEO必不可少的工作之一就是查询关键词的搜索排名。关键词少的时候可以一个一个去查没什么问题,但是到了后期,一个网站都有几百上千的关键词,你再去一个一个查,至少要花费数小时的时间。
虽然市面上有很多SEO免费或者收费工具,但免费的基本都不能批量查,网上免费的最多也就只能10个10个查询,而且查询速度很慢。收费的工具如Ahrefs、SEMrush等以月为单位收费最低也都要上百美刀/月,当然如果觉得价格合适也可以进行购买,毕竟这些工具的很多功能都很实用。今天我给大家分享的这个排名搜索工具基于python实现,当然肯定是不需要花费任何费用,装上python开发环境即可。

实现步骤

话不多说,上代码:

import requests
from bs4 import BeautifulSoup

首先我们导入requestsBeautifulSoup两个库,requests用于发送HTTP请求,BeautifulSoup用于解析HTML。

def get_google_rank(keyword, website):try:url = f"https://www.google.com/search?q={keyword}"headers = {'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Mobile Safari/537.36'}response = requests.get(url, headers=headers)response.raise_for_status()soup = BeautifulSoup(response.text, 'html.parser')search_results = soup.find_all('div', class_='g')for i, result in enumerate(search_results):link = result.find('a')['href']if website in link:return i + 1  # 返回排名(从1开始)return -1  # 如果未找到网站,返回-1except requests.exceptions.RequestException as e:print(f"An error occurred: {e}")return None

上述代码定义了一个名为get_google_rank的函数,该函数接受两个参数:keyword(关键词)和website(网站域名)。函数的目标是获取指定关键词在谷歌搜索结果中的排名。

在函数内部,首先构建了一个URL,该URL使用指定的关键词进行谷歌搜索。然后设置了一个User-Agent头部,模拟一个浏览器的请求。使用requests.get方法发送HTTP请求,获取搜索结果页面的响应。response.raise_for_status()用于检查请求是否成功,如果返回的状态码不是200,会抛出一个异常。

接下来,使用BeautifulSoup库解析响应的HTML内容,创建一个BeautifulSoup对象,并使用html.parser解析器进行解析。然后通过find_all方法查找所有具有’class’属性为’g’的’div’元素,这些元素包含了搜索结果的信息。

接着使用enumerate函数遍历搜索结果列表,并使用result.find('a')['href']获取每个搜索结果中的链接。如果指定的网站域名出现在链接中,就返回当前的排名(从1开始计数)。

如果循环结束后未找到指定的网站域名,函数返回-1,表示未找到网站。

如果在请求过程中发生异常,会捕获requests.exceptions.RequestException异常,并打印错误消息,然后返回None

# 示例用法
keywords = ['摸鱼小游戏','是男人就下100层','游戏']
website = 'haiyong.site'for keyword in keywords:rank = get_google_rank(keyword, website)if rank is not None:if rank == -1:print(f"{keyword}没有排名")else:print(f"{keyword}排名第{rank}")

最后是一个示例用法的代码。定义了一个包含多个关键词的列表keywords和一个指定的网站域名website

通过for循环遍历关键词列表,调用get_google_rank函数获取每个关键词在谷歌搜索结果中的排名。如果返回的排名不为None,则根据排名的值进行条件判断,如果排名为-1,打印关键词没有排名的消息,否则打印关键词的排名信息。

以上就是整段代码的含义和逻辑。该代码实现了获取指定关键词在谷歌搜索结果中的排名,并通过示例展示了如何使用这个函数。

完整代码

import requests
from bs4 import BeautifulSoupdef get_google_rank(keyword, website):try:url = f"https://www.google.com.hk/search?q={keyword}"headers = {'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Mobile Safari/537.36'}response = requests.get(url, headers=headers)response.raise_for_status()soup = BeautifulSoup(response.text, 'html.parser')search_results = soup.find_all('div', class_='g')for i, result in enumerate(search_results):link = result.find('a')['href']if website in link:return i + 1  # 返回排名(从1开始)return -1  # 如果未找到网站,返回-1except requests.exceptions.RequestException as e:print(f"An error occurred: {e}")return None# 示例用法
keywords = ['摸鱼小游戏','是男人就下100层','游戏']
website = 'haiyong.site'for keyword in keywords:rank = get_google_rank(keyword, website)if rank is not None:if rank == -1:print(f"{keyword}没有排名")else:print(f"{keyword}排名第{rank}")

放个必应上查询的截图吧。

在这里插入图片描述
在这里插入图片描述
另外,需要注意的是,频繁的使用爬虫程序进行搜索引擎结果的抓取可能导致IP被谷歌封锁。

解决ip封锁问题

当我们查询很多次排名之后,会出现类似下图这种报错:

在这里插入图片描述

这个错误消息表明在向谷歌服务器发送请求时遇到了问题。具体来说,它显示了一个名为“429 Client Error”的错误,表明由于发送了过多的请求而被服务器拒绝。

HTTP状态码429表示“太多请求”,意味着你发送的请求过于频繁,超出了服务器允许的限制。当服务器检测到某个IP地址或用户发送过多请求时,会返回这个状态码以示警告或拒绝服务。

所以为了避免这种情况,可以考虑使用代理IP来分散请求,降低被封锁的风险。这里我推荐一款好用的代理IP服务商:亮数据,我也是在寻找数据挖掘工具的过程中了解到这个平台,选择代理ip进行关键词排名查询可以有效地规避被封锁的问题。

在这里插入图片描述

亮数据的IP代理服务产品优点包括:

  • 匿名性:通过使用代理网络,用户可以隐藏自身的IP,使目标网站无法检测到用户的真实身份,从而获取真实可靠的信息。
  • 合法性:使用代理网络访问公开开源数据是完全合法的,因为用户访问的是公开数据而非私人内容。
  • 多样性:代理类型丰富,包括数据中心代理、静态住宅代理、动态住宅代理、手机移动代理以及代理组合,以满足不同需求。

除了IP代理服务,还有网络爬虫及解锁工具:

  • 网络爬虫:网络爬虫技术可以帮助用户从目标网站上获取所需数据和信息,用于数据收集、分析等用途。
  • 解锁工具:解锁工具可以帮助用户突破地理位置限制或竞争信息屏蔽,确保能够从目标网站获取信息而不被屏蔽或误导商业决策。

亮数据为粉丝提供了10美金的抵用券,成功注册账户,并登录后在用户界面里输入折扣代码即可享受抵扣!

折扣代码:haiyong
访问页面:https://www.bright.cn/use-cases/serp/?utm_source=brand&utm_campaign=brnd-mkt_cn_csdn_haiyong&promo=haiyong

如有问题,可以关“Bright_Data”注亮数据官微,联系后台客服。

这些工具在不同场景下都发挥着重要作用,包括广告验证、旅游情报、品牌保护等,为用户提供了访问全球重要地区及重要站点的通行证,并助力数据采集工作。

下面是一个修改后的示例,演示了如何在函数中使用代理IP:

import requests
from bs4 import BeautifulSoup# 代理IP地址,替换成你自己的代理IP
proxy = {'http': 'http://your_proxy_ip:port','https': 'https://your_proxy_ip:port'
}def get_google_rank(keyword, website):try:url = f"https://www.google.com.hk/search?q={keyword}"headers = {'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Mobile Safari/537.36'}response = requests.get(url, headers=headers, proxies=proxy)  # 使用代理IP发送请求response.raise_for_status()soup = BeautifulSoup(response.text, 'html.parser')search_results = soup.find_all('div', class_='g')for i, result in enumerate(search_results):link = result.find('a')['href']if website in link:return i + 1  # 返回排名(从1开始)return -1  # 如果未找到网站,返回-1except requests.exceptions.RequestException as e:print(f"An error occurred: {e}")return None# 示例用法
keywords = ['摸鱼小游戏','是男人就下100层','游戏']
website = 'haiyong.site'for keyword in keywords:rank = get_google_rank(keyword, website)if rank is not None:if rank == -1:print(f"{keyword}没有排名")else:print(f"{keyword}排名第{rank}")

在这个修改后的示例中,我们添加了一个名为proxy的字典,其中包含了HTTP和HTTPS协议的代理IP地址。然后,在调用requests.get方法时,通过proxies参数将代理IP传递给请求。这样就能够使用代理IP发送请求,帮助降低被封锁的风险。

记得将’your_proxy_ip:port’替换成你自己的代理IP地址和端口即可。

到此我们就已经完成了用 Python 制作的一个批量查询搜索排名的SEO工具,当然,如果大家有什么更好的建议也可以在评论中指出,感谢大家的阅读。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/769160.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

浏览器工作原理与实践--渲染流程(上):HTML、CSS和JavaScript,是如何变成页面的

在上一篇文章中我们介绍了导航相关的流程,那导航被提交后又会怎么样呢?就进入了渲染阶段。这个阶段很重要,了解其相关流程能让你“看透”页面是如何工作的,有了这些知识,你可以解决一系列相关的问题,比如能…

获取第三方小程序指定页面的path

获取第三方小程序指定页面的path wx.navigateToMiniProgramappIdpathwx.navigateToMiniProgram 在开发小程序时需要跳转到第三方小程序指定页面时,需通过wx.navigateToMiniProgram方法完成。其中有两个主要参数appId和path,文本以问卷星为例,分享两者获取方法。 appId 在…

使用Python批量实现文件夹下所有Excel文件的第二张表合并

目录 一、前言 二、准备工作 三、实现步骤 遍历文件夹获取所有Excel文件 读取每个Excel文件的第二张表 合并所有表格 主函数 四、案例实践 五、注意事项 六、扩展与改进 七、总结 在数据处理和分析中,经常需要对多个Excel文件进行批量操作,特…

代码随想录阅读笔记-栈与队列【滑动窗口最大值】

题目 给定一个数组 nums,有一个大小为 k 的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的 k 个数字。滑动窗口每次只向右移动一位。 返回滑动窗口中的最大值。 进阶: 你能在线性时间复杂度内解决此题吗? 提示&am…

如何提升FFmpeg 1‰的转码性能

在8K视频编解码特别是解码部分,我做了一些优化工作,转码速度提升了50%以上。专家们评价曰:“主要围绕算法并行度的优化,属于算法性能优化的常规手段,在创新性和技术难度方面的体现较为一般”。评价过于犀利&#xff0c…

一文道破将bean注入到Spring中的几种方式

前言: 前两天有学妹问我如何将bean注入到Spring中,虽问题较简单,但还是写此文以告之。 在Java的Spring框架中,将bean注入到容器中是核心概念之一,这是实现依赖注入的基础。Spring提供了多种方式来将bean注入到容器中…

MySQL高可用解决方案――从主从复制到InnoDB Cluster架构

2024送书福利正式起航 关注「哪吒编程」,提升Java技能 文末送5本《MySQL高可用解决方案――从主从复制到InnoDB Cluster架构》 大家好,我是哪吒。 爱奇艺每天都为数以亿计的用户提供7x24小时不间断的视频服务。通过爱奇艺的平台,用户可以…

力扣:290. 单词规律

前言:剑指offer刷题系列 问题: 给定一种规律 pattern 和一个字符串 s ,判断 s 是否遵循相同的规律。 这里的 遵循 指完全匹配,例如, pattern 里的每个字母和字符串 s 中的每个非空单词之间存在着双向连接的对应规律…

docker推拉时的数据交换详解

前言 docker用了这么久了, 有没有想过, 在执行docker push 和 docker pull命令的时候, 数据是如何传递的呢? 换句话说, 如果要实现一个镜像仓库, 针对推拉的服务, 如何实现接口呢? 根据OCI 分发规范文档 的描述, 已经对整个推拉过程中要调用的接口有描述了. 但是, 纸上学来…

CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术

ChatGPT狂飙160天,世界已经不是之前的样子。 新建了人工智能中文站https://ai.weoknow.com 每天给大家更新可用的国内可用chatGPT资源 发布在https://it.weoknow.com 更多资源欢迎关注 视频理解因大量时空冗余和复杂时空依赖,同时克服两个问题难度巨大…

力扣每日一题 2024/3/24 零钱兑换

题目描述 用例说明 思路讲解 动态规划五步法 第一步确定dp数组的含义:dp[i]为凑到金额为i所用最少的硬币数量 第二步确定动态规划方程:凑足金额为j-coins[i]所需最少的硬币个数为dp[j-coins[i]],那凑足金额为j所用的最少硬币数为dp[j-coin…

怎么将文件快速生成二维码?文件二维码的在线生成技巧

现在越来越多的人都开始通过二维码的方式来传递文件,将word、pdf、excel、pdf等格式的文件通过扫码的方式展示或者下载文件,这种方式有很多的优势,包括传播速度快成本低,只需要生成一张二维码图片,就可以让其他人能够同…

Prompt-RAG:在特定领域中应用的革新性无需向量嵌入的RAG技术

论文地址:https://arxiv.org/ftp/arxiv/papers/2401/2401.11246.pdf 原文地址:https://cobusgreyling.medium.com/prompt-rag-98288fb38190 2024 年 3 月 21 日 虽然 Prompt-RAG 确实有其局限性,但在特定情况下它可以有效地替代传统向量嵌入 …

QTableWidget删除单元格

如果单元格内有内容&#xff0c;可以使用函数selectedItems() 获取有内容行的一个链表 QList<QTableWidgetItem *> items ui->qtableWidget->selectedItems(); //选中有内容的行可选择有内容的行int count items.count();for(int i 0 ; i < count; i){ …

搭建vite项目

文章目录 Vite 是一个基于 Webpack 的开发服务器&#xff0c;用于开发 Vue 3 和 Vite 应用程序 一、创建一个vite项目二、集成Vue Router1.安装 vue-routernext插件2.在 src 目录下创建一个名为 router 的文件夹&#xff0c;并在其中创建一个名为 index.js 的文件。在这个文件中…

element-ui radio-group 组件源码分享

接着上篇的 radio 组件源码分享&#xff0c;继续探索 radio-group 源码部分的实现过程&#xff0c;主要从以下四个方面来讲解&#xff1a; 1、el-radio-group 页面结构 2、el-radio-group 组件属性 3、el-radio-group 组件方法 4、核心代码部分 一、页面结构&#xff0c;如…

docker 不同架构镜像融合问题解决

1、背景 docker 作为目前容器的标准之一&#xff0c;但是对于多种架构的平台的混合编译支撑不是很好。因此衍生了镜像融合&#xff0c;分别将多种不同的架构构建好&#xff0c;然后将镜像进行融合上传。拉取镜像的会根据当前系统的架构拉取不同的镜像&#xff0c;也可以通过 -…

Linux内核err.h文件分析

在阅读和编写内核相关的代码时&#xff0c;经常会看到IS_ERR、ERR_PTR等函数。这些函数在内核头文件的err.h中。以我服务器的代码为例&#xff0c;内核版本为5.15。 这个文件的代码如下&#xff1a; /* SPDX-License-Identifier: GPL-2.0 */ #ifndef _LINUX_ERR_H #define _L…

基于nodejs+vue在线作业管理系统的设计与实现python-flask-django-php

这种个性化的网络系统管理更重视相互协调和管理合作,能激发管理者的创造性和主动性,这对在线作业管理系统来说非常有益。 关键词&#xff1a;在线作业管理系统&#xff0c;nodejs语言&#xff0c;express框架&#xff0c; 前端技术&#xff1a;nodejsvueelementui, Express 框架…

易源堂梵仕哲品牌新品发布会

祥龙启新&#xff0c;非凡无际&#xff01;2024年3月16日&#xff0c;上海易源堂集团梵仕哲品牌新品发布会在有着“山水宁海,寿者之乡”称号的浙江宁海顺利召开&#xff1b;易源堂集团联合创始人集团副总经理李振雨、易源堂集团营销策划总监曹斌&#xff0c;易源堂副总经理姚军…