使用Python selenium爬虫领英数据,并进行AI岗位数据挖掘

随着OpenAI大火,从事AI开发的人趋之若鹜,这次使用Python selenium抓取了领英上几万条岗位薪资数据,并使用Pandas、matplotlib、seaborn等库进行可视化探索分析。


但领英设置了一些反爬措施,对IP进行限制封禁,因此会用到IP代理,用不同的IP进行访问,我这里用的是亮数据的IP代理。

亮数据是一家提供网络数据采集解决方案的网站,它拥有全球最大的代理IP网络,覆盖超过195个国家和地区,拥有超过7200万个不重复的真人IP地址。

这些IP地址可以用于匿名浏览网页、绕过IP封锁、抓取网页数据等。

亮数据官网地址:

https://get.brightdata.com/weijun

另外,亮数据提供各种数据采集工具,帮助企业轻松采集网页数据。这些工具包括Web Scraper IDE、亮数据浏览器、SERP API等等。

下面是关于Python爬取领英的步骤和代码。

  • 1、爬虫采集AI岗位数据-selenium&亮数据
  • 2、处理和清洗数据-pandas
  • 3、可视化数据探索-matplotlib seaborn

1、爬虫采集AI岗位数据-selenium&亮数据

# 导入相关库
import random
from selenium import webdriver
from selenium.webdriver.common.by import By
import time
import requests
import pandas as pd
from scripts.helpers import strip_val, get_value_by_path# 选择Edge浏览器
BROWSER = 'edge'# 创建网络会话,登录Linkedin
# create_session函数用于创建一个自动化的浏览器会话,并使用提供的电子邮件和密码登录LinkedIn。
# 它首先根据BROWSER变量选择相应的浏览器驱动程序(Chrome或Edge),然后导航到LinkedIn的登录页面,自动填写登录表单,并提交。
# 登录成功后,它会获取当前会话的cookies,并创建一个requests.Session对象来保存这些cookies,以便后续的HTTP请求可以保持登录状态。最后,它返回这个会话对象。
def create_session(email, password):if BROWSER == 'chrome':driver = webdriver.Chrome()elif BROWSER == 'edge':driver = webdriver.Edge()# 登录信息driver.get('https://www.linkedin.com/checkpoint/rm/sign-in-another-account')time.sleep(1)driver.find_element(By.ID, 'username').send_keys(email)driver.find_element(By.ID, 'password').send_keys(password)driver.find_element(By.XPATH, '//*[@id="organic-div"]/form/div[3]/button').click()time.sleep(1)input('Press ENTER after a successful login for "{}": '.format(email))driver.get('https://www.linkedin.com/jobs/search/?')time.sleep(1)cookies = driver.get_cookies()driver.quit()session = requests.Session()for cookie in cookies:session.cookies.set(cookie['name'], cookie['value'])return session# 获取登录账号和密码
def get_logins(method):logins = pd.read_csv('logins.csv')logins = logins[logins['method'] == method]emails = logins['emails'].tolist()passwords = logins['passwords'].tolist()return emails, passwords# JobSearchRetriever类用于检索LinkedIn上的职位信息。
# 它初始化时设置了一个职位搜索链接,并获取登录凭证来创建多个会话。
# 它还定义了一个get_jobs方法,该方法通过会话发送HTTP GET请求到LinkedIn的职位搜索API,获取职位信息,并解析响应以提取职位ID和标题。
# 如果职位被标记为赞助(即广告),它也会记录下来。
class JobSearchRetriever:def __init__(self):self.job_search_link = 'https://www.linkedin.com/voyager/api/voyagerJobsDashJobCards?decorationId=com.linkedin.voyager.dash.deco.jobs.search.JobSearchCardsCollection-187&count=100&q=jobSearch&query=(origin:JOB_SEARCH_PAGE_OTHER_ENTRY,selectedFilters:(sortBy:List(DD)),spellCorrectionEnabled:true)&start=0'emails, passwords = get_logins('search')self.sessions = [create_session(email, password) for email, password in zip(emails, passwords)]self.session_index = 0self.headers = [{'Authority': 'www.linkedin.com','Method': 'GET','Path': 'voyager/api/voyagerJobsDashJobCards?decorationId=com.linkedin.voyager.dash.deco.jobs.search.JobSearchCardsCollection-187&count=25&q=jobSearch&query=(origin:JOB_SEARCH_PAGE_OTHER_ENTRY,selectedFilters:(sortBy:List(DD)),spellCorrectionEnabled:true)&start=0','Scheme': 'https','Accept': 'application/vnd.linkedin.normalized+json+2.1','Accept-Encoding': 'gzip, deflate, br','Accept-Language': 'en-US,en;q=0.9','Cookie': "; ".join([f"{key}={value}" for key, value in session.cookies.items()]),'Csrf-Token': session.cookies.get('JSESSIONID').strip('"'),# 'TE': 'Trailers','User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36',# 'X-Li-Track': '{"clientVersion":"1.12.7990","mpVersion":"1.12.7990","osName":"web","timezoneOffset":-7,"timezone":"America/Los_Angeles","deviceFormFactor":"DESKTOP","mpName":"voyager-web","displayDensity":1,"displayWidth":1920,"displayHeight":1080}''X-Li-Track': '{"clientVersion":"1.13.5589","mpVersion":"1.13.5589","osName":"web","timezoneOffset":-7,"timezone":"America/Los_Angeles","deviceFormFactor":"DESKTOP","mpName":"voyager-web","displayDensity":1,"displayWidth":360,"displayHeight":800}'} for session in self.sessions]# self.proxies = [{'http': f'http://{proxy}', 'https': f'http://{proxy}'} for proxy in []]# 添加亮数据代理IP# get_jobs函数用于发送HTTP请求到LinkedIn的职位搜索API,获取职位信息# 它使用当前会话索引来选择一个会话,并发送带有相应请求头的GET请求。如果响应状态码是200(表示请求成功)# 它将解析JSON响应,提取职位ID、标题和赞助状态,并将这些信息存储在一个字典中。def get_jobs(self):results = self.sessions[self.session_index].get(self.job_search_link, headers=self.headers[self.session_index]) #, proxies=self.proxies[self.session_index], timeout=5)self.session_index = (self.session_index + 1) % len(self.sessions)if results.status_code != 200:raise Exception('Status code {} for search\nText: {}'.format(results.status_code, results.text))results = results.json()job_ids = {}for r in results['included']:if r['$type'] == 'com.linkedin.voyager.dash.jobs.JobPostingCard' and 'referenceId' in r:job_id = int(strip_val(r['jobPostingUrn'], 1))job_ids[job_id] = {'sponsored': False}job_ids[job_id]['title'] = r.get('jobPostingTitle')for x in r['footerItems']:if x.get('type') == 'PROMOTED':job_ids[job_id]['sponsored'] = Truebreakreturn job_ids

2、处理和清洗数据-pandas

# 导入相关库
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from wordcloud import WordCloud# 导入职位数据
job_postings = pd.read_csv('./archive/job_postings.csv')
job_postings# 根据AI岗位关键词筛选AI相关岗位
keywords = ['data scientist', 'machine learning', 'data science', 'data analyst', 'ml engineer',' data engineer','ai engineer','ai/ml','ai/nlp','ai reasearcher','ai consultant','artificial intelligence','computer vision','deep learning']# 新增一列,标注职位是否包含关键字
def check_keywords(description):for keyword in keywords:if keyword in str(description).lower():return 'AI岗位'return '非AI岗位'job_postings['is_programmer'] = job_postings['description'].apply(check_keywords)
# 保存AI岗位新表
job_ai = job_postings[(job_postings['is_programmer']=='AI岗位') & (job_postings['pay_period']=='YEARLY') & (job_postings['max_salary']>10000) ]
job_others = job_postings[(job_postings['is_programmer']=='非AI岗位') & (job_postings['pay_period']=='YEARLY') & (job_postings['max_salary']>10000) & (job_postings['max_salary']<200000) ]
job_ai

处理好的数据如下:

3、可视化数据探索-matplotlib seaborn

AI岗位中位数年薪18W美金,最高50w以上

# 设置Seaborn样式和调色板
sns.set_style("whitegrid")
palette = ["skyblue"]
# palette = ["#87CEEB"]  # 使用颜色代码或者其他有效的颜色名称,这里使用天蓝色的颜色代码# 箱线图
plt.figure(figsize=(8, 6))
sns.boxplot(y='max_salary', data=job_ai, palette=palette)
plt.ylabel('Yearly Salary')
plt.title('AI Yearly Salary Boxplot')# 添加分位数标注
quantiles = job_ai['max_salary'].quantile([0.25, 0.5, 0.75])
for q, label in zip(quantiles, ['Q1', 'Median', 'Q3']):plt.text(0, q, f'{label}: {int(q)}', horizontalalignment='center', verticalalignment='bottom', fontdict={'size': 10})
# 添加平均值、最大最小值标注
avg_value = job_ai['max_salary'].mean()  
max_value = job_ai['max_salary'].max()  
min_value = job_ai['max_salary'].min()  
plt.text(0.2, avg_value, f'Avg: {int(avg_value)}', ha='left', va='bottom', fontdict={'size': 10})  
plt.text(0, max_value, f'Max: {int(max_value)}', ha='center', va='bottom', fontdict={'size': 10})  
plt.text(0, min_value, f'Min: {int(min_value)}', ha='center', va='top', fontdict={'size': 10})  # 显示图形  
plt.show()

AI岗位年薪主要集中在15-30w美金

# 1. 直方图
plt.figure(figsize=(10, 6))
plt.hist(job_ai['max_salary'], bins=30, color='skyblue', edgecolor='black')
plt.xlabel('Yearly Salary')
plt.ylabel('Frequency')
plt.title('Yearly Salary Distribution')
plt.show()

AI大多需要高级岗,对软件开发、机器学习、数据科学要求较多

# 词云
stopwords = set(["Manager"]) 
job_titles_text = ' '.join(job_ai['title'])
wordcloud = WordCloud(width=800, height=400, background_color='white',stopwords=stopwords).generate(job_titles_text)# 显示词云
plt.figure(figsize=(10, 6))
plt.imshow(wordcloud, interpolation='bilinear')
plt.title('AI Job Title Word Cloud')
plt.axis('off')
plt.tight_layout()
plt.show()

在这里插入图片描述
数据发现,AI岗位平均年薪竟高达18万美金,远超普通开发岗,而且AI岗位需求也在爆发性增长。

这次使用的是亮数据IP服务,质量还是蛮高的,大家可以试试。

亮数据官网地址:

https://get.brightdata.com/weijun

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/857160.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

每月 GitHub 探索|10 款引领科技趋势的开源项目

1.IT-Tools 仓库名称&#xff1a; CorentinTh/it-tools 截止发稿星数: 16842 (近一个月新增:5744) 仓库语言: Vue 仓库开源协议&#xff1a; GNU General Public License v3.0 引言 CorentinTh/it-tools 是一个开源项目&#xff0c;提供各种对开发者友好的在线工具&#xff0…

【C语言】14.数组指针与函数指针及其应用

一、数组指针 顾名思义&#xff0c;数组指针就是指向数组的指针。形如&#xff1a;int (*p)[10]; 注意&#xff1a;[]的优先级要高于*号的&#xff0c;所以必须加上&#xff08;&#xff09;来保证p先和*结合。 数组指针的使用 int arr[10] {0}; int (*parr)[10] &arr;…

numpy-stl库的基本使用及notebook下的使用

numpy-stl库的基本使用及notebook下的可视化 https://pypi.org/project/numpy-stl/ 安装 conda install -c conda-forge numpy-stl引入资源 import numpy as np import matplotlib.pyplot as plt from mpl_toolkits import mplot3d from stl import mesh读取stl文件 stl_fil…

springboot特殊问题处理2——springboot集成flowable实现工作流程的完整教程(一)

在实际项目开发过程中&#xff0c;流程相关的业务实现采用工作流会异常清晰明了&#xff0c;但是Activity学习成本和开发难度对追求效率的开发工作者来说异常繁琐&#xff0c;但是作为Activity的亲儿子之一的flowable&#xff0c;其轻量化的使用和对应的api会让开发者感受简单&…

超越GPT-4o!新王Claude 3.5 Sonnet来啦!免费使用

目录 01 比GPT-4o更智能&#xff0c;比Claude 3 Opus快两倍 02 最强视觉Model 03 使用Claude的新方式&#xff1a;Artifacts 04 安全性和透明度 Anthropic刚刚发布了全新大模型Claude 3.5 Sonnet&#xff0c;号称是迄今为止最智能的模型。一文几步教你注册使用Claude 3.5 S…

【面试题】风险评估和应急响应的工作流程

风险评估和应急响应是网络安全管理中两个重要的环节。下面分别介绍它们的工作流程&#xff1a; 一、风险评估工作流程&#xff1a; 1.确定评估范围&#xff1a;明确需要评估的信息系统或资产的范围。 2.资产识别&#xff1a;识别并列出所有需要评估的资产&#xff0c;包括硬件…

prometheus+grafana搭建监控系统

1.prometheus服务端安装 1.1下载包 使用wget下载 &#xff08;也可以直接去官网下载包Download | Prometheus&#xff09; wget https://github.com/prometheus/prometheus/releases/download/v2.44.0/prometheus-2.44.0.linux-amd64.tar.gz1.2解压 tar xf prometheus-2.44…

Modbus协议转Profibus协议网关模块连PLC与激光发射器通讯

一、概述 在PLC控制系统中&#xff0c;从站设备通常以Modbus协议&#xff0c;ModbusTCP协议&#xff0c;Profinet协议&#xff0c;Profibus协议&#xff0c;Profibus DP协议&#xff0c;EtherCAT协议&#xff0c;EtherNET协议等。本文将重点探讨PLC连接Modbus协议转Profibus协…

RGB彩色模型理解与编程实例

一、引言 RGB彩色模型中的R、G和B为三原色&#xff0c;通常R、G和B分别用8位表示&#xff0c;因此24位的RGB 真彩色图像能表示16777216种颜色。在如右图所示RGB彩色立方体可知&#xff0c;任意两种原色混合可以合成一种新的颜色。红&#xff08;1&#xff0c;0&#xff0c;0&a…

微型操作系统内核源码详解系列五(3):cm3下调度的开启

系列一&#xff1a;微型操作系统内核源码详解系列一&#xff1a;rtos内核源码概论篇&#xff08;以freertos为例&#xff09;-CSDN博客 系列二&#xff1a;微型操作系统内核源码详解系列二&#xff1a;数据结构和对象篇&#xff08;以freertos为例&#xff09;-CSDN博客 系列…

如何使用nginx部署https网站(亲测可行)

公司本来有网站sqlynx.com是http运行的&#xff0c;但因为产品出海&#xff0c;基本上都要求使用https&#xff0c;但又需要兼容已有的http服务&#xff0c;所以我自己尝试做了一次https的部署&#xff0c;目前是正常可用的。 目录 步骤 1&#xff1a;安装 Nginx 步骤 2&…

数据仓库的实际应用示例-广告投放平台为例

数据仓库的数据分层通常包括以下几层&#xff1a; ODS层&#xff1a;存放原始数据&#xff0c;如日志数据和结构化数据。DWD层&#xff1a;进行数据清洗、脱敏、维度退化和格式转换。DWS层&#xff1a;用于宽表聚合值和主题加工。ADS层&#xff1a;面向业务定制的应用数据层。…

node版本过高出现ERR_OSSL_EVP_UNSUPPORTED错误

错误原因&#xff1a; 新版本的nodejs使用的openssl和旧版本不同&#xff0c;导致出错 解决方法&#xff1a; 1.将node版本重新换回16.x 2 windows 下 在package.json文件下添加set NODE_OPTIONS--openssl-legacy-provider && "scripts": {"dev"…

Linux开发讲课8--- linux的5种IO模型

一、这里IO是什么 操作系统为了保护自己&#xff0c;设计了用户态、内核态两个状态。应用程序一般工作在用户态&#xff0c;当调用一些底层操作的时候&#xff08;比如 IO 操作&#xff09;&#xff0c;就需要切换到内核态才可以进行 服务器从网络接收的大致流程如下&#xff1…

非常难找的AI衣服图片处理工具推荐,一键轻松AI编辑

在当今数字化时代&#xff0c;AI技术已经渗透到我们生活的方方面面。特别是在图片处理领域&#xff0c;AI的强大功能让很多原本繁琐复杂的操作变得简单易行。今天&#xff0c;我要为大家推荐一款好用的AI衣服图片处理工具——让你一键轻松完成AI编辑&#xff0c;快速实现专业效…

wordpress站群搭建3api代码生成和swagger使用

海鸥技术下午茶-wordpress站群搭建3api代码生成和swagger使用 目标:实现api编写和swagger使用 0.本次需要使用到的脚手架命令 生成 http server 代码 goctl api go -api all.api -dir ..生成swagger文档 goctl api plugin -plugin goctl-swagger"swagger -filename st…

变电站智能巡检机器人解决方案

我国拥有庞大的电网体系&#xff0c;变电站数量众多&#xff0c;且近年来快速增长。然而目前我国变电站巡检方式仍以人工为主&#xff0c;存在效率低下、监控不全面等问题。变电站通常是一个封闭的系统空间&#xff0c;设备种类繁多、占地面积广阔&#xff0c;这对巡检人员实时…

缓存雪崩(主从复制、哨兵模式(脑裂)、分片集群)

缓存雪崩&#xff1a; 在同一时段大量的缓存key同时失效或者Redis服务宕机&#xff0c;导致大量请求到达数据库&#xff0c;带来巨大压力。 方法一&#xff1a; 给不同key的TTL添加随机值&#xff0c;以此避免同一时间大量key失效。&#xff08;用于解决同一时间大量key过期&…

qt 如何获取磁盘信息、QStorageInfo

以往获取qt磁盘信息&#xff0c;笔者是通过一下API转换的 BOOL GetDiskFreeSpaceExW([in, optional] LPCWSTR lpDirectoryName,[out, optional] PULARGE_INTEGER lpFreeBytesAvailableToCaller,[out, optional] PULARGE_INTEGER lpTotalNumberOfBytes,[out, optional…

excel基本操作

excel 若要取消在数据表中进行的所有筛选 步骤操作&#xff1a; 单击“数据”选项卡。在“排序和筛选”组中&#xff0c;找到“清除”按钮。点击“清除”按钮。 图例&#xff1a; 将文本文件的数据导入到Excel工作表中进行数据处理 步骤&#xff1a; 在Excel中&#xff0c…