爬虫cookie过期_python instagram 爬虫

叶湘伦:【文字篇】如何系统地自学 Python?​zhuanlan.zhihu.com

直接介绍一下具体的步骤以及注意点:

instagram 爬虫注意点

  • instagram 的首页数据是 服务端渲染的,所以首页出现的 11 或 12 条数据是以 html 中的一个 json 结构存在的(additionalData), 之后的帖子加载才是走 ajax 请求的
  • 在 2019/06 之前,ins 是有反爬机制的,请求时需要在请求头加了 'X-Instagram-GIS' 字段。其算法是:
    1、将 rhx_gis 和 queryVariables 进行组合
rhx_gis 可以在首页处的 sharedData 这个 json 结构中获得

2、然后进行 md5 哈希

e.g.

   queryVariables = '{"id":"' + user_id + '","first":12,"after":"' +cursor+ '"}'print(queryVariables)headers['X-Instagram-GIS'] = hashStr(GIS_rhx_gis + ":" + queryVariables)
  • 但是在在 2019/06 之后, instagram 已经取消了 X-Instagram-GIS 的校验,所以无需再生成 X-Instagram-GIS,上一点内容可以当做历史来了解了
  • 初始访问 ins 首页的时候会设置一些 cookie,设置的内容 (response header) 如下:
   set-cookie: rur=PRN; Domain=.instagram.com; HttpOnly; Path=/; Secureset-cookie: ds_user_id=11859524403; Domain=.instagram.com; expires=Mon, 15-Jul-2019 09:22:48 GMT; Max-Age=7776000; Path=/; Secureset-cookie: urlgen="{"45.63.123.251": 20473}:1hGKIi:7bh3mEau4gMVhrzWRTvtjs9hJ2Q"; Domain=.instagram.com; HttpOnly; Path=/; Secureset-cookie: csrftoken=Or4nQ1T3xidf6CYyTE7vueF46B73JmAd; Domain=.instagram.com; expires=Tue, 14-Apr-2020 09:22:48 GMT; Max-Age=31449600; Path=/; Secure
  • 关于 query_hash,一般这个哈希值不用怎么管,可以直接写死
  • 特别注意:在每次请求时务必带上自定义的 header,且 header 里面要有 user-agent,这样子才能使用 rhx_gis 来进行签名访问并且获取到数据。切记!是每次访问!例如:
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
}

大部分 api 的访问需要在请求头的 cookie 中携带 session-id 才能得到数据,一个正常的请求头 (request header) 如下:

   :authority: www.instagram.com:method: GET:path: /graphql/query/?query_hash=ae21d996d1918b725a934c0ed7f59a74&variables=%7B%22fetch_media_count%22%3A0%2C%22fetch_suggested_count%22%3A30%2C%22ignore_cache%22%3Atrue%2C%22filter_followed_friends%22%3Atrue%2C%22seen_ids%22%3A%5B%5D%2C%22include_reel%22%3Atrue%7D:scheme: httpsaccept: */*accept-encoding: gzip, deflate, braccept-language: zh-CN,zh;q=0.9,en;q=0.8,la;q=0.7cache-control: no-cachecookie: mid=XI-joQAEAAHpP4H2WkiI0kcY3sxg; csrftoken=Or4nQ1T3xidf6CYyTE7vueF46B73JmAd; ds_user_id=11859524403; sessionid=11859524403%3Al965tcIRCjXmVp%3A25; rur=PRN; urlgen="{"45.63.123.251": 20473}:1hGKIj:JvyKtYz_nHgBsLZnKrbSq0FEfeg"pragma: no-cachereferer: https://www.instagram.com/user-agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36x-ig-app-id: 936619743392459x-instagram-gis: 8f382d24b07524ad90b4f5ed5d6fccdbx-requested-with: XMLHttpRequest
  • 注意 user-agent、x-ig-app-id (html 中的 sharedData 中获取)、x-instagram-gis,以及 cookie 中的 session-id 配置
api 的分页 (请求下一页数据),如用户帖子列表
ins 中一个带分页的 ajax 请求,一般请求参数会类似下面:# 网页页面信息page_info = js_data["entry_data"]["ProfilePage"][0]["graphql"]["user"]["edge_owner_to_timeline_media"]['page_info']# 下一页的索引值AQCSnXw1JsoV6LPOD2Of6qQUY7HWyXRc_CBSMWB6WvKlseC-7ibKho3Em0PEG7_EP8vwoXw5zwzsAv_mNMR8yX2uGFZ5j6YXdyoFfdbHc6942wcursor = page_info['end_cursor']# 是否有下一页flag = page_info['has_next_page']
  • end_cursor 即为 after 的值,has_next_page 检测是否有下一页
    如果是有下一页,可进行第一次分页数据请求,第一次分页请求的响应数据回来之后,id,first 的值不用变,after 的值变为响应数据中 page_info 中 end_cursor 的值,再构造 variables,连同 query_hash 发起再下一页的请求
    再判断响应数据中的 page_info 中 has_next_page 的值,循环下去,可拿完全部数据。若不想拿完,可利用响应数据中的 edge_owner_to_timeline_media 中的 count 值来做判断,该值表示用户总共有多少媒体
  • 视频帖子和图片帖子数据结构不一样,注意判断响应数据中的 is_video 字段
  • 如果是用一个 ins 账号去采集的话,只要请求头的 cookie 中带上合法且未过期的 session_id,可直接访问接口,无需计算签名。
    最直接的做法是:打开浏览器,登录 instagram 后,F12 查看 xhr 请求,将 request header 中的 cookie 复制过来使用即可,向下面:
# -*- coding:utf-8 -*-
import requests
import re
import json
import urllib.parse
import hashlib
import sysUSER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'BASE_URL = 'https://www.instagram.com'
ACCOUNT_MEDIAS = "http://www.instagram.com/graphql/query/?query_hash=42323d64886122307be10013ad2dcc44&variables=%s"
ACCOUNT_PAGE = 'https://www.instagram.com/%s'proxies = {'http': 'http://127.0.0.1:1087','https': 'http://127.0.0.1:1087',
}# 一次设置proxy的办法,将它设置在一次session会话中,这样就不用每次都在调用requests的时候指定proxies参数了
# s = requests.session()
# s.proxies = {'http': '121.193.143.249:80'}def get_shared_data(html=''):"""get window._sharedData from page,return the dict loaded by window._sharedData str"""if html:target_text = htmlelse:header = generate_header()response = requests.get(BASE_URL, proxies=proxies, headers=header)target_text = response.textregx = r"s*.*s*<script.*?>.*_sharedDatas*=s*(.*?);</script>"match_result = re.match(regx, target_text, re.S)data = json.loads(match_result.group(1))return data# def get_rhx_gis():
#     """get the rhx_gis value from sharedData
#     """
#     share_data = get_shared_data()
#     return share_data['rhx_gis']def get_account(user_name):"""get the account info by username:param user_name::return:"""url = get_account_link(user_name)header = generate_header()response = requests.get(url, headers=header, proxies=proxies)data = get_shared_data(response.text)account = resolve_account_data(data)return accountdef get_media_by_user_id(user_id, count=50, max_id=''):"""get media info by user id:param id::param count::param max_id::return:"""index = 0medias = []has_next_page = Truewhile index <= count and has_next_page:varibles = json.dumps({'id': str(user_id),'first': count,'after': str(max_id)}, separators=(',', ':'))  # 不指定separators的话key:value的:后会默认有空格,因为其默认separators为(', ', ': ')url = get_account_media_link(varibles)header = generate_header()response = requests.get(url, headers=header, proxies=proxies)media_json_data = json.loads(response.text)media_raw_data = media_json_data['data']['user']['edge_owner_to_timeline_media']['edges']if not media_raw_data:return mediasfor item in media_raw_data:if index == count:return mediasindex += 1medias.append(general_resolve_media(item['node']))max_id = media_json_data['data']['user']['edge_owner_to_timeline_media']['page_info']['end_cursor']has_next_page = media_json_data['data']['user']['edge_owner_to_timeline_media']['page_info']['has_next_page']return mediasdef get_media_by_url(media_url):response = requests.get(get_media_url(media_url), proxies=proxies, headers=generate_header())media_json = json.loads(response.text)return general_resolve_media(media_json['graphql']['shortcode_media'])def get_account_media_link(varibles):return ACCOUNT_MEDIAS % urllib.parse.quote(varibles)def get_account_link(user_name):return ACCOUNT_PAGE % user_namedef get_media_url(media_url):return media_url.rstrip('/') + '/?__a=1'# def generate_instagram_gis(varibles):
#     rhx_gis = get_rhx_gis()
#     gis_token = rhx_gis + ':' + varibles
#     x_instagram_token = hashlib.md5(gis_token.encode('utf-8')).hexdigest()
#     return x_instagram_tokendef generate_header(gis_token=''):# todo: if have session, add the session key:value to headerheader = {'user-agent': USER_AGENT,}if gis_token:header['x-instagram-gis'] = gis_tokenreturn headerdef general_resolve_media(media):res = {'id': media['id'],'type': media['__typename'][5:].lower(),'content': media['edge_media_to_caption']['edges'][0]['node']['text'],'title': 'title' in media and media['title'] or '','shortcode': media['shortcode'],'preview_url': BASE_URL + '/p/' + media['shortcode'],'comments_count': media['edge_media_to_comment']['count'],'likes_count': media['edge_media_preview_like']['count'],'dimensions': 'dimensions' in media and media['dimensions'] or {},'display_url': media['display_url'],'owner_id': media['owner']['id'],'thumbnail_src': 'thumbnail_src' in media and media['thumbnail_src'] or '','is_video': media['is_video'],'video_url': 'video_url' in media and media['video_url'] or ''}return resdef resolve_account_data(account_data):account = {'country': account_data['country_code'],'language': account_data['language_code'],'biography': account_data['entry_data']['ProfilePage'][0]['graphql']['user']['biography'],'followers_count': account_data['entry_data']['ProfilePage'][0]['graphql']['user']['edge_followed_by']['count'],'follow_count': account_data['entry_data']['ProfilePage'][0]['graphql']['user']['edge_follow']['count'],'full_name': account_data['entry_data']['ProfilePage'][0]['graphql']['user']['full_name'],'id': account_data['entry_data']['ProfilePage'][0]['graphql']['user']['id'],'is_private': account_data['entry_data']['ProfilePage'][0]['graphql']['user']['is_private'],'is_verified': account_data['entry_data']['ProfilePage'][0]['graphql']['user']['is_verified'],'profile_pic_url': account_data['entry_data']['ProfilePage'][0]['graphql']['user']['profile_pic_url_hd'],'username': account_data['entry_data']['ProfilePage'][0]['graphql']['user']['username'],}return accountaccount = get_account('shaq')result = get_media_by_user_id(account['id'], 56)media = get_media_by_url('https://www.instagram.com/p/Bw3-Q2XhDMf/')print(len(result))
print(result)

封装成库了!

如果还有问题未能得到解决,搜索887934385交流群,进入后下载资料工具安装包等。最后,感谢观看!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/457396.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

php 无限循环

<?php header("Content-type:text/html;charsetutf-8"); $arr array( array(1, 0, 语文), array(2, 1, 数学), array(3, 0, 英文), array(4, 3, 美术), ); function xunhuan($pid 0) { global $arr; foreach ($arr as $value) { if ($value[1] $pid) { ech…

MySQL InnoDB 是如何存储数据的

InnoDB 是怎么存储数据的 本文是《MySQL 是怎样运行的 —— 从根儿上理解 MySQL》读书总结&#xff0c;强烈推荐这本书&#xff1b; CSDN 不能显示 SVG&#xff0c;可能有图片加载不出来&#xff0c;可以到 我的博客 上看。 数据目录 众所周之&#xff0c;MySQL 的数据是存储在…

蔬菜大棚成本_蔬菜大棚种植成本和利润究竟如何?种植户有话说

大棚蔬菜种植&#xff0c;到底利润高不高&#xff0c;就让亲身体验过的人来说下自己的情况吧。农大老家山东也是大棚蔬菜种植比较早的地方&#xff0c;直到现在大棚种植蔬菜在各地都还是不少。大棚蔬菜种植&#xff0c;是有相应的补贴政策&#xff0c;在农业种植当中&#xff0…

WebSocket实战之————GatewayWorker使用笔记例子

参考文档&#xff1a;http://www.workerman.net/gatewaydoc/ 目录结构 ├── Applications // 这里是所有开发者应用项目 │ └── YourApp // 其中一个项目目录&#xff0c;目录名可以自定义 │ ├── Events.php // 开发者只需要关注这个文件 │ ├── st…

[转]关于凸优化的一些简单概念

没有系统学过数学优化&#xff0c;但是机器学习中又常用到这些工具和技巧&#xff0c;机器学习中最常见的优化当属凸优化了&#xff0c;这些可以参考Ng的教学资料&#xff1a;http://cs229.stanford.edu/section/cs229-cvxopt.pdf&#xff0c;从中我们可以大致了解到一些凸优化…

Go 1.18.1 Beta 尝鲜 泛型 FuzzTest workspace mode

Go 1.18.1 Beta 尝鲜 昨天&#xff0c;go 终于发布了 1.18 的 beta 版本, 带来了大家期待已久的泛型&#xff0c;抓紧时间康康能不能赶上热乎的。 下载地址 根据社区昨天发的 Go 1.18 Beta 1 is available, with generics 这次版本更新主要带来的新功能有&#xff1a; 泛型模…

centos7部署两个mysql_一文掌握mysql实用工具--pt-online-schema-change、innotop部署

概述因为OSC和innotop这两个需要的依赖包比较接近&#xff0c;所以这次就写一起了&#xff0c;下面介绍下完整的部署教程&#xff0c;以下基于centos7操作系统。官网文档&#xff1a;http://dev.mysql.com/doc/refman/5.7/en/innodb-create-index-overview.htmlOSC&#xff1a;…

python面试题目

问题一&#xff1a;以下的代码的输出将是什么? 说出你的答案并解释。 1234567891011121314class Parent(object):x 1class Child1(Parent):passclass Child2(Parent):passprint Parent.x, Child1.x, Child2.xChild1.x 2print Parent.x, Child1.x, Child2.xParent.x 3print …

修改页面后获得flag_互动征集丨是时候为2021立flag了

2020马上就要过去了今年的flag各位小伙伴实现了多少&#xff1f;翻出了生灰的flag擦擦说不定2021还能接着用哦2020年就要过去了还记得你在年初立下的那些Flag吗&#xff1f;减肥“明天我就开始减肥&#xff01;”是大部分人在大部分时候都挂在嘴边的一句话疫情宅家不仅没减成还…

Python3.10 结构化模式匹配 PEP 634

Python3.10 结构化模式匹配 PEP 634 眼看 2021 马上结束&#xff0c;python 发布了它的 3.10 版本&#xff0c;优化了错误消息&#xff0c;上下文管理器等内容&#xff0c;但更吸引我的还是结构化模式匹配。 众所周之 switch 一直是 python 社区呼声比较高的一个功能&#xff…

为ESXI 添加ISCSI存储设备 Linux服务器系统

为ESXI 添加ISCSI存储设备 Linux系统本文使用的LINUX 6系统上一块硬盘制作的ISCSI存储设备其IP地址为&#xff1a;192.168.26.218:在系统上直接输入&#xff1a;yum -y install scsi-target-utils 命令 安装 iscsi分区设置我们将SDD这块硬盘的SDD1作为iscsi存储设备编辑ISCSI配…

出栈顺序 与 卡特兰数(Catalan)的关系

一&#xff0c;问题描述 给定一个以字符串形式表示的入栈序列&#xff0c;请求出一共有多少种可能的出栈顺序&#xff1f;如何输出所有可能的出栈序列&#xff1f; 比如入栈序列为&#xff1a;1 2 3 &#xff0c;则出栈序列一共有五种&#xff0c;分别如下&#xff1a;1 2 3、…

[译] Bounds Check Elimination 边界检查消除

[译] Bounds Check Elimination 边界检查消除 Go 是一种内存安全的语言&#xff0c;在针对数组 (array) 或 Slice 做索引和切片操作时&#xff0c;Go 的运行时&#xff08;runtime&#xff09;会检查所涉及的索引是否超出范围。如果索引超出范围&#xff0c;将产生一个 Panic&…

cad多段线画圆弧方向_CAD箭头怎么画

CAD箭头怎么画问&#xff1a;CAD箭头怎么画&#xff1f;答&#xff1a;想要回答CAD箭头怎么画这个问题&#xff0c;得先从CAD多段线命令说起&#xff0c;画箭只是多段线的一种应用。执行CAD多段线命令的三种方式1.单击菜单栏上的"绘图">>"多段线"。2…

HDU 5410 CRB and His Birthday ——(完全背包变形)

对于每个物品&#xff0c;如果购买&#xff0c;价值为A[i]*xB[i]的背包问题。 先写了一发是WA的 。代码如下&#xff1a; 1 #include <stdio.h>2 #include <algorithm>3 #include <string.h>4 #include <set>5 using namespace std;6 typedef pair<…

一篇讲Java指令重排和内存可见性的好文

在这里&#xff1a; http://tech.meituan.com/java-memory-reordering.html 指令重排和内存可见性&#xff08;缓存不一致&#xff09;是两个不同的问题。 volatile关键字太强&#xff0c;即阻挡指令重排&#xff0c;又保证内存一致性。 unsafe.putOrderedXXX()只阻挡指令重排&…

php 获取delete蚕丝_php结合Redis实现100万用户投票项目,并实时查看到投票情况的案例...

场景&#xff1a;某网站需要对其项目做一个投票系统&#xff0c;投票项目上线后一小时之内预计有100万用户进行投票&#xff0c;希望用户投票完就能看到实时的投票情况这个场景可以使用redismysql冷热数据交换来解决。何为冷热数据交换&#xff1f;冷数据&#xff1a;之前使用的…

硬件内存模型 Hardware Memory Models

硬件内存模型 Hardware Memory Models (Memory Models, Part 1) Posted on Tuesday, June 29, 2021. 简介&#xff1a;童话的终结 很久以前&#xff0c;当人们还在写单线程程序的时候&#xff0c;让程序跑的更快的一个最有效的办法就是什么也不做&#xff0c;因为下一代硬件…

碰到日期题就怕的我来写一道水题吧

HDOJ-2005&#xff0c; http://acm.hdu.edu.cn/showproblem.php?pid2005 20XX系列的水题哈哈&#xff0c;写了二十分钟&#xff0c;就为找到一种比较正常不傻逼的写法。。。 嗯&#xff0c;学习了一下&#xff0c;闰年的判断可以写成一个接受参数的宏。 #define lev(n) (n%40&…

判断是否为gif/png图片的正确姿势

判断是否为gif/png图片的正确姿势 1.在能取到图片后缀的前提下 123456789//假设这是一个网络获取的URLNSString *path "http://pic3.nipic.com/20090709/2893198_075124038_2.gif";// 判断是否为gifNSString *extensionName path.pathExtension;if ([extensionName…