C# 学习之路--百度网盘爬虫设计与实现(一)

百度网盘爬虫

现在市面上出现了很多网盘搜索引擎,写这系列博文及爬虫程序的初衷:

  • 更方面的查找资源
  • 学习C#
  • 学习爬虫的设计与实现
  • 记录学习历程
  • 自我监督

    能力有限,如有不妥之处,还请各位看官点评。同在学习的网友~与君共勉。

工具/库选择
  • mysql5.6 (习惯使然,sqlserver比较庞大,个人使用起来不是很习惯,后期可能改为sqlserver)
  • HttpWebRequestHttpWebResponseJSON.NET
  • vs2015, .NET4.5

    PS:介绍以上是权当做个备忘录/提示。

百度网盘搜索流程
此爬虫原理是通过爬取用户的分享/专辑保存链接来达到资源搜索的目的,而用户与用户之间通过订阅/关注来联系,慢慢形成一个庞大的爬虫网络。
  1. 首先设定爬取用户(初始化爬虫队列)。
  2. 遍历用户分享/专辑,更改队列状态。
  3. 将用户订阅/关注用户加入队列。
  4. 重复以上步骤。

    PS:看似简单的流程,想要精工还需细磨。

获取百度网盘推荐用户
当没有订阅任何用户时,网盘的分享动态界面会出现一些用户噢。这是系统推荐的用户,虽然改动不一定会很大,但是可以作为爬虫的初始用户来处理(这种推荐用户听说关注的人都不少噢)

接口返回信息:

errorno: 状态码
request_id:请求ID
hotuser_list:用户列表

用户列表结构:

type:类型(通常返回-1,不明用途)
hot_uname:用户昵称
avatar_url:头像缩略图地址
intro:描述
follow_count:订阅人数
fans_count:粉丝人数
user_type:用户类型?(不明意义)
is_vip:是否为VIP
pubshare_count:分享数
hot_uk:不知道啥玩意
album_count:分享专辑数
END
暂时就写到这儿了,要去写代码了~ 写完再会

转载于:https://www.cnblogs.com/By-ruoyu/p/6993424.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/392491.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

实习生对企业的认识_如何成为您认识的超级明星实习生

实习生对企业的认识by Maple Ong由Maple Ong 如何成为您认识的超级明星实习生 (How to be The Superstar Intern You Know You Are) 遏制冒名顶替综合症,为即将到来的软件工程实习做准备 (Curb the Impostor Syndrome and get prepared for your upcoming Software…

7时过2小时是几时_2017最北师大版二年级下册数学第七单元《时、分、秒》过关检测卷...

二年级数学下册时分秒测试卷一、填一填。(每空1分,共36分)1.钟面上有()大格,()个小格,时针走1个大格是()时,分针走一个大格是()分。2.1分()秒()分1时1分15秒()秒3.1小时20分()分90分()小时()分 70秒()分()秒4.用时、分、秒填空a)我…

在没人相信的时候,你的坚持才真正可贵

2018 世界 VR 产业大会在南昌开幕,阿里巴巴创始人马云在演讲中说: “在人人都相信一个产业的时候,其实你已经没有机会了。在没有人相信的时候,你的坚持才是真正的珍贵。很多人是因为看见而相信,只有很少数的人是因为相…

leetcode 49. 字母异位词分组(排序+hash)

给定一个字符串数组,将字母异位词组合在一起。字母异位词指字母相同,但排列不同的字符串。 示例: 输入: [“eat”, “tea”, “tan”, “ate”, “nat”, “bat”] 输出: [ [“ate”,“eat”,“tea”], [“nat”,“tan”], [“bat”] ] 代码 class S…

数据库备份策略 分布式_管理优秀的分布式数据团队的4种基本策略

数据库备份策略 分布式COVID-19 has forced nearly every organization to adapt to a new workforce reality: distributed teams. We share four key tactics for turning your remote data team into a force multiplier for your entire company.COVID-19迫使几乎每个组织都…

如何使用阿里云云解析API实现动态域名解析,搭建私有服务器

原文地址:http://www.yxxrui.cn/article/116.shtml 未经许可请勿转载,如有疑问,请联系作者:yxxrui163.com 公司的网络没有固定的公网IP地址,但是能够保证的是,每次动态分配的IP地址均为独立的公网IP&#x…

新手指南:dvwa_如何构建基本的Slackbot:新手指南

新手指南:dvwaBy Vishwa ShahVishwa Shah着 Update: code and tutorial updated on June 28 to reflect Slack API changes.更新:代码和教程已于6月28日更新,以反映Slack API的更改 。 Slackbots:为什么要使用它们? (Slackbots:…

java 加载class文件路径_动手实现MVC: 1. Java 扫描并加载包路径下class文件

背景用过spring框架之后,有个指定扫描包路径,然后自动实例化一些bean,这个过程还是比较有意思的,抽象一下,即下面三个点如何扫描包路径下所有的class文件如何扫描jar包中对应包路径下所有的class文件如何加载class文件…

leetcode 738. 单调递增的数字(贪心算法)

给定一个非负整数 N&#xff0c;找出小于或等于 N 的最大的整数&#xff0c;同时这个整数需要满足其各个位数上的数字是单调递增。 &#xff08;当且仅当每个相邻位数上的数字 x 和 y 满足 x < y 时&#xff0c;我们称这个整数是单调递增的。&#xff09; 示例 1: 输入: …

python+[:]+切片_我从C ++到Python的方式:概念上的改变

python[:]切片by asya f由asya f 我从C 到Python的方式&#xff1a;概念上的改变 (How I went from C to Python: a conceptual change) 介绍 (Introduction) People say that coding in Python is so easy that even a 6 year old can do it. This was the thought that I ha…

深度学习 免费课程_2020年排名前三的免费深度学习课程

深度学习 免费课程&#xff03;1 Fastai面向程序员的实用深度学习2020 (#1 Fastai Practical Deep Learning for Coders 2020) On 21 of August 2020, fastai released the new version of the fastai library and of their Deep Learning course!2020年8月21日&#xff0c;fas…

mysql复制主从集群搭建

近期搭了个主从复制。中间出了点小问题&#xff0c;排查搞定&#xff0c;记录下来1环境&#xff1a;虚拟机&#xff1a;OS:centos6.5Linux host2 2.6.32-431.el6.x86_64 #1 SMP Fri Nov 22 03:15:09 UTC 2013 x86_64 x86_64 x86_64 GNU/LinuxserverIP192.168.18.66192.168.18.6…

java jolt tuxedo_java通过jolt调用tuxedo服务.xls

java通过jolt调用tuxedo服务.xls还剩20页未读&#xff0c;继续阅读下载文档到电脑&#xff0c;马上远离加班熬夜&#xff01;亲&#xff0c;喜欢就下载吧&#xff0c;价低环保&#xff01;内容要点&#xff1a;?private bea.jolt.pool.servlet.ServletSessionPoolManager bool…

你的周末时光是什么样的?

周末是一个特殊的假日&#xff0c;隔三差五就会有&#xff0c;来的容易去得也容易&#xff0c;即便如此&#xff0c;我们还是应该好好珍惜&#xff0c;周末可以做的事太多了&#xff0c;既可以用来减压&#xff0c;也可以为下一周的学习和工作充电&#xff0c;不管做什么&#…

leetcode 290. 单词规律(hash)

给定一种规律 pattern 和一个字符串 str &#xff0c;判断 str 是否遵循相同的规律。 这里的 遵循 指完全匹配&#xff0c;例如&#xff0c; pattern 里的每个字母和字符串 str 中的每个非空单词之间存在着双向连接的对应规律。 示例1: 输入: pattern “abba”, str “dog…

2019年微博用户画像_2019年您需要了解的有关用户的信息

2019年微博用户画像by Yisroel Yakovson通过伊斯洛尔雅科夫森 2019年您需要了解的有关用户的信息 (What You Need to Know About Your Users in 2019) Users have changed a lot in the last few years. We programmers may have a culture gap to overcome in this area. If …

使用lt;jsp:includegt;,不想写死URL,动态生成URL的解决的方法

JSP中文件包括有2种方式&#xff0c;静态包括和动态包括。静态包括使用<% include file"" %>。动态包括使用<jsp:include page"" />。本文不打算介绍这2种方式的差别和使用场景&#xff0c;主要关注page和file属性的路径问题。 假设事先知道被…

java udp ip端口 设置_UDP端口扫描Java只找到1个开放的UDP端口

我对端口扫描有一个分歧.我在Java中扫描一些IP地址的UDP端口.在我的程序中(假设一切正常)我只能找到一个开放的UDP端口.在另一方面端口扫描“nmap”我得到4个开放的UDP端口.有人可以告诉我为什么我不能通过Java代码找到多个端口&#xff1f;顺便说一句,我可以在我的代码中找到真…

pandas之Seris和DataFrame

pandas是一个强大的python工具包&#xff0c;提供了大量处理数据的函数和方法&#xff0c;用于处理数据和分析数据。 使用pandas之前需要先安装pandas包&#xff0c;并通过import pandas as pd导入。 一、系列Series Seris为带标签的一维数组&#xff0c;标签即为索引。 1.Seri…

机器学习:分类_机器学习基础:K最近邻居分类

机器学习:分类In the previous stories, I had given an explanation of the program for implementation of various Regression models. Also, I had described the implementation of the Logistic Regression model. In this article, we shall see the algorithm of the K…