用c#编写爬虫在marinetraffic下载船仅仅图片

近期在做船仅仅识别方面的事情,须要大量的正样本来训练adaboost分类器。

于是到marinetraffic这个站点上下载船仅仅图片。写个爬虫来自己主动下载显然非常方便。

站点特点

在介绍爬虫之前首先了解一下marinetraffic这个站点的一些特点:
1. 会定期检測爬虫行为。假设觉得有爬虫大量下载图片。

会把该连接增加黑名单,后几天都没办法下载。
2. 船仅仅图片资源差异大。有的船仅仅有1000多张图,有的船仅仅没有一张图,我们须要的是非常多船仅仅的非常多张图。所以须要对下载的船仅仅按优先级排序。
3. 用来训练分类器的正样本要求检測对象的分辨率一样。而marinetraffic站点下载的图片能够设置下在的图片的宽度,站点依据长宽比,生成对应的高度。所以。不同图片高度不一样。须要自己后期处理。

船仅仅图片

解决方式

  1. 针对爬虫检測。设置一个随机等待时间,10s左右。能够绕过站点爬虫行为检測。
  2. 对船仅仅依照图片熟练排序,先下载图片数量多的,而且每一个船仅仅不用下载太多。保证图片的差异性。比如
  3. 在下载的时候使用统一的宽度。

    后期处理从图片中抠出分辨率一样的船仅仅

爬虫源代码

using System;
using System.Collections.Generic;
using System.Globalization;
using System.IO;
using System.Linq;
using System.Net;
using System.Runtime.Serialization.Formatters.Binary;
using System.Text;
using System.Text.RegularExpressions;
using System.Threading;
using System.Threading.Tasks;namespace 船仅仅图像爬虫
{class Program{static void download_all_shipid(List<string> shipid_list){try{WebClient MyWebClient = new WebClient();MyWebClient.Headers["User-Agent"] = "blah";MyWebClient.Credentials = CredentialCache.DefaultCredentials;//获取或设置用于向Internet资源的请求进行身份验证的网络凭据;//Console.WriteLine("here1");//http://www.marinetraffic.com/en/photos/of/ships/shipid:281519///http://www.marinetraffic.com/en/ais/index/ships/all//http://www.marinetraffic.com/ais/index/ships/all/page:2/sort:COUNT_PHOTOS/direction:desc;for (int pageNum = 1; pageNum < 100; pageNum++){Console.WriteLine("開始分析第" + pageNum + "张网页");MyWebClient.Credentials = CredentialCache.DefaultCredentials;//获取或设置用于向Internet资源的请求进行身份验证的网络凭据;MyWebClient.Headers["User-Agent"] = "blah";try{//Console.WriteLine("here0");Byte[] pageData = MyWebClient.DownloadData(@"http://www.marinetraffic.com/en/ais/index/ships/all/page:" + pageNum + "/sort:COUNT_PHOTOS/direction:desc/per_page:50"); //从指定站点下载数据//pageHtml = Encoding.Default.GetString(pageData);  //假设获取站点页面採用的是GB2312,则使用这句;            string pageHtml = Encoding.UTF8.GetString(pageData); //假设获取站点页面採用的是UTF-8。则使用这句;//Console.WriteLine(pageHtml);//在控制台输入获取的内容;//Console.WriteLine("here1");int urlindex = -1;string org_label = "shipid:";urlindex = pageHtml.IndexOf(org_label, urlindex + 1);while (urlindex != -1){int endOfUrl = pageHtml.IndexOf("/", urlindex + org_label.Length);//Console.WriteLine("here2");string shipid = pageHtml.Substring(urlindex + org_label.Length, endOfUrl - urlindex - org_label.Length);if (!shipid_list.Contains(shipid)){Console.WriteLine("新增id:" + shipid);shipid_list.Add(shipid);}//Console.WriteLine("已有id:" + shipid);urlindex = pageHtml.IndexOf(org_label, urlindex + 1);}///保存网页//using (StreamWriter sw = new StreamWriter("ouput.html"))//将获取的内容写入文本//{//    sw.Write(pageHtml);//}Console.WriteLine("完毕第" + pageNum + "页分析");}catch (WebException webEx){Console.WriteLine(webEx.Message.ToString());}//以下是一个随机数的方法保证10秒后再下载。以绕过违规检測。Console.Write("绕开站点爬虫行为检測中......");Random rd = new Random();int time_sleep = rd.Next() % 10 + 10;Thread.Sleep(time_sleep * 1000);Console.WriteLine();}Console.WriteLine("分析结束");//以下把list内容保存进文件,使用序列化的方法;string file = @"C:\Users\dragonfive\Desktop\爬虫获得船仅仅图片\第三批\0_100page_shipid.txt";using (FileStream fsWriter = new FileStream(file, FileMode.OpenOrCreate, FileAccess.Write)){//以下对stu进行序列化。BinaryFormatter bf = new BinaryFormatter();bf.Serialize(fsWriter, shipid_list);}}catch (WebException webEx){Console.WriteLine(webEx.Message.ToString());}}/// <summary>/// 依据得到的ship_id获得该ship_id的全部图片;/// </summary>/// <param name="ship_id"></param>static void download_jpg(string ship_id){try{Console.WriteLine("開始下载shipid为:"+ship_id+"的图片");WebClient MyWebClient = new WebClient();MyWebClient.Credentials = CredentialCache.DefaultCredentials;//获取或设置用于向Internet资源的请求进行身份验证的网络凭据MyWebClient.Headers["User-Agent"] = "blah";//http://www.marinetraffic.com/en/photos/of/ships/shipid:281519///http://www.marinetraffic.com/en/photos/of/ships/shipid:371668/per_page:1000/page:1Byte[] pageData = MyWebClient.DownloadData(@"http://www.marinetraffic.com/en/photos/of/ships/shipid:" + ship_id + @"/per_page:100/page:1"); //从指定站点下载数据//string pageHtml = Encoding.Default.GetString(pageData);  //假设获取站点页面採用的是GB2312。则使用这句            string pageHtml = Encoding.UTF8.GetString(pageData); //假设获取站点页面採用的是UTF-8,则使用这句//Console.WriteLine(pageHtml);//在控制台输入获取的内容Console.WriteLine("元网页已下载");//using (StreamWriter sw = new StreamWriter("ouput.html"))//将获取的内容写入文本//{//    sw.Write(pageHtml);//}int urlindex = -1;string org_label = "data-original='";urlindex = pageHtml.IndexOf(org_label, urlindex + 1);int i = 0;//Directory.CreateDirectory(@"./" );while (urlindex != -1){int endOfUrl = pageHtml.IndexOf("'", urlindex + org_label.Length);string url = pageHtml.Substring(urlindex + org_label.Length, endOfUrl - urlindex - org_label.Length);////以下是unicode编码转换为string的方式;//MatchCollection mc = Regex.Matches(strName, @"\\u([\w]{2})([\w]{2})", RegexOptions.Compiled | RegexOptions.IgnoreCase);//byte[] bts = new byte[2];//foreach (Match m in mc)//{//    bts[0] = (byte)int.Parse(m.Groups[2].Value, NumberStyles.HexNumber);//    bts[1] = (byte)int.Parse(m.Groups[1].Value, NumberStyles.HexNumber);//    musicName += Encoding.Unicode.GetString(bts);//}//Console.WriteLine("接下来下载的是:" + musicName);//以下是一个随机数的方法保证10秒后再下载。以绕过违规检測。Console.Write("绕过站点爬虫行为检測中......");Random rd = new Random();int time_sleep = rd.Next() % 10 + 10;Thread.Sleep(time_sleep * 1000);Console.WriteLine();try{//这是下载的命令;Console.WriteLine(url);MyWebClient.Credentials = CredentialCache.DefaultCredentials;//获取或设置用于向Internet资源的请求进行身份验证的网络凭据MyWebClient.Headers["User-Agent"] = "blah";Byte[] jpgdata = MyWebClient.DownloadData(url); //从指定网页下载数据;//把下载的内容保存在一个地方;using (FileStream fs = new FileStream(@"C:\Users\dragonfive\Desktop\爬虫获得船仅仅图片\第三批\" + ship_id + "_" + i + ".jpg", FileMode.OpenOrCreate, FileAccess.Write)){fs.Write(jpgdata, 0, jpgdata.Length);}}catch (WebException webEx){Console.WriteLine("被捕获了吗?");Console.WriteLine(webEx.Message.ToString());}Console.WriteLine("成功下载第" + (i ++) + "张图片");urlindex = pageHtml.IndexOf(org_label, urlindex + 1);}///保存网页//using (StreamWriter sw = new StreamWriter("ouput.html"))//将获取的内容写入文本//{//    sw.Write(pageHtml);//}Console.WriteLine("*****************************************");Console.WriteLine("下载"+i+"张ship_id为"+ship_id+"的图片");Console.WriteLine("*****************************************");//Console.ReadLine(); //让控制台暂停,否则一闪而过了 }catch (WebException webEx){Console.WriteLine(webEx.Message.ToString());}}static void Main(string[] args){List<string> shipid_list = new List<string>();//shipid_list.Add("371681");//临时高速产生图片用这个;download_all_shipid(shipid_list);//string file = @"C:\Users\dragonfive\Desktop\爬虫获得船仅仅图片\第三批\0_100page_shipid.txt";//using (FileStream fsReader = new FileStream(file, FileMode.Open, FileAccess.Read))//{//    //以下进行反序列话;//    BinaryFormatter bf = new BinaryFormatter();//    shipid_list = (List<string>)bf.Deserialize(fsReader);//    Console.WriteLine("成功加载" + shipid_list.Count + "个shipid");//}////371652 371668  371681 1252401 //shipid_list.Remove("371652");//shipid_list.Remove("371668");//shipid_list.Remove("371681");//shipid_list.Remove("1252401");////132264//shipid_list.Remove("371077");//shipid_list.Remove("132264");//shipid_list.Remove("224871");//shipid_list.Remove("279923");//shipid_list.Remove("369163");//shipid_list.Remove("266342");//shipid_list.Remove("371216");//shipid_list.Remove("368174");//shipid_list.Remove("369163");foreach (var ship_id in shipid_list){download_jpg(ship_id);}Console.ReadLine(); //让控制台暂停,否则一闪而过了 }}
}

转载于:https://www.cnblogs.com/yutingliuyl/p/6941828.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/456309.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

发送手机验证码通过调用第三方网易云信API(flask项目)

一、 获取验证码&#xff1a; 1. 输入手机号码 2. 通过ajax发送请求 3. 后端&#xff1a; 获取手机号码 使用requests向第三方的服务端&#xff08;网易云信&#xff09;发送请求 官方文档 https://dev.yunxin.163.com/docs/product/%E7%9F%AD%E4%BF%A1/%E7%9F…

异常检测算法之LOF

前言&#xff1a; LOF&#xff1a;Local outlier factor&#xff0c;即局部异常因子。LOF主要是通过比较每个点p和其邻域点的密度来判断该点是否为异常点&#xff0c;如果点p的密度越低&#xff0c;越可能被认定是异常点。至于密度&#xff0c;是通过点之间的距离来计算的&…

Android属性动画进阶用法

2019独角兽企业重金招聘Python工程师标准>>> 在上周二文章中介绍补间动画缺点的时候有提到过&#xff0c;补间动画是只能对View对象进行动画操作的。而属性动画就不再受这个限制&#xff0c;它可以对任意对象进行动画操作。那么大家应该还记得之前我举的一个例子&am…

5.3linux下C语言socket网络编程简例

原创文章&#xff0c;转载请注明转载字样和出处&#xff0c;谢谢&#xff01; 这里给出在Linux下的简单socket网络编程的实例&#xff0c;使用tcp协议进行通信&#xff0c;服务端进行监听&#xff0c;在收到客户端的连接后&#xff0c;发送数据给客户端&#xff1b;客户端在接受…

parser.add_argument验证格式

article_bp Blueprint(article, __name__, url_prefix/api) api Api(article_bp) parser reqparse.RequestParser() parser.add_argument(name, typestr, help必须填写名称, requiredTrue) channel_fields { id: fields.Integer, cname: fields.String } clas…

异常检测算法之HBOS

前言 HBOS&#xff08;Histogram-based Outlier Score&#xff09;核心思想&#xff1a;将样本按照特征分成多个区间&#xff0c;样本数少的区间是异常值的概率大。 原理 该方法为每一个样本进行异常评分&#xff0c;评分越高越可能是异常点。评分模型为&#xff1a; 假设样…

字典和json 的区别 和转换

前言&#xff1a;字典和json非常像。接下来比较一下两者的异同 先看一下字典的写法&#xff1a; a {a:1,b:2,c:3} 再看一下json的写法&#xff1a; {"studentInfo":{"id":123456,"stu_name":"Dorra"} } 从形式上看&#xff0c;都是…

Struts2的工作原理及工作流程

众所周知&#xff0c;Struts2是个非常优秀的开源框架&#xff0c;我们能用Struts2框架进行开发&#xff0c;同时能 快速搭建好一个Struts2框架&#xff0c;但我们是否能把Struts2框架的工作原理用语言表达清楚&#xff0c;你表达的原理不需要说出底层是怎么实现的&#xff0c;我…

正则表达式采坑

[a-zA-Z]匹配大小写字符 \w 匹配字母、数字、下划线 {5,7} 表示前面的字符&#xff08;即&#xff1a;\w&#xff09;必须至少出现 5 次最多出现 7 次. 合起来就是 >6 少于8个的字符 [a-zA-Z]\w{6,12} --------------》》 就是要输入七位数到十三位&#x…

easyui动态显示和隐藏表头

为什么80%的码农都做不了架构师&#xff1f;>>> var _bt{date:日期,subtime:填写时间,xz:小组,uname:操作人,qdbh:渠道编号,mt:媒体,zh:账户,sjd:时间段,tfwz:投放位置,tfh:投放号,td:团队,sjje:实际金额,jxs:进线数,cb:成本,yxzyjx:有效资源进线,yxzyl:有效资源率…

物联网

如果要说未来什么技术正在或将彻底改变人类生活、工作和娱乐的方式&#xff0c;那必须是物联网。小到各种可穿戴产品&#xff0c;大到汽车、工厂和楼宇&#xff0c;物联网能使一切设备互联并具备智慧。物联网也正改变着产业的格局&#xff0c;索尼、夏普、东芝等日本传统电子设…

理解:复杂度是O(log^n) 就是二分法

冒昧问一下&#xff0c;为什么二分法查找的复杂度是O(log^n)&#xff1f;这是怎么计算的&#xff1f; 你要从1&#xff0c;2&#xff0c;3&#xff0c;4&#xff0c;5&#xff0c;6&#xff0c;7&#xff0c;8里面找到3&#xff0c;分成几步&#xff1f; 第一步&#xff0c;…

浅谈管理数据平台的一些想法

前言&#xff1a; 对于任何使用大数据技术的公司来说&#xff0c;大数据平台特别是Hive来说&#xff0c;维护其高效快速的运行&#xff0c;对整个公司的运作来说至关重要。比如说&#xff1a;某个调度任务失败了造成业务部门的某些报表无法正常产出&#xff1b;hive平台最近速…

MongoDB误删表恢复

一、场景描述公司某工程师执行db.giveget_card.drop()&#xff0c;误将线上表删除。幸好每天都有做备份&#xff0c;这个时候就体现了备份的重要性了&#xff0c;哈哈哈。。。二、模拟故障过程备份数据大小&#xff1a;rs_test01:PRIMARY> use ycsb switched to db ycsb rs_…

linux下kill某个应用

linux命令行与桌面切换快捷键CtrAltF1&#xff0c;CtrAltF7 ps -e | grep abc sudo kill xyz 转载于:https://www.cnblogs.com/cj2014/p/6512354.html

flask中数据库的基本操作-增删改查【备忘】

1.增加数据&#xff08;就相当于增加一个实例对象&#xff09; user1 User(namelong,email1006550026qq.com,password123456,role_id1) db.session.add(user1) db.session.commit() 2.修改数据 修改用户表里面的name为long的姓名为&#xff1a;fang 首先查询到名为…

两个文件比较之comm命令

comm命令可用于两个文件之间的比较。它有很多不错的选项可用来调整输出&#xff0c;以便我们执行交集、求差&#xff08;difference&#xff09;以及差集操作。 交集&#xff1a;打印出两个文件所共有的行。 求差&#xff1a;打印出指定文件所包含的且互不相同的那些行。…

【转】error while loading shared libraries: xxx.so.x 错误的原因和解决办法

原博客地址&#xff1a;http://www.cnblogs.com/Anker/p/3209876.html#undefined error while loading shared libraries: xxx.so.x" 错误的原因和解决办法 今天在执行一个protobuf程序时&#xff0c;提示error while loading shared libraries: libprotobuf.so.8: cannot…

Flask学习记录之Flask-SQLAlchemy

Flask-SQLAlchemy库让flask更方便的使用SQLALchemy,是一个强大的关系形数据库框架,既可以使用orm方式操作数据库,也可以使用原始的SQL命令. Flask-Migrate 是一个数据迁移框架,需要通过Flask-script库来操作. 一.配置Flask-SQLAlchemy 程序使用的数据库地址需要配置在SQLALCH…

Postico —— OS X 上的免费 PostgreSQL 客户端

Postico 是 OS X 下的一个 PostgreSQL 客户端管理工具。要求 OS X 10.8 或者更新版本。 文章转载自 开源中国社区 [http://www.oschina.net]