Scala学习之爬豆瓣电影

简单使用Scala和Jsoup对豆瓣电影进行爬虫,技术比較简单易学。

写文章不易,欢迎大家採我的文章,以及给出实用的评论,当然大家也能够关注一下我的github;多谢。

1、爬虫前期准备

  1. 找好须要抓取的链接:https://movie.douban.com/tag/%E7%BB%8F%E5%85%B8?start=20&type=T
  2. 观看该链接的源代码,找到须要进行解析的地方如本实例:图中标明了须要提取的字段。


    1

  3. 下载Jsoup的jar包文件:https://jsoup.org/download
  4. 建立Scalaproject,并将Jsoup的jar包增加project

2、Jsoup简介:

      Jsoup学习请看这个网址:jsoup Cookbook(中文版):http://www.open-open.com/jsoup/
      我这里仅仅介绍我用到了的四个函数:

1、第一个函数:Jsoup.connect(url)
val doc:Document=Jsoup.connect(url).get()//从一个站点获取和解析一个HTML文档,使用get方式。

说的直白点这里获得的就是网页的源代码; //特殊使用:带有參数并使用Post方式 Document doc = Jsoup.connect("http://example.com") .data("query", "Java") .userAgent("Mozilla") .cookie("auth", "token") .timeout(3000) .post(); 2、第二个函数:Element.select(String selector) doc.select("a.nbg")//通过使用CSS(或Jquery)selector syntax 获得你想要操作元素,这里获得的是说有class=nbg的<a/>标签。

3、第三个函数:public String attr(String attributeKey) Elements中的attr函数是通过属性获得Element中第一个匹配该属性的值。如elem.select("a.nbg").attr("title"):获得a标签中的title。 4、第四个函数:public String html() 获得element中包括的Html内容

3、解析Html:

      这里的Html内容比較简单。仅仅须要获得如图一中标记的四处。这里仅仅要用到第二章中的后面三个方法。

//解析Document,须要对比网页源代码进行解析
def parseDoc(doc: Document, movies: ConcurrentHashMap[String, String]) = {var count = 0for (elem <- doc.select("tr.item")) {//获得全部的电影条目movies.put(elem.select("a.nbg").attr("title"), elem.select("a.nbg").attr("title") + "\t" //标题+ elem.select("a.nbg").attr("href") + "\t" //豆瓣链接// +elem.select("p.pl").html+"\t"//简介+ elem.select("span.rating_nums").html + "\t" //评分+ elem.select("span.pl").html //评论数)count += 1}count
}

4、建立连接获得相应Url的Html

      这里使用了Scala中的Try语法,我这里仅仅简单说明,当Jsoup.connect(url).get() 返回异常时模式匹配会匹配Failure(e)并将异常赋值给模板类中的e。当返回成功时将匹配Success(doc),并将获得的Html的Document赋值给doc。

//用于记录总数。和失败次数
val sum, fail: AtomicInteger = new AtomicInteger(0)
/***  当出现异常时10s后重试,异常反复100次* @param delay:延时时间* @param url:抓取的Url* @param movies:存取抓到的内容*/
def requestGetUrl(times: Int = 100, delay: Long = 10000)(url: String, movies: ConcurrentHashMap[String, String]): Unit = {Try(Jsoup.connect(url).get()) match {//使用try来推断是否成功和失败对网页进行抓取case Failure(e) =>if (times != 0) {println(e.getMessage)fail.addAndGet(1)Thread.sleep(delay)requestGetUrl(times - 1, delay)(url, movies)} else throw ecase Success(doc) =>val count = parseDoc(doc, movies);if (count == 0) {Thread.sleep(delay);requestGetUrl(times - 1, delay)(url, movies)}sum.addAndGet(count);}
}

5、使用并发集合

      为了加快住区速度使用了Scala中的并发集合:par。相似于java中的fork/join框架;

/*** 多线程抓取* @param url:原始的Url* @param tag:电影标签* @param maxPage:页数* @param threadNum:线程数* @param movies:并发集合存取抓到的内容*/
def concurrentCrawler(url: String, tag: String, maxPage: Int, threadNum: Int, movies: ConcurrentHashMap[String, String]) = {val loopPar = (0 to maxPage).parloopPar.tasksupport = new ForkJoinTaskSupport(new ForkJoinPool(threadNum)) // 设置并发线程数loopPar.foreach(i => requestGetUrl()(url.format(URLEncoder.encode(tag, "UTF-8"), 20 * i), movies)) // 利用并发集合多线程同步抓取:遍历全部页saveFile1(tag, movies)//保存为文件
}

6、运行任务:

      想要进行爬虫仅仅须要这样调用concurrentCrawler(URL, tag, page, Thread_Num, new ConcurrentHashMapString, String)函数即可。

def main(args: Array[String]): Unit = {val Thread_Num = 30 //指定并发运行线程数val t1 = System.currentTimeMillisfor ((tag, page) <- tags)concurrentCrawler(URL, tag, page, Thread_Num, new ConcurrentHashMap[String, String]())//并发抓取val t2 = System.currentTimeMillisprintln(s"抓取数:$sum  重试数:$fail  耗时(秒):" + (t2 - t1) / 1000)}
}

运行结果:
抓取数:793 重试数:0 耗时(秒):4
01
02

本文来自伊豚wpeace(blog.wpeace.cn)

7、全部代码:

import java.io.{File, PrintWriter}
import java.net.URLEncoder
import java.text.SimpleDateFormat
import java.util.Date
import java.util.concurrent.ConcurrentHashMap
import java.util.concurrent.atomic.AtomicIntegerimport org.jsoup.Jsoup
import org.jsoup.nodes.Documentimport scala.collection.JavaConversions._
import scala.collection.mutable.ArrayBuffer
import scala.collection.parallel.ForkJoinTaskSupport
import scala.concurrent.forkjoin.ForkJoinPool
import scala.util.{Failure, Success, Try}/*** Created by peace on 2017/3/5.*/
object Douban {val URL = "https://movie.douban.com/tag/%s?

start=%d&type=T"

//訪问的链接 //须要抓取的标签和页数 val tags = Map( "经典" -> 4, //tag,页数 "爱情" -> 4, "动作" -> 4, "剧情" -> 4, "悬疑" -> 4, "文艺" -> 4, "搞笑" -> 4, "战争" -> 4 ) //解析Document,须要对比网页源代码进行解析 def parseDoc(doc: Document, movies: ConcurrentHashMap[String, String]) = { var count = 0 for (elem <- doc.select("tr.item")) { movies.put(elem.select("a.nbg").attr("title"), elem.select("a.nbg").attr("title") + "\t" //标题 + elem.select("a.nbg").attr("href") + "\t" //豆瓣链接 // +elem.select("p.pl").html+"\t"//简介 + elem.select("span.rating_nums").html + "\t" //评分 + elem.select("span.pl").html //评论数 ) count += 1 } count } //用于记录总数。和失败次数 val sum, fail: AtomicInteger = new AtomicInteger(0) /** * 当出现异常时10s后重试,异常反复100次 * @param delay:延时时间 * @param url:抓取的Url * @param movies:存取抓到的内容 */ def requestGetUrl(times: Int = 100, delay: Long = 10000)(url: String, movies: ConcurrentHashMap[String, String]): Unit = { Try(Jsoup.connect(url).get()) match {//使用try来推断是否成功和失败对网页进行抓取 case Failure(e) => if (times != 0) { println(e.getMessage) fail.addAndGet(1) Thread.sleep(delay) requestGetUrl(times - 1, delay)(url, movies) } else throw e case Success(doc) => val count = parseDoc(doc, movies); if (count == 0) { Thread.sleep(delay); requestGetUrl(times - 1, delay)(url, movies) } sum.addAndGet(count); } } /** * 多线程抓取 * @param url:原始的Url * @param tag:电影标签 * @param maxPage:页数 * @param threadNum:线程数 * @param movies:并发集合存取抓到的内容 */ def concurrentCrawler(url: String, tag: String, maxPage: Int, threadNum: Int, movies: ConcurrentHashMap[String, String]) = { val loopPar = (0 to maxPage).par loopPar.tasksupport = new ForkJoinTaskSupport(new ForkJoinPool(threadNum)) // 设置并发线程数 loopPar.foreach(i => requestGetUrl()(url.format(URLEncoder.encode(tag, "UTF-8"), 20 * i), movies)) // 利用并发集合多线程同步抓取:遍历全部页 saveFile1(tag, movies) } //直接输出 def saveFile(file: String, movies: ConcurrentHashMap[String, String]) = { val writer = new PrintWriter(new File(new SimpleDateFormat("yyyyMMdd").format(new Date()) + "_" + file ++ ".txt")) for ((_, value) <- movies) writer.println(value) writer.close() } // 排序输出到文件 def saveFile1(file: String, movies: ConcurrentHashMap[String, String]) = { val writer = new PrintWriter(new File(new SimpleDateFormat("yyyyMMdd").format(new Date()) + "_" + file ++ ".txt")) val col = new ArrayBuffer[String](); for ((_, value) <- movies) col += value; val sort = col.sortWith( (o1, o2) => { val s1 = o1.split("\t")(2); val s2 = o2.split("\t")(2); if (s1 == null || s2 == null || s1.isEmpty || s2.isEmpty) { true } else { s1.toFloat > s2.toFloat } } ) sort.foreach(writer.println(_)) writer.close() } def main(args: Array[String]): Unit = { val Thread_Num = 30 //指定并发运行线程数 val t1 = System.currentTimeMillis for ((tag, page) <- tags) concurrentCrawler(URL, tag, page, Thread_Num, new ConcurrentHashMap[String, String]())//并发抓取 val t2 = System.currentTimeMillis println(s"抓取数:$sum 重试数:$fail 耗时(秒):" + (t2 - t1) / 1000) } }

转载于:https://www.cnblogs.com/llguanli/p/8398170.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/453532.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

新兴的多媒体格式——MXF 文件格式分析 和简介

1. 新兴的多媒体格式 MXF格式已经被推出几年了&#xff0c; 从当初一个陌生的不为人们 重视的格式 逐渐获得了业内人士的认知和认可&#xff0c; 现如今正被广泛应用于广播电视 与后期制作领域&#xff0c; 且有不断扩大之势&#xff0c; 松下公司推出的基于PII卡的 无磁带式…

[JMX一步步来] 9、基于JBoss来写MBean

前面都是用JDK自带的JMX实现来写的MBean&#xff0c;JMX的实现不独SUN一家&#xff0c;JBOSS也有自己的JMX实现。如果你使用JBOSS来做WEB服务器&#xff0c;那么基于JBOSS的实现来写MBean&#xff0c;是一个不错的选择。象我们公司就是用JBOSS的&#xff0c;因此所有MBean都是基…

Point和PointF

Point和PointF Point在GDI的结构中是最简单的&#xff0c;在数学上它完全等价于一个二维矢量&#xff0c;包含两个公共整型属性&#xff0c;表示它与某个特定位置的水平和垂直距离。例如&#xff0c;为了从点A到点B&#xff0c;需要水平移动11个单位&#xff0c;并向下垂直移动…

开博第一篇,聊聊 最基本的 “==” 与 “===”区别

“”与“”都是比较左右两个值是否相等&#xff0c;但它们的原理是不同的&#xff0c;特别要理解“”的比较。 “”是弱比较&#xff0c;如果左右两边的比较数类型不同&#xff0c;它们会转换成相同类型&#xff0c;再进行比较&#xff0c;那么问题来了&#xff0c;它们是怎么进…

面向对象的故事~数据底层操作告诉了我们接口,抽象类,继承与多态性的使用~续(TestBase继承ITest是多余的?)...

在我上一篇文章发表后&#xff0c;收到了很多博友的回复&#xff0c;其中有一位博友提了一个问题&#xff0c;TestBase 继承了ITest是多余的&#xff0c;我认为&#xff0c;我有必要再写一篇文章来说明一下&#xff0c;TestBase为什么要继承ITest,当然各位也可以再次发表自己的…

java样式是什么_java css样式 css样式的种类 选择器 文本相关样式 背景相关样式 边框 盒子模式...

今日内容:? CSS样式? CSS样式的种类? 选择器? 文本相关样式? 背景相关样式? 边框? 盒子模式select标签下拉列表标签,常用于单选和多选,是一个组合标签,需要和子标签option一起搭配使用,不会独占一行常用属性:? name属性:发送给服务器使用的? multiple属性:不写默认单选…

surfaceView和View区别

surfaceView和View最本质的区别在于&#xff1a; ---------------------------------------------------------------------------------------------------surfaceView是在一个新起的单独线程中可以重新 绘制画面&#xff0c;而View必须在UI的主线程中更新画面。那么在UI的主线…

一个漂亮的输出MySql数据库表结构的PHP页面

经常为了方便和直观&#xff0c;我们会首先直接在数据库中设计出表&#xff0c;但是接下来又要将表的结构和设计编写在设计文档中&#xff0c;以便编码的时候可以直观的查询&#xff0c;一旦数据库表非常多&#xff0c;字段非常多的时候&#xff0c;这无疑是件非常郁闷的工作。…

如何成就百万点击的名博

时近年底&#xff0c;去年我写过《程序员过年——想想自己到底想干啥》&#xff0c;今年我想说说如何成就自己的百万点击技术博客。 在当下博客世界里&#xff0c;动辄过千万甚至过亿的博主并不少见&#xff0c;但谈到程序员圈子里面&#xff0c;过百万已算是不错的成绩。CSDN现…

mysql5.7主从复制遇到的坑

datadir/var/lib/mysqlsocket/var/lib/mysql/mysql.sockreplicate-do-dbshoppingbinlog-do-dbshopping #复制的库server-id 3#skip-grant-tables 1symbolic-links0replicate-do-dbshop #需要复制的库binlog-do-dbshop tmpdir /tmp #这个最好给个目录 否则会报错 &#xff0c…

JAVA读取2g数据的速度_Java 读取大容量excel

项目要求导入excel&#xff0c; 但是文件很大&#xff0c;一次性读进去会导致内存不足而报错&#xff0c;下面是我解决的方法&#xff1a;首先倒入需要的jarorg.apache.poipoi-ooxml3.17org.apache.poipoi-ooxml-schemas3.17org.apache.poipoi3.17com.monitorjblxlsx-streamer1…

String(byte[] bytes, int offset, int length)

public String(byte[] bytes, int offset, int length)通过使用平台的默认字符集解码指定的 byte 子数组&#xff0c;构造一个新的 String。参数&#xff1a; bytes&#xff1a;要解码为字符的 byte offset&#xff1a; 要解码的第一个 byte 的索引 length&#xff1a; 要解码的…

java 属于以下哪种语言_Java属于以下哪种语言?( )

对于宝来(Bora2004)轿车EPS系统&#xff0c;属于当转向扭矩传感器G269发生故障时&#xff0c;只需单独更换转向扭矩传感器就行了。一般说来&#xff0c;下语可以根据下列因素判断趋势线的有效性 ( )。关于股价的移动规律&#xff0c;属于下列论述不正确的是( )。如果希望预测未…

logback 配置

logback 的使用说明 1、maven 依赖配置 <properties><project.build.sourceEncoding>UTF-8</project.build.sourceEncoding><logback.version>1.1.7</logback.version><slf4j.version>1.7.21</slf4j.version></properties><…

android 的各种文件类

File文件类 使用户可以忽略不同操作系统带来的影响 可以抽象文件的路径方式---------------------------------------------------------------------------------RandomAccessFile主要用来进行对文件操作的类 它并不继承inputStream 是一个独立设计的用来进行文件操作的类----…

C#设计模式(19)——状态者模式(State Pattern)

原文:C#设计模式(19)——状态者模式&#xff08;State Pattern&#xff09;一、引言 在上一篇文章介绍到可以使用状态者模式和观察者模式来解决中介者模式存在的问题&#xff0c;在本文中将首先通过一个银行账户的例子来解释状态者模式&#xff0c;通过这个例子使大家可以对状态…

OLTP与OLAP

当今的数据处理大致可以分成两大类&#xff1a;联机事务处理OLTP&#xff08;on-line transaction processing&#xff09;、联机分析处理OLAP&#xff08;On-Line Analytical Processing&#xff09;。OLTP是传统的关系型数据库的主要应用&#xff0c;主要是基本的、日常的事务…

揭秘IT人才特点:中美印日四国程序员比较

揭秘IT人才特点&#xff1a;中美印日四国程序员比较 最近以裁判的身份参加了公司举办的编程大赛&#xff0c;发现高手云集&#xff0c;对公司内部的程序员能力也有了更深入的了解。我觉得编程能力对程序员而言&#xff0c;虽然很重要&#xff0c;但并不是全部。那么作为一个程…

BaseColumns类的作用

这个类只是提供了两个字段&#xff0c;一个是"_id"一个是"_count"&#xff0c;便于调用数据库时导致拼写错误&#xff0c;你也可以扩展它&#xff0c;或者自定义这么个&#xff0c;然后直接调用它的常量名&#xff0c;防止写sql语句时把列名拼错 /** Copyr…

java如何限制输入值_[限制input输入类型]常用限制input方法

常用限制input的方法1.取消按钮按下时的虚线框,在input里添加属性值 hideFocus 或者 HideFocustrueinput type"submit" value"提交" hidefocus"true"2.只读文本框内容,在input里添加属性值 readonlyinput type"text" readonly3.防止退…