Spark Core--加强

RDD的持久化

在这里插入图片描述

RDD缓存

当RDD被重复使用,或者计算该RDD比较容易出错,而且需要消耗比较多的资源和时间的时候,我们就可以将该RDD缓存起来。

主要作用: 提升Spark程序的计算效率
注意事项: RDD的缓存可以存储在内存或者是磁盘上,甚至可以存储在Executor进程的堆外内存中。主要是放在内存中,因此缓存的数据是不太稳定可靠。

由于是临时存储,可能会存在丢失,所以缓存操作,并不会将RDD之间的依赖关系给截断掉(丢失掉),因为当缓存
失效后,可以全部重新计算
缓存的API都是Lazy惰性的,如果需要触发缓存操作,推荐调用count算子,因为运行效率高

设置缓存的API: rdd.cache(): 将RDD的数据缓存储内存中rdd.persist(缓存的级别/位置): 将RDD的数据存储在指定位置手动清理缓存API:rdd.unpersist()
默认情况下,当整个Spark应用程序执行完成后,缓存数据会自动失效,会被自动删除缓存的级别/位置:DISK_ONLY: 只存储在磁盘DISK_ONLY_2: 只存储在磁盘,并且有2个副本DISK_ONLY_3: 只存储在磁盘,并且有3个副本MEMORY_ONLY: 只存储在内存中MEMORY_ONLY_2: 只存储在内存中,并且有2个副本MEMORY_AND_DISK: 存储在内存和磁盘中,先放在内存,再放在磁盘MEMORY_AND_DISK_2: 存储在内存和磁盘中,先放在内存,再放在磁盘,并且有2个副本OFF_HEAP: Executor进程的堆外内存工作中最常用的是: MEMORY_AND_DISK和MEMORY_AND_DISK_2。优先推荐使用MEMORY_AND_DISK

演示缓存的使用操作:

import timefrom pyspark import SparkConf, SparkContext, StorageLevel
import os
import jieba# 绑定指定的Python解释器
os.environ['SPARK_HOME'] = '/export/server/spark'
os.environ['PYSPARK_PYTHON'] = '/root/anaconda3/bin/python3'
os.environ['PYSPARK_DRIVER_PYTHON'] = '/root/anaconda3/bin/python3'# 需要过滤的关键词黑名单
keyword_black_list = ['+','.','的','com']# ctrl+alt+M将代码封装成函数/方法
# 3.2- 需求一:统计每个关键词出现了多少次。先提取需要操作的字段并且分词,这一步类似WordCount中的对每行进行切分处理,再仿照WordCount实现。
def top10_keyword():keyword_rdd = etl_rdd.flatMap(lambda line_tup: list(jieba.cut(line_tup[2])))# print(keyword_rdd.take(10))# 数据结构转变。将单词变成元组# keyword_map_rdd = keyword_rdd.filter(lambda word:word!='+' or word!='.').map(lambda word:(word,1))keyword_map_rdd = keyword_rdd.filter(lambda word: word not in keyword_black_list).map(lambda word: (word, 1))# 分组聚合操作keyword_result_rdd = keyword_map_rdd.reduceByKey(lambda agg, curr: agg + curr)# print(keyword_result_rdd.take(100))# 对结果中关键词的次数降序排序,取TOP10keyword_result = keyword_result_rdd.top(10, key=lambda tup: tup[1])print(keyword_result)# 3.3- 需求二:统计每个用户每个搜索内容点击的次数
def content():# 从原始的6个字段中,提取出2个字段,得到 (用户,搜索内容)new_tup_tmp_rdd = etl_rdd.map(lambda tup: (tup[1], tup[2]))# 数据格式转换"""输入:(张三,鸡你太美) -> hello输出:((张三,鸡你太美),1) -> (hello,1)"""new_tup_rdd = new_tup_tmp_rdd.map(lambda tup: (tup, 1))# new_tup_rdd = new_tup_tmp_rdd.map(lambda tup:(tup[0],tup[1],1))# 分组聚合content_result = new_tup_rdd.reduceByKey(lambda agg, curr: agg + curr)print(content_result.take(10))if __name__ == '__main__':# 1- 创建SparkContextconf = SparkConf().setAppName('sogou_demo').setMaster('local[*]')sc = SparkContext(conf=conf)# 2- 数据输入init_rdd = sc.textFile('file:///export/data/spark_core/data/SogouQ.sample')print("ETL处理前数据条数:",init_rdd.count())# 3- 数据处理# 3.1- ETL:数据的清洗、转换、加载"""split():默认按照空白字符进行切分。例如:空格、制表符、回车换行符等map和flatMap的主要区别:flatMap对每一个元素处理以后,会将结果打平/压扁到一个更大的容器当中。"""map_rdd = init_rdd.map(lambda line:line.split())# print("调用map算子后的内容:",map_rdd.take(10))# flatmap_rdd = init_rdd.flatMap(lambda line: line.split())# print("调用flatMap算子后的内容:",flatmap_rdd.take(10))# 过滤掉每行中没有6个字段的数据filter_rdd = map_rdd.filter(lambda line_list: len(line_list)==6)# 数据结构转换(为了演示而演示)etl_rdd = filter_rdd.map(lambda line_list:(line_list[0],line_list[1],line_list[2][1:-1], # 省略前后的中括号line_list[3],line_list[4],line_list[5]))# 设置缓存。并且调用count算子触发操作# etl_rdd.cache().count()etl_rdd.persist(storageLevel=StorageLevel.MEMORY_AND_DISK).count()print("ETL处理后数据条数:", etl_rdd.count())# 3.2- 需求一:统计每个关键词出现了多少次# top10_keyword()# 3.3- 需求二:统计每个用户每个搜索内容点击的次数content()time.sleep(20)# 手动清理缓存。你对哪个RDD设置了缓存,那么你就对那个RDD清理缓存。也需要调用count算子触发。etl_rdd.unpersist().count()time.sleep(100)# 5- 释放资源sc.stop()

无缓存的DAG流程图显示:
在这里插入图片描述
有缓存的DAG流程图显示:
在这里插入图片描述
在这里插入图片描述

RDD的checkpoint检查点

RDD缓存主要是将数据存储在内存中,是临时存储,不太稳定,它主要是用来提升程序运行效率的。RDD的checkpoint(检查点)主要是将数据存储在HDFS上,是持久化存储。而HDFS存储数据有3副本的机制,让数据更加安全可靠。

checkpoint认为使用磁盘或者HDFS存储数据之后,数据非常的安全可靠,因此checkpoint会将RDD间的依赖关系给删除/丢弃掉。因此如果checkpoint的数据真的出现了问题,是无法在从头开始计算。

checkpoint主要作用: 提高程序的容错性
注意事项: checkpoint可以将数据存储在磁盘或者HDFS上,主要是将数据存储在HDFS上。

相关API:
sc.setCheckpointDir(存储路径): 设置checkpoint数据存放路径
rdd.checkpoint(): 对指定RDD启用checkpoint
rdd.count(): 触发checkpoint

代码演示:

import timefrom pyspark import SparkConf, SparkContext, StorageLevel
import os
import jieba# 绑定指定的Python解释器
os.environ['SPARK_HOME'] = '/export/server/spark'
os.environ['PYSPARK_PYTHON'] = '/root/anaconda3/bin/python3'
os.environ['PYSPARK_DRIVER_PYTHON'] = '/root/anaconda3/bin/python3'# 需要过滤的关键词黑名单
keyword_black_list = ['+','.','的','com']# ctrl+alt+M将代码封装成函数/方法
# 3.2- 需求一:统计每个关键词出现了多少次。先提取需要操作的字段并且分词,这一步类似WordCount中的对每行进行切分处理,再仿照WordCount实现。
def top10_keyword():keyword_rdd = etl_rdd.flatMap(lambda line_tup: list(jieba.cut(line_tup[2])))# print(keyword_rdd.take(10))# 数据结构转变。将单词变成元组# keyword_map_rdd = keyword_rdd.filter(lambda word:word!='+' or word!='.').map(lambda word:(word,1))keyword_map_rdd = keyword_rdd.filter(lambda word: word not in keyword_black_list).map(lambda word: (word, 1))# 分组聚合操作keyword_result_rdd = keyword_map_rdd.reduceByKey(lambda agg, curr: agg + curr)# print(keyword_result_rdd.take(100))# 对结果中关键词的次数降序排序,取TOP10keyword_result = keyword_result_rdd.top(10, key=lambda tup: tup[1])print(keyword_result)# 3.3- 需求二:统计每个用户每个搜索内容点击的次数
def content():# 从原始的6个字段中,提取出2个字段,得到 (用户,搜索内容)new_tup_tmp_rdd = etl_rdd.map(lambda tup: (tup[1], tup[2]))# 数据格式转换"""输入:(张三,鸡你太美) -> hello输出:((张三,鸡你太美),1) -> (hello,1)"""new_tup_rdd = new_tup_tmp_rdd.map(lambda tup: (tup, 1))# new_tup_rdd = new_tup_tmp_rdd.map(lambda tup:(tup[0],tup[1],1))# 分组聚合content_result = new_tup_rdd.reduceByKey(lambda agg, curr: agg + curr)print(content_result.take(10))if __name__ == '__main__':# 1- 创建SparkContextconf = SparkConf().setAppName('sogou_demo').setMaster('local[*]')sc = SparkContext(conf=conf)# 设置checkpoint路径sc.setCheckpointDir("hdfs://node1:8020/chk")# 2- 数据输入init_rdd = sc.textFile('file:///export/data/spark_core/data/SogouQ.sample')print("ETL处理前数据条数:",init_rdd.count())# 3- 数据处理# 3.1- ETL:数据的清洗、转换、加载"""split():默认按照空白字符进行切分。例如:空格、制表符、回车换行符等map和flatMap的主要区别:flatMap对每一个元素处理以后,会将结果打平/压扁到一个更大的容器当中。"""map_rdd = init_rdd.map(lambda line:line.split())# print("调用map算子后的内容:",map_rdd.take(10))# flatmap_rdd = init_rdd.flatMap(lambda line: line.split())# print("调用flatMap算子后的内容:",flatmap_rdd.take(10))# 过滤掉每行中没有6个字段的数据filter_rdd = map_rdd.filter(lambda line_list: len(line_list)==6)# 数据结构转换(为了演示而演示)etl_rdd = filter_rdd.map(lambda line_list:(line_list[0],line_list[1],line_list[2][1:-1], # 省略前后的中括号line_list[3],line_list[4],line_list[5]))# 对指定RDD启用checkpointetl_rdd.checkpoint()# 调用count算子,触发checkpoint操作etl_rdd.count()print("ETL处理后数据条数:", etl_rdd.count())# 3.2- 需求一:统计每个关键词出现了多少次# top10_keyword()# 3.3- 需求二:统计每个用户每个搜索内容点击的次数content()time.sleep(1000)# 5- 释放资源sc.stop()

没有设置检查点正常的DAG执行流图:
在这里插入图片描述
设置检查点后:

在这里插入图片描述

缓存和checkpoint的区别

1- 数据存储位置不同
缓存: 存储在内存或者磁盘 或者 堆外内存中
checkpoint检查点: 可以将数据存储在磁盘或者HDFS上, 在集群模式下, 仅能保存到HDFS上

2- 数据生命周期:
缓存: 当程序执行完成后, 或者手动调用unpersist 缓存都会被删除
checkpoint检查点: 即使程序退出后, checkpoint检查点的数据依然是存在的, 不会删除, 需要手动删除

3- 血缘关系:
缓存: 不会截断RDD之间的血缘关系, 因为缓存数据有可能是失效, 当失效后, 需要重新回溯计算操作
checkpoint检查点: 会截断掉依赖关系, 因为checkpoint将数据保存到更加安全可靠的位置, 不会发生数据丢失的问题, 当执行失败的时候, 也不需要重新回溯执行

4- 主要作用不同
缓存: 提高Spark程序的运行效率
checkpoint检查点: 提高Spark程序的容错性

思考:既然持久化的方案有两种,那么在生产环境中应该使用哪种方案呢?

在同一个项目中,推荐缓存和checkpoint(检查点)同时配合使用。使用顺序如下: 在代码中先设置缓存,再设置checkpoint检查点,然后再一同使用Action算子触发,推荐使用count算子。因为这个顺序,只会有一次IO写的过程。实际过程如下: 程序会优先从缓存中读取数据,如果发现缓存中没有数据。再从checkpoint中读取数据,并且接着将读取到的数据重新在内存中放置一份,后续还是优先从缓存中读取

在这里插入图片描述
测试:

import timefrom pyspark import SparkConf, SparkContext, StorageLevel
import os
import jieba# 绑定指定的Python解释器
os.environ['SPARK_HOME'] = '/export/server/spark'
os.environ['PYSPARK_PYTHON'] = '/root/anaconda3/bin/python3'
os.environ['PYSPARK_DRIVER_PYTHON'] = '/root/anaconda3/bin/python3'# 需要过滤的关键词黑名单
keyword_black_list = ['+','.','的','com']# ctrl+alt+M将代码封装成函数/方法
# 3.2- 需求一:统计每个关键词出现了多少次。先提取需要操作的字段并且分词,这一步类似WordCount中的对每行进行切分处理,再仿照WordCount实现。
def top10_keyword():keyword_rdd = etl_rdd.flatMap(lambda line_tup: list(jieba.cut(line_tup[2])))# print(keyword_rdd.take(10))# 数据结构转变。将单词变成元组# keyword_map_rdd = keyword_rdd.filter(lambda word:word!='+' or word!='.').map(lambda word:(word,1))keyword_map_rdd = keyword_rdd.filter(lambda word: word not in keyword_black_list).map(lambda word: (word, 1))# 分组聚合操作keyword_result_rdd = keyword_map_rdd.reduceByKey(lambda agg, curr: agg + curr)# print(keyword_result_rdd.take(100))# 对结果中关键词的次数降序排序,取TOP10keyword_result = keyword_result_rdd.top(10, key=lambda tup: tup[1])print(keyword_result)# 3.3- 需求二:统计每个用户每个搜索内容点击的次数
def content():# 从原始的6个字段中,提取出2个字段,得到 (用户,搜索内容)new_tup_tmp_rdd = etl_rdd.map(lambda tup: (tup[1], tup[2]))# 数据格式转换"""输入:(张三,鸡你太美) -> hello输出:((张三,鸡你太美),1) -> (hello,1)"""new_tup_rdd = new_tup_tmp_rdd.map(lambda tup: (tup, 1))# new_tup_rdd = new_tup_tmp_rdd.map(lambda tup:(tup[0],tup[1],1))# 分组聚合content_result = new_tup_rdd.reduceByKey(lambda agg, curr: agg + curr)print(content_result.take(10))if __name__ == '__main__':# 1- 创建SparkContextconf = SparkConf().setAppName('sogou_demo').setMaster('local[*]')sc = SparkContext(conf=conf)# 设置checkpoint路径sc.setCheckpointDir("hdfs://node1:8020/chk")# 2- 数据输入init_rdd = sc.textFile('file:///export/data/spark_core/data/SogouQ.sample')print("ETL处理前数据条数:",init_rdd.count())# 3- 数据处理# 3.1- ETL:数据的清洗、转换、加载"""split():默认按照空白字符进行切分。例如:空格、制表符、回车换行符等map和flatMap的主要区别:flatMap对每一个元素处理以后,会将结果打平/压扁到一个更大的容器当中。"""map_rdd = init_rdd.map(lambda line:line.split())# print("调用map算子后的内容:",map_rdd.take(10))# flatmap_rdd = init_rdd.flatMap(lambda line: line.split())# print("调用flatMap算子后的内容:",flatmap_rdd.take(10))# 过滤掉每行中没有6个字段的数据filter_rdd = map_rdd.filter(lambda line_list: len(line_list)==6)# 数据结构转换(为了演示而演示)etl_rdd = filter_rdd.map(lambda line_list:(line_list[0],line_list[1],line_list[2][1:-1], # 省略前后的中括号line_list[3],line_list[4],line_list[5]))# 先缓存
etl_rdd.persist(storageLevel=StorageLevel.MEMORY_AND_DISK)# 再checkpointetl_rdd.checkpoint()# 最后调用count算子,一同触发etl_rdd.count()print("ETL处理后数据条数:", etl_rdd.count())# 3.2- 需求一:统计每个关键词出现了多少次# top10_keyword()# 3.3- 需求二:统计每个用户每个搜索内容点击的次数content()time.sleep(1000)# 5- 释放资源sc.stop()

DAG有向无环图:
在这里插入图片描述

Spark内核调度

RDD的依赖

RDD依赖:一个RDD的形成可能是由一个或者多个RDD得到的,此时这个RDD和之前的RDD之间产生依赖关系。

在Spark中,RDD之间的依赖关系,主要有二种类型:

  • 窄依赖
作用: 能够让Spark程序并行计算。也就是一个分区数据计算出现问题以后,其他的分区计算不受到任何影响特点: 父RDD的分区和子RDD的分区关系是一对一的关系。
也就是父RDD分区的数据会整个被下游子RDD的分区接收

在这里插入图片描述

  • 宽依赖
作用: 划分Stage的重要依据。宽依赖也叫做Shuffle依赖
特点: 父RDD的分区和子RDD的分区关系是一对多的关系。也就是父RDD的分区数据会被分成多份给到下游子RDD的多个分区所接收。注意: 如果有宽依赖,shuffle下游的其他操作,必须等待shuffle执行完成以后才能够继续执行。为了避免数据不完整

在这里插入图片描述

在实际使用中,不需要纠结哪些算子会存在shuffle,以需求为目标**。虽然shuffle的存在会影响一定的效率, 但是以完成任务为准则,**该用那个算子,就使用那个算子即可,不要过分纠结。	算子中一般以ByKey结尾的会发生shuffle;另外是重分区算子会发生shuffle

DAG和Stage

DAG:有向无环图,主要描述一段执行任务,从开始一直往下走,不允许出现回调操作

Spark应用程序中,遇到一个Action算子,就会触发形成一个Job任务的产生。

对于每一个Job的任务,都会产生一个DAG执行流程图,那么这个流程图是如何形成的呢?

层级关系:
1- 一个Spark应用程序 -> 遇到一个Action算子,就会触发形成一个Job任务
2- 一个Job任务只有一个DAG有向无环图
3- 一个DAG有向无环图 -> 有多个Stage
4- 一个Stage -> 有多个Task线程
5- 一个RDD -> 有多个分区
6- 一个分区会被一个Task线程所处理

DAG执行流程图形成和Stage划分:
在这里插入图片描述

1- Spark应用程序遇到Action算子后,就会触发一个Job任务的产生。Job任务会将它所依赖的所有算子全部加载进来,形成一个Stage2- 接着从Action算子从后往前进行回溯,遇到窄依赖就将算子放在同一个Stage当中;如果遇到宽依赖,就划分形成新的Stage。最后一直回溯完成

细化剖析Stage内部的流程:
在这里插入图片描述
默认并行度的值确认:

因为是使用textFile读取HDFS上的文件,因此RDD分区数=max(文件的block块的数量, defaultMinPartition)。继续需要知道defaultMinPartition的值是多少。defaultMinPartition=min(spark.default.parallelism,2)取最小值。最终我们确认spark.default.parallelism的参数值就能够最终确认RDD的分区数有多少个spark.default.parallelism参数值确认过程如下:
1- 如果有父RDD,就取父RDD的最大分区数
2- 如果没有父RDD,根据集群模式进行取值:2.1- 本地模式:机器的最大CPU核数2.2- (了解)Mesos:默认是82.3- 其他模式:所有执行节点上的核总数或2,以较大者为准

Spark Shuffle

Spark中shuffle的发展历程:

1- 在1.1版本以前,Spark采用Hash shuffle (优化前 和 优化后)2- 在1.1版本的时候,Spark推出了Sort Shuffle3- 在1.5版本的时候,Spark引入钨丝计划(优化为主)4- 在1.6版本的时候,将钨丝计划合并到sortShuffle中5- 在2.0版本的时候,将Hash Shuffle移除,将Hash shuffle方案移植到Sort Shuffle

在这里插入图片描述

  • 在优化前的Hash shuffle:
    在这里插入图片描述
存在的问题:上游(map端)的每个Task会产生与下游Task个数相等的小文件个数。这种情况会导致上游有非常多的小文件。另外,下游(reduce端)来拉取文件的时候,会有大量的网络IO和磁盘IO过程,因为要打开和读取多个小文件。
  • 经过优化后的Hash shuffle
    在这里插入图片描述
变成了由每个Executor进程产生与下游Task个数相等的小文件数。这样可以大量减小小文件的产生,以及降低下游拉取文件时候的网络IO和磁盘IO过程
  • Sort shuffle:
    在这里插入图片描述
Sort Shuffle分成了两种: 普通机制和bypass机制。具体使用哪种,由Spark底层决定。普通机制的运行过程: 每个上游Task线程处理数据,数据处理完以后,先放在内存中。接着对内存中的数据进行分区、排序。将内存中的数据溢写到磁盘,形成一个个的小文件。溢写完成以后,会将多个小文件合并成一个大的磁盘文件。并且针对每个大的磁盘文件,会提供一个索引文件。接着是下游Task根据索引文件来读取相应的数据。bypass机制: 就是在普通机制的基础上,省略了排序的过程bypass机制的触发条件是:
1- 上游RDD的分区数量最多不能超过200个
2- 上游不能对数据进行提前聚合操作(因为提前聚合,需要先进行分组操作,而分组的操作实际上是有排序的操作)

Job调度流程

主要是讨论:在Driver内部,是如何调度任务
在这里插入图片描述
1- Driver进程启动后,底层PY4J创建SparkContext顶级对象。在创建该对象的过程中,还会创建另外两个对象,分别是: DAGScheduler和TaskScheduler
DAGScheduler: DAG调度器。将Job任务形成DAG有向无环图和划分Stage的阶段
TaskScheduler: Task调度器。将Task线程分配给到具体的Executor执行

2- 一个Spark程序遇到一个Action算子就会触发产生一个Job任务。SparkContext将Job任务给到DAG调度器,拿到Job任务后,会将Job任务形成DAG有向无环图和划分Stage的阶段。并且会确定每个Stage阶段有多少个Task线程,会将众多的Task线程放到TaskSet的集合中。DAG调度器将TaskSet集合给到Task调度器

3- Task调度器拿到TaskSet集合以后,将Task分配给到给到具体的Executor执行。底层是基于SchedulerBackend调度队列来实现的。

4- Executor开始执行任务。并且Driver会监控各个Executor的执行状态,直到所有的Executor执行完成,就认为任务运行结束

5- 后续过程和之前一样

Spark RDD 并行度

整个Spark应用中,影响并行度的因素有以下两个原因:

  • 1- 资源的并行度: Executor数量 和 CPU核心数 以及 内存的大小
  • 2- 数据的并行度: Task的线程数 和 分区数量
一般将Task线程数设置为CPU核数的2-3倍。另外每个线程分配3-5GB的内存资源。

如何设置并行度:
在这里插入图片描述

说明: spark.default.parallelism该参数是SparkCore中的参数。该参数只会影响shuffle以后的分区数量。
另外该参数对parallelize并行化本地集合创建的RDD不起作用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/608629.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

小程序开发之uniapp项目框架搭建

出于对技术的实践,以及博主最近刚刚拥有了一台自己的云服务器,本着闲着也是闲着的态度,准备着手开发一款快递下单、查询快艇实时状态的多端小程序,又不想在各个小程序平台重复开发,因此选择了uinapp 。 博主先讲诉一下…

【数据结构】二叉树链式结构详解

目录 1.前言2.快速创建一颗二叉树3.二叉树的遍历3.1前序遍历3.2中序遍历3.3后序遍历3.4层序遍历 4.二叉树节点个数与高度4.1二叉树节点个数4.2二叉树叶子节点个数4.3二叉树高度4.4二叉树第k层节点个数4.5二叉树查找值为x的节点 5.二叉树的基础oj题练习6.二叉树的创建和销毁6.1通…

贪心算法的“左最优“与“右最优“

1 答疑 1.1 什么是贪心算法的"左最优"与"右最优" "左最优"和"右最优"是贪心算法中的两种策略: 左最优 (Leftmost Greedy): 在每一步选择中,总是选择最左边(最早出现的)可行的选项。 右…

JVM,JRE,JDK的区别和联系简洁版

先看图 利用JDK(调用JAVA API)开发JAVA程序后,通过JDK中的编译程序(javac)将我们的文本java文件编译成JAVA字节码,在JRE上运行这些JAVA字节码,JVM解析这些字节码,映射到CPU指令集或…

洛谷——P1069 [NOIP2009 普及组] 细胞分裂(分解质因数,唯一分解定理)

文章目录 一、题目[NOIP2009 普及组] 细胞分裂题目描述输入格式输出格式样例 #1样例输入 #1样例输出 #1 样例 #2样例输入 #2样例输出 #2 提示 二、题解1.基本思路:2.代码: 一、题目 [NOIP2009 普及组] 细胞分裂 题目描述 Hanks 博士是 BT(…

粒子群算法优化支持向量SVM的供热量预测,粒子群优化支持向量机SVM回归分析

目录 背影 支持向量机SVM的详细原理 SVM的定义 SVM理论 粒子群算法原理 SVM应用实例,粒子群算法优化支持向量SVM的供热量预测,粒子群优化支持向量机SVM回归分析 代码 结果分析 展望 完整代码:粒子群算法优化支持向量SVM的供热量预测,粒子群优化支持向量机SVM回归分析_lssv…

Spring学习 基于注解的AOP配置

5.1.创建工程 5.1.1.pom.xml <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.ap…

springCould中的Config-从小白开始【10 】

目录 &#x1f32d;1.spring cloud Config是什么&#x1f636;‍&#x1f32b;️&#x1f636;‍&#x1f32b;️&#x1f636;‍&#x1f32b;️ &#x1f953;2.能干什么&#x1f636;‍&#x1f32b;️&#x1f636;‍&#x1f32b;️&#x1f636;‍&#x1f32b;️ &am…

SSH远程访问出现Permission denied(password)解决方法

首先&#xff0c;这个不是密码输错了的问题&#xff1b; 1、在主机先ping一下服务器 ping XXX.XXX.XX.XXX (服务器ip地址) 如果pin成功了&#xff0c;说明可以进行连接 查看服务器的ip ifconfig2、主机连接服务器 &#xff08;服务器的ip&#xff09; ssh testXXX.XXX.XX.…

mysql 删除查询语句所选出的数据 SQL查询,用于找出outbox表中memo1字段重复且dt字段不是最新日期的记录

编写一个SQL查询&#xff0c;用于找出outbox表中memo1字段重复且dt字段不是最新日期的记录 批量打印包装箱时&#xff0c;提示有重复N条的处理方法&#xff1a; –先备份数据库&#xff0c;删除不可逆。查出来&#xff0c;如果就是重复的N条&#xff0c;全选右键 删除 SELECT …

LeetCode-数组-双指针-中等难度

文章目录 双指针1. 删除有序数组中的重复项&#xff08;入门&#xff09;1.1 题目描述1.2 解题思路1.3 代码实现 2. 删除有序数组中的重复项 II&#xff08;简单&#xff09;2.1 题目描述2.2 解题思路2.3 代码实现 3. 移动零&#xff08;简单&#xff09;3.1 题目描述3.2 代码实…

Hive的时间处理函数from_unixtime和unix_timestamp

一、概述 hive时间处理函数from_unixtime和unix_timestamp的实现以及实例&#xff0c;从而方便后续的时间处理。 二、具体功能实现 1.unix_timestamp(date[, pattern])&#xff1a; 默认的时间格式是yyyy-MM-dd HH:mm:ss&#xff0c;如果日期不是这种格式无法识别&#xff…

【技术选型】clickhouse vs starRocks

比对结论 如果只能单机部署的话&#xff0c;clickhouse基本无敌。 如果集群化&#xff0c;starRocks可以替换clickhouse&#xff0c;但支持的函数会相对少一些&#xff08;clickhouse有不少自定义函数&#xff09; 信息比对 功能clickhousestarRocksjoin大表关联容易OOM对jo…

AQS应用之BlockingQueue详解

概要 AQS全称是 AbstractQueuedSynchronizer&#xff0c;中文译为抽象队列式同步器。BlockingQueue&#xff0c;是java.util.concurrent 包提供的用于解决并发生产者 - 消费者问题的最有用的类&#xff0c;它的特性是在任意时刻只有一个线程可以进行take或者put操作&#xff0…

MySQL之导入导出远程备份

目录 一. navicat导入导出 二. mysqldump命令导入导出 导入 导出 三. load data infile命令导入导出 导入 导出 四. 远程备份 导入 导出 思维导图 一. navicat导入导出 导入&#xff1a;右键➡运行SQL文件 导出&#xff1a;选中要导出的表➡右键➡转储SQL文件➡数据和结…

C# Emgu.CV4.8.0读取rtsp流录制mp4可分段保存

【官方框架地址】 https://github.com/emgucv/emgucv 【算法介绍】 EMGU CV&#xff08;Emgu Computer Vision&#xff09;是一个开源的、基于.NET框架的计算机视觉库&#xff0c;它提供了对OpenCV&#xff08;开源计算机视觉库&#xff09;的封装。EMGU CV使得在.NET应用程序…

x-cmd pkg | vhs - 将终端的操作过程录制成视频文件的终端录制工具

目录 简介首次用户声明式录制脚本其他功能竞品和相关作品进一步阅读 简介 vhs 是一个命令行录制工具&#xff0c;用于将终端的操作过程录制成视频文件。是由 Charmbracelet 团队使用 Go 开发的&#xff0c;首个版本发布于 2022 年 10 月。开源不到一个月有接近 8k 的 star。 …

Kubernetes (八) 金丝雀发布

一. 金丝雀发布作用&#xff1a; 金丝雀发布是指在生产环境中逐步推出新版本应用程序&#xff0c;只在一小部分用户或流量中使用该版本&#xff0c;并根据反馈逐步扩…

收到的字符串写入xml并且将这个xml写入.zip文件中

文章目录 1、将数据写入xml文件WriteToXmlFile2、将xml文件写入zip压缩文件AddToZip3、组合起来4、使用到的头文件和动态库 1、将数据写入xml文件WriteToXmlFile void CSMSLoginDlg::WriteToXmlFile(const std::string& responseData, const std::string& xmlFileName…

计算机为什么有趣?哪些地方有趣?为什么学习四则运算简单,学习微积分却很难?导数是微分吗?

计算机为什么有趣&#xff1f;哪些地方有趣&#xff1f; 计算机之所以有趣&#xff0c;主要是因为它们具有无限的可能性和创造力。这里有几个方面可以帮助你理解为什么计算机这么有趣&#xff1a; 解决问题的工具&#xff1a;想象一下&#xff0c;你有一个拼图&#xff0c;计算…