Spark SQL(一)之简介

Spark SQL是用于结构化数据处理的Spark模块。与基本的Spark RDD API不同,Spark SQL提供的接口为Spark提供了有关数据结构和正在执行的计算的更多信息。在内部,Spark SQL使用这些额外的信息来执行额外的优化。

与Spark SQL交互的方法有多种,包括SQL和Dataset API。计算结果时,将使用相同的执行引擎,而与要用来表达计算的API /语言无关。

 

一、SparkSession

SparkSession类是Spark中所有功能的入口点。要创建一个基本的SparkSession,只需使用SparkSession.builder()创建。

  SparkSession spark = SparkSession.builder().appName("Spark SQL").master("local[4]").getOrCreate();

二、Dataset

Dataset是数据的分布式集合。数据集是Spark 1.6中添加的新接口,它具有RDD的优点(强类型输入,使用强大的lambda函数的能力)以及Spark SQL的优化执行引擎的优点。Dataset可以被构造从JVM对象,然后使用功能性的转换(操作map,flatMap,filter等等)。

Dataset API在Scala和 Java中可用。Python不支持Dataset API。但是由于Python的动态特性,Dataset API的许多优点已经可用(即,您可以自然地通过名称访问行的字段 row.columnName)。R的情况与此类似。

DataFrame是数据格式为Row的Dataset。从概念上讲,它等效于关系数据库中的表或R / Python中的数据框,但是在后台进行了更丰富的优化。可以从多种来源构造DataFrame,例如:结构化数据文件,Hive中的表,外部数据库或现有的RDD。DataFrame API在Scala,Java,Python和R中可用。在Scala和Java中,DataFrame由的数据集表示Row。在Scala API中,DataFrame只是类型别名Dataset[Row]。而在Java API中,用户需要使用Dataset<Row>来代表DataFrame。

在整个文档中,我们通常将的Scala / Java的Dataset<Row>称为DataFrames。

Dataset<Row> df = spark.read().json("/test.json");

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/322059.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

hdu4336-Card Collector【min-max容斥,期望概率】

正题 题目链接:http://acm.hdu.edu.cn/showproblem.php?pid4336 题目大意 每次获得第iii张牌的概率为pip_ipi​(每次只能获得一张)&#xff0c;期望多少回合后获得所有牌。 解题思路 min−maxmin-maxmin−max容斥:max{S}∑T⊆S(−1)∣T∣−1min{T}max\{S\}\sum_{T\subseteq …

.NET Core UI框架Avalonia

.NET Core UI框架Avalonia&#xff0c;Avalonia是一个基于WPF XAML的跨平台UI框架&#xff0c;并支持多种操作系统&#xff1a;Windows&#xff08;.NET Framework&#xff0c;.NET Core&#xff09;&#xff0c;Linux&#xff08;GTK&#xff09;&#xff0c;MacOS&#xff0c…

Spark SQL(二)之DataSet操作

一、创建DataSet 使用SparkSession&#xff0c;应用程序可以从现有的RDD&#xff0c;Hive表的或Spark数据源创建DataFrame 。 &#xff08;1&#xff09;基于JSON的内容创建一个DataFrame //hdfs Dataset<Row> df spark.read().json("hdfs://master:9000/test.j…

jzoj6296-投票【期望dp,贪心】

正题 题目大意 nnn个人&#xff0c;第iii投票的概率是pip_ipi​&#xff0c;选择kkk个求最大的平票概率。 解题思路 我们显然要让kkk人中一半投票的概率大&#xff0c;一半投票的概率小。 所以我们可以先进行排序&#xff0c;这样我们发现答案一定是选取一段前缀和一段后缀。…

揽货最短路径解决方案算法 - C# 蚁群优化算法实现

需求为&#xff08;自己编的&#xff0c;非实际项目&#xff09;&#xff1a;某配送中心进行揽货&#xff0c;目标客户数为50个客户&#xff0c;配送中心目前的运力资源如下&#xff1a;现有车辆5台单台运力最大行驶距离200千米单台运力最大载重公斤1吨问&#xff1a;运力怎样走…

Spark SQL(三)之视图与执行SQL

一、视图与sql执行 SparkSession能够以编程方式运行SQL查询并返回结果Dataset<Row> Dataset<Row> df spark.read().json("hdfs://master:9000/test.json"); df.createOrReplaceTempView("man");Dataset<Row> sqlDF spark.sql("…

hdu4965-Fast Matrix Calculation【矩阵乘法】

正题 题目链接:http://acm.hdu.edu.cn/showproblem.php?pid4965 题目大意 给出矩阵A,BA,BA,B&#xff0c;求(AB)n(AB)^n(AB)n。然后对于每个元素%6\% 6%6后取和。 题目大意 我们发现如果直接让AB∗ABAB*ABAB∗AB这样的时间复杂度是n3n^3n3&#xff0c;显然不可过。但是我们…

OIDC在 ASP.NET Core中的应用

我们在《ASP.NET Core项目实战的课程》第一章里面给identity server4做了一个全面的介绍和示例的练习 。如果想完全理解本文所涉及到的话题&#xff0c;你需要了解的背景知识有&#xff1a;什么是OpenId Connect (OIDC)OIDC 对oAuth进行了哪些扩展&#xff1f;Identity Server4…

论文阅读:Blind Super-Resolution Kernel Estimation using an Internal-GAN

这是发表在 2019 年 NIPS 上的一篇文章&#xff0c;那个时候还叫 NIPS&#xff0c;现在已经改名为 NeurIPS 了。文章中的其中一个作者 Michal Irani 是以色 Weizmann Institute of Science (魏茨曼科学研究学院) 的一名教授&#xff0c;对图像纹理的内在统计规律有着很深入的研…

Spark SQL(四)之DataSet与RDD转换

一、创建DataSet DataSet与RDD相似&#xff0c;但是&#xff0c;它们不使用Java序列化或Kryo&#xff0c;而是使用专用的Encoder对对象进行序列化以进行网络处理或传输。虽然编码器和标准序列化都负责将对象转换为字节&#xff0c;但是编码器是动态生成的代码&#xff0c;并使…

P3389-[模板]高斯消元法

正题 题目链接:https://www.luogu.org/problem/P3389 题目大意 给出一个nnn元一次方程组&#xff0c;求解。 解题思路 模板&#xff0c;有什么好说的吗 codecodecode #include<cstdio> #include<cstring> #include<algorithm> #include<cmath> usi…

【ASP.NET Core】处理异常

依照老周的良好作风&#xff0c;开始之前先说点题外话。前面的博文中&#xff0c;老周介绍过自定义 MVC 视图的搜索路径&#xff0c;即向 ViewLocationFormats 列表添加相应的内容&#xff0c;其实&#xff0c;对 Razor Page 模型&#xff0c;也可以向 PageViewLocationFormats…

Spark SQL(五)之数据加载与存储

一、数据加载 &#xff08;1&#xff09;默认数据源&#xff08;parquet&#xff09; 最简单加载数据的方式&#xff0c;所有操作都使用默认数据源&#xff08;parquet&#xff09;。如果指定默认数据源需要配置 spark.sql.sources.default参数。 Dataset<Row> manDF …

树莓派3B上部署运行.net core 2程序

针对Linxu arm处理器如何部署.net core 2的资料很少&#xff0c;网上找到几篇但都写得不够详细&#xff0c;按照他们教程来撞墙了&#xff0c;折磨了几天终于部署成功了&#xff0c;先上一张运行成功的图1.windows系统中&#xff0c;在项目的目录下使用CMD命令运行进行发布dotn…

bzoj3143,P3232-[Hnoi2013]游走【数学期望,高斯消元,贪心】

正题 题目链接: https://www.lydsy.com/JudgeOnline/problem.php?id3143 https://www.luogu.org/problem/P3232 题目大意 一张无向图nnn个点mmm条边&#xff0c;然后给每条边附上1∼m1\sim m1∼m的权值(不能重复)&#xff0c;求1走到nnn的最小期望值。 解题思路 我们可以计…

Spark SQL(六)之加载数据的参数配置

一、配置 忽略损坏的文件、忽略丢失的文件、路径全局过滤器、递归文件查找和修改时间路径过滤器等选项/配置仅在使用基于文件的源&#xff08;parquet&#xff0c;orc&#xff0c;avro&#xff0c;json&#xff0c;csv&#xff0c;txt&#xff09;时才有效。 以下示例中使用的…

bzoj1013,luogu4035-[JSOI2008]球形空间产生器【高斯消元】

正题 题目链接: https://www.lydsy.com/JudgeOnline/problem.php?id3534 https://www.luogu.org/problem/P4035 题目大意 一个nnn维平面的元&#xff0c;给出圆表面上的n1n1n1个坐标&#xff0c;求圆心位置。 解题思路 对于圆心的第iii维位置xix_ixi​有∑j0n(ai,j−xi)2C\…

拥抱.NET Core系列:MemoryCache 初识

MSCache能做什么&#xff1f;绝对过期支持滑动过期支持&#xff08;指定一个时间&#xff0c;TimeSpan&#xff0c;指定时间内有被Get缓存时间则顺延&#xff0c;否则过期&#xff09;过期回调自定义过期MSCache目前最新的正式版是 2.0.0&#xff0c;预览版是2.1.0&#xff0c;…

Spark Structure Streaming(一)之简介

一、Structure Streaming 结构化流是基于Spark SQL引擎构建的可伸缩且容错的流处理引擎。可以像对静态数据进行批处理计算一样&#xff0c;来表示流计算。 当流数据继续到达时&#xff0c;Spark SQL引擎将负责递增地&#xff0c;连续地运行它并更新最终结果。可以在Scala&…

Ocelot中使用Butterfly实践

Ocelot(https://github.com/TomPallister/Ocelot)是一个用.net core实现的API网关&#xff0c;Butterfly(https://github.com/ButterflyAPM/butterfly)是用.net core实现的全程序跟踪&#xff0c;现在&#xff0c;Ocelot中可以使用Butterfly了&#xff0c;关于Ocelot和Butterfl…