集合相减算法java_集算器协助java处理结构化文本的集合运算

有两个小文件:f1.txt和f2.txt,第一行是列名,现在需要对文件中的Name字段进行交集运算。部分数据如下:

文件f1.txt:

d2f6cc244aa7cf30f3778f6455bc9425.png

文件f2.txt:

09cc888a2ad99b9436c5a24152b2eb6c.png

集算器代码:

ea58ed37af3577366f3ffbac902623c3.png

A1、B1:用import函数将文件读=[A1.(Name),B1.(Name)].isect()入内存,默认的分隔符是tab。这里的函数

选项@t表示将第一行读为列名,这样一来后续的计算就可以直接用Name和Dept来引用相应的列,如果第一行不是列名,则应当用_1和_2这种默认列名

来引用。

计算后A1和B1的值分别如下:

54ae29742ea13e598b523cc1e7d7deb1.png

函数import可以读取指定的列,比如本案例只有Name会参与计算,因此可以只读取Name列,对应的代码是:file(“E:\\f1.txt”).import@t(Name) 。

A2= 函数isect可以进行集合间的交集运算,A1.(Name)表示取出A1的Name列,形成一个集合,B1.(Name)表示取出B1的Name列。本案例的最终结果如下:

08da40b9c1516dd1d06c71ed8f443ace.png

A3:result A2。这表示将计算结果输出到JDBC接口。A3可以和A2合为一步:result [A1.(Name),B1.(Name)].isect() 。

上述是求交集的过程,求并集只需换个函数:[A1.(Name),B1.(Name)].union(),计算结果如下:

1cfe3e5bc3e44abb5c005b40377dbb29.png

求差集的代码:[A1.(Name),B1.(Name)].diff(),计算结果如下:

20bd54f2ca8d09346e4a59efd4a481c0.png

还有一类特殊的集合算法:和集,即求并集时保留重复的元素,和集的代码:[A1.(Name),B1.(Name)].conj(),计算结果如下:

072f5a77f0eb271dca76edfb394739f6.png

可以直接用运算符来代替函数,写法更加简洁,比如交集,并集、差集、合集可以改写为:

A1.(Name) ^ B1.(Name)

A1.(Name) & B1.(Name)

A1.(Name) \ B1.(Name)

A1.(Name) | B1.(Name)

也可以对多个文件进行集合运算,比如f1.txt、f2.txt、f3.txt读入内存后对应的变量分别是A1、B1、C1,对它们求交集,代码如

下:A1.(Name) ^ B1.(Name) ^C1.(Name) 或

[A1.(Name),B1.(Name),C1.(Name)].isect() 。

有时候文件比较大,会影响集合运算的性能,可以用sort函数事先排序,再用merge函数来进行集合运算,这样一来性能会显著提高。其中,求交集时应当使用函数选项@i,并集使用@u,差集使用@d,对应的代码分别如下:

=[A1.(Name).sort(),B1.(Name).sort()].merge@i()

=[A1.(Name).sort(),B1.(Name).sort()].merge@u()

=[A1.(Name).sort(),B1.(Name).sort()].merge@d()

函数merge还可以进行多字段的集合运算,假设不同的Dept会存在相同的Name,现在需要将Dept和Name当作一个整体来进行交集运算,

对应的代码如下:[A1.sort(Dept,Name),B1.sort(Dept,Name)].merge@i(Dept,Name) 。

计算结果如下:

e459f03e186613147ebdd79c69f5d15d.png

对于内存放不下的大文件,可以用cursor函数来读取文件,并用merge函数来实现集合运算。其中,求交集的代码如下:

A1=file(“e:\\f1.txt”).cursor()

B1=file(“e:\\f2.txt”).cursor()

A2=[ A1.sortx(Name),B1.sortx(Name)].merge@xi(Name)

注意,这里函数cursor并不会将数据全部读入内存,而是以游标(或流)的方式打开文件。集算器引擎会自动分配合适的缓冲区,每次读取一部分数据参与计算,再循环往复,完成最终的计算。

与内存计算不同,操作游标需要使用游标函数,比如排序时应当使用函数sortx。这里的merge函数使用了两个函数选项,@i表示求交集,@x表示参与计算的对象不是内存数据,而是游标。另外,union等函数只能进行内存数据的集合运算,不能用于大文件。

上述脚本已经完成了所有的数据处理工作,接下来通过JDBC将集算器脚本集成在JAVA里。JAVA代码如下:

//建立esProc jdbc连接

Class.forName(“com.esproc.jdbc.InternalDriver”);

con= DriverManager.getConnection(“jdbc:esproc:local://”);

//调用esProc,其中test是脚本文件名

st =(com.esproc.jdbc.InternalCStatement)con.prepareCall(“call test()”);

st.execute();//执行esProc存储过程

ResultSet set = st.getResultSet();//获得计算结果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/338324.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

netbeans插件_如何编写NetBeans插件

netbeans插件是否想在NetBeans IDE中添加功能或自动执行某些操作? 跟随我们编写您的第一个NetBeans插件。 让我们超越简单的工具栏示例 ,创建一个可以自动更新的插件。 该代码基于NetBeans的WakaTime插件 。 我们的示例插件将仅打印Hello World语句&…

c语言程序从哪里开始执行

c语言程序的执行总是起始于main函数。在一个C语言源程序中,无论main函数书写在程序的前部,还是后部,程序的执行总是从main函数开始,并且在main函数中结束。但需要注意的是,也是有特殊情况的,若是代码中出现…

基于价值链的流程框架分类_基于价值的类

基于价值链的流程框架分类在Java 8中,某些类在Javadoc中有一个小注释,说明它们是基于值的类 。 其中包括简短说明的链接,以及有关不使用它们的限制。 这很容易被忽略,如果这样做,则可能会在将来的Java版本中以微妙的方…

java json 易用_Java中 Json的使用

Java JSON本章节我们将为大家介绍如何在 Java 语言中使用 JSON。类库选择Java中并没有内置JSON的解析,因此使用JSON需要借助第三方类库。下面是几个常用的 JSON 解析类库。Gson:谷歌开发的 JSON 库,功能十分全面。FastJson:阿里巴巴开发的 JSON 库&#…

C语言中数组所占字节怎么算

数组在内存中所占字节数可以使用sizeof操作符来计算,该操作符是专门用于检测类型或变量或数组在内存中所占有的空间(字节数);语法“sizeof(x)”,其中x是类型名、变量名或数组名等,可以返回x所占字节数。C语…

java伪装反序列化字节流_java对象序列化流和反序列化流

首先创建一个学生类import java.io.Serializable;public class Student implements Serializable {private static final long serialVersionUID 42L;private String name;//private int age;private transient int age;public Student() {}public Student(String name, int a…

sap界面功能_功能介面

sap界面功能目录 1.简介 2.理由 3. Lambda表达式 4.谓词<T> 5. BiPredicate <T&#xff0c;U> 6.函数<T&#xff0c;R> 7. BiFunction <T&#xff0c;U&#xff0c;R> 8.消费者<T> 9. BiConsumer <T&#xff0c;U> 10.供应商<T> 11.…

c 中头文件和源文件的区别是什么

区别&#xff1a;头文件是“.h”文件&#xff0c;提供接口&#xff1b;源文件是“.cpp”文件&#xff0c;提供实现。编译器规定源文件必须包含函数入口&#xff0c;即main函数&#xff1b;而头文件不得包含函数入口&#xff0c;头文件不可以单独编译成一个程序&#xff0c;仅仅…

rest api_REST API的演变

rest api每个开发人员都以某种方式接触到API 。 要么为一家大公司集成一个主要系统&#xff0c;或者使用最新的图形库生成一些精美的图表&#xff0c;要么直接与他喜欢的编程语言进行交互。 事实是&#xff0c;API无处不在&#xff01; 它们实际上代表了当今Internet的基本构建…

在c程序中,注释语句只能位于一条语句的后面吗

C语言中的注释在编写C语言源代码时&#xff0c;应该多使用注释&#xff0c;这样有助于对代码的理解。在C语言中有两种注释方式&#xff1a;一种是以/*开始、以*/结束的块注释&#xff08;block comment&#xff09;&#xff1b;另一种是以//开始、以换行符结束的单行注释&#…

java中的wn是什么意思_wnJava--做简捷的互动社区网站

13年3月份开始策划开发的个人作品&#xff0c;一直都是一个人开发&#xff0c;虽然自觉还有许多功能需要完善&#xff0c;冒着被各位大牛们批判的风险共享下源码&#xff0c;在看了网站之后感兴趣的可以自行下载啊。代码运行于tomcat容器&#xff0c;jsp-servlet架构 使用sprin…

C 运算符中不能重载的是哪些

C 运算符中不能重载的有&#xff1a;1、条件运算符“?:”&#xff1b;2、成员访问运算符“.”&#xff1b;3、域运算符“::”&#xff1b;4、长度运算符“sizeof”&#xff1b;5、成员指针访问运算符“->*”和“.*” 。重载&#xff1a;让操作符可以有新的语义&#xff0c;…

jdbc pdf_JDBC教程– ULTIMATE指南(PDF下载)

jdbc pdf在本文中&#xff0c;我们提供了全面的JDBC教程&#xff08;Java数据库连接性&#xff09;&#xff0c;这是Oracle提供的API&#xff0c;允许程序员处理Java应用程序中的不同数据库&#xff1a;它允许开发人员建立与数据库的连接&#xff0c;定义特定客户端如何访问给定…

C语言字符串输出函数puts()的作用是什么

C语言字符串输出函数puts()的作用&#xff1a;puts()在显示字符串时会自动在其末尾添加一个换行符。puts()遇到空字符时就停止输出&#xff0c;所以必须确保有空字符。  下面两个示例分别说明puts()的两个特点。  示例1&#xff1a;/* put_out.c -- using puts() */#includ…

java下标运算符_《Java从小白到大牛精简版》之第6章 运算符(下)

《Java从小白到大牛》纸质版已经上架了&#xff01;&#xff01;6.4 位运算符位运算是以二进位(bit)为单位进行运算的&#xff0c;操作数和结果都是整型数据。位运算符有如下几个运算符&#xff1a;&、|、^、~、>>、<>>&#xff0c;以及相应的赋值运算符&am…

maf中anglearc_Oracle MAF中的LOV

maf中anglearc我们都喜欢最强大的ADF功能值列表之一。 使用它们&#xff0c;我们可以声明并轻松地在ADF应用程序中构建非常复杂的功能。 一件好事是&#xff0c;我们在Oracle MAF中也有类似的方法。 在ADF BC中&#xff0c;我们在业务服务级别&#xff08;基本上在实体或VO级别…

一个c程序的执行是从哪里开始到哪里结束

一个C程序的执行是从main函数开始到main函数结束。C语言是一门面向过程的、抽象化的通用程序设计语言&#xff0c;广泛应用于底层开发。C语言能以简易的方式编译、处理低级存储器。C语言是仅产生少量的机器语言以及不需要任何运行环境支持便能运行的高效率程序设计语言。尽管C语…

java9 coutdown_Java并发之CountDownLatch

正如每个Java文档所描述的那样&#xff0c;CountDownLatch是一个同步工具类&#xff0c;它允许一个或多个线程一直等待&#xff0c;直到其他线程的操作执行完后再执行。在Java并发中&#xff0c;countdownlatch的概念是一个常见的面试题&#xff0c;所以一定要确保你很好的理解…

jsf 写一个action_一个JSF清单示例

jsf 写一个action这是使用JSF 2.0&#xff08;JavaServer Faces&#xff09;构建的示例列表应用程序。 该应用程序是待办事项列表。 该应用程序具有添加&#xff0c;编辑或删除列表中项目的功能。 待办事项具有名称和描述属性。 完成的应用程序的JSF页面具有&#xff1a; 使用…

c 中=和==的区别有哪些?

c 中和的区别1、含义不同&#xff1a;“”是赋值的意思。它的作用是将一个表达式的值赋给一个左值。一个表达式或者是一个左值&#xff0c;或者是一个右值。所谓左值是指一个能用于赋值运算左边的表达式。左值必须能够被修改&#xff0c;不能是常量。我们用变量作左值&#xff…