java中缓冲区和缓存_Java中的Google协议缓冲区

java中缓冲区和缓存

总览

协议缓冲区是一种用于结构化数据的开源编码机制。 它是由Google开发的,旨在实现语言/平台中立且可扩展。 在本文中,我的目的是介绍Java平台上下文中协议缓冲区的基本用法。

Protobuff比XML更快,更简单,并且比JSON更紧凑。 当前,支持C ++,Java和Python。 但是,还有其他平台(不是Google所支持的)作为开放源代码项目–我尝试了PHP实现,但是它尚未完全开发,因此我停止使用它; 尽管如此,支持仍在继续。 随着Google宣布支持Google App Engine中PHP,我相信他们会将其提升到一个新的水平。

基本上,您定义使用.proto规范文件来一次构造数据的方式。 这类似于描述软件组件的IDL文件或规范语言。 该文件由协议缓冲区编译器(protoc)使用,该协议缓冲区编译器将生成支持方法,以便您可以在各种流中读写对象。

消息格式非常简单。 每种消息类型都有一个或多个唯一编号的字段(稍后我们将介绍原因)。 嵌套消息类型具有其自己的唯一编号字段集。 值类型可以是数字,布尔值,字符串,字节,集合和枚举(受Java枚举启发)。 另外,您可以嵌套其他消息类型,从而以类似于JSON允许的方式分层结构化数据。

字段可以指定为可选必需重复 。 在Python中实现协议缓冲区时,不要让字段的类型(例如enum,int32,float,string等)使您感到困惑。 在该领域的类型只是提示,protoc如何序列化的字段值,并产生你的邮件的邮件编码格式(以后会更多)。 编码格式看起来是对象的扁平化和压缩表示形式。 无论您是在Python,Java还是C ++中使用协议缓冲区,都将以完全相同的方式编写此规范。

Protobuff是可扩展的,您可以在以后的时间更新对象的结构,而不会破坏使用旧格式的程序。 如果要通过网络发送数据,则可以使用Protocol Buffer API对数据进行编码,然后序列化结果字符串。

可扩展性这一概念非常重要,因为Java以及与此相关的许多其他序列化机制可能会存在互操作性和向后兼容性的问题。 使用这种方法,您不必担心在代码中维护表示对象结构的serialVersionId字段。 维护该字段至关重要,因为Java的序列化机制将在反序列化对象时将其用作快速校验和。 因此,一旦将对象序列化到某个文件系统或blob存储区中,以后就有可能对对象结构进行大刀阔斧的改变。 协议缓冲区受此影响较小。 只要您仅向对象添加可选字段,就可以反序列化旧类型,此时您可能会升级它们。

此外,您可以使用java_package关键字为.proto文件定义包名称。 这样可以很好地避免生成的代码发生名称冲突。 另一种选择是像在下面的示例中所做的那样,专门命名生成的类文件。 我在生成的类之前加上“ Proto”前缀,以表明这是一个生成的类。

这是一个简单的消息规范,描述了带有嵌入式地址消息User.proto的用户:

option java_outer_classname="ProtoUser";message User {required int32  id = 1;  // DB record IDrequired string name = 2;required string firstname = 3;required string lastname = 4;required string ssn= 5; // Embedded Address message specmessage Address {required int32 id = 1;required string country = 2 [default = "US"];; optional string state = 3;optional string city = 4;optional string street = 5;optional string zip = 6;enum Type {HOME = 0;WORK = 1; }optional Type addrType = 7 [default = HOME]; }repeated Address addr = 16;
}

让我们谈谈每个属性右侧看到的标签号,因为它们非常重要。 这些标记在此规范的对象上以二进制表示形式标识消息的字段顺序。 标记值1 – 15将被存储为1个字节,而标记为值16 – 2047的字段则需要2个字节进行编码-不能确定为什么这样做。 Google建议您将标签1 – 15用于非常频繁出现的数据,并在此范围内保留一些标签值以用于将来的更新。
注意:不能使用数字19000到19999。保留用于原型实现。 另外,您可以定义必填,重复和可选的字段。从Google文档中:

  • required :格式正确的消息必须恰好具有此字段之一,即,尝试使用未初始化的必填字段来构建消息会引发RuntimeException。
  • optional :格式正确的消息可以包含零个或一个此字段(但不能超过一个)。
  • repeated :在格式正确的消息中,此字段可以重复任意次(包括零次)。 重复值的顺序将保留。

该文档警告开发人员在使用required时要谨慎因为如果您决定不赞成使用此类字段,则会引起问题。 这是所有序列化机制都会遇到的经典向后兼容性问题。 Google工程师甚至建议对所有内容使用可选。

此外,我指定了一个嵌套消息规范地址。 我可以轻松地将此定义放置在同一原型文件中的User对象之外。 因此,对于相关的消息定义,将它们全部放在同一个.proto文件中是有意义的。 即使“地址”消息类型不是一个很好的例子,但如果消息类型在其“父”对象之外不存在,我将使用嵌套类型。 例如,如果要序列化LinkedListNode 。 那么在这种情况下,节点将是嵌入式消息定义。 这取决于您和您的设计。

可选的消息属性在被忽略时采用默认值。 特别是使用特定于类型的默认值代替:对于字符串,默认值为空字符串;对于字符串,默认值为空字符串。 对于布尔值,默认值为false; 对于数字类型,默认值为零; 对于枚举,默认值为枚举类型定义中列出的第一个值(这很酷,但不太明显)。

枚举非常好。 它们跨平台的工作方式与Java中的enum几乎相同。 枚举字段的值可以只是一个值。 您可以在消息定义内部或外部声明枚举,就好像它是自己的独立实体一样。 如果在消息类型内指定,则可以通过[Message-name]。[enum-name]公开另一种消息类型。

协议

针对.proto文件运行协议缓冲区编译器时,编译器将生成用于所选语言的代码。 它将把您的消息类型转换成增强类,其中包括为属性提供getter和setter等。 编译器还生成便捷方法,以在输出流和字符串之间来回串行化消息。

对于枚举类型,所生成的代码将具有一个对应的Java或C ++枚举,或者一个特殊的Python EnumDescriptor类,该类用于在运行时生成的类中创建带有整数值的符号常量集。

对于Java,编译器将为每种消息类型生成具有流利的Design Builder类的.java文件,以简化对象的创建和初始化。 编译器生成的消息类是不可变的。 一旦建立,便无法更改。

您可以在参考资料部分中阅读有关其他平台(Python,C ++)的信息,并在此处详细介绍字段编码:

https://developers.google.com/protocol-buffers/docs/reference/overview。

对于我们的示例,我们将使用–java_out命令行标志调用protoc。 该标志向编译器指示生成的Java类的输出目录-每个原型文件一个Java类。

API

生成的API为以下便捷方法提供支持:

  • isInitialized()
  • toString()
  • mergeFrom(...)
  • 明确()

对于解析和序列化:

  • byte [] toByteArray()
  • parseFrom()
  • writeTo(OutputStream)在示例代码中用于编码
  • parseFrom(InputStream)在示例代码中用于解码

样例代码

让我们建立一个简单的项目。 我喜欢遵循Maven的默认原型:

protobuff-example / src / main / java / [应用程序代码] protobuff-example / src / main / java / gen [生成的原型类] protobuff-example / src / main / proto [原型文件定义]

为了生成协议缓冲区类,我将执行以下命令:

#  protoc --proto_path=/home/user/workspace/eclipse/trunk/protobuff/--java_out=/home/user/workspace/eclipse/trunk/protobuff/src/main/java /home/user/workspace/eclipse/trunk/protobuff/src/main/proto/User.proto

我将展示一些生成的代码,并简要介绍它们。 生成的类很大,但是很容易理解。 它将提供构建器来创建用户和地址的实例。

public final class ProtoUser {public interface UserOrBuilderextends com.google.protobuf.MessageOrBuilder...public interface AddressOrBuilderextends com.google.protobuf.MessageOrBuilder {....}

生成的类包含用于真正流畅地创建对象的Builder接口。 这些构建器接口在原型文件中指定的每个属性都有getter和setter,例如:

public String getCountry() {java.lang.Object ref = country_;if (ref instanceof String) {return (String) ref;} else {com.google.protobuf.ByteString bs =(com.google.protobuf.ByteString) ref;String s = bs.toStringUtf8();if (com.google.protobuf.Internal.isValidUtf8(bs)) {country_ = s;}return s;}}

由于这是一种自定义编码机制,因此逻辑上所有字段都具有自定义字节包装器。 我们的简单String字段在存储时使用ByteString进行压缩,然后将其反序列化为UTF-8字符串。

// required int32 id = 1;public static final int ID_FIELD_NUMBER = 1;private int id_;public boolean hasId() {return ((bitField0_ & 0x00000001) == 0x00000001);}

在这次电话会议中,我们看到了开头提到的标签号的重要性。 这些标签号似乎代表某种位位置,这些位位置定义了数据在字节串中的位置。 接下来,我们看一下前面提到的write和read方法的代码片段。

将实例写入输出流:

public void writeTo(com.google.protobuf.CodedOutputStream output)throws java.io.IOException {getSerializedSize();if (((bitField0_ & 0x00000001) == 0x00000001)) {output.writeInt32(1, id_);}if (((bitField0_ & 0x00000002) == 0x00000002)) {output.writeBytes(2, getCountryBytes());
....
}

从输入流中读取:

public static ProtoUser.User parseFrom(java.io.InputStream input)throws java.io.IOException {return newBuilder().mergeFrom(input).buildParsed();
}

此类约为2000行代码。 还有其他详细信息,例如如何映射Enum类型以及如何存储重复的类型。 希望我提供的代码片段可以使您对该类的结构有一个较高的了解。

让我们看一些使用生成的类的应用程序级代码。 要保留数据,我们可以简单地执行以下操作:

// Create instance of AddressAddress addr = ProtoUser.User.Address.newBuilder()  .setAddrType(Address.Type.HOME)        .setCity("Weston").setCountry("USA").setId(1).setState("FL").setStreet("123 Lakeshore").setZip("90210").build();// Serialize instance of UserUser user = ProtoUser.User.newBuilder() .setId(1).setFirstname("Luis").setLastname("Atencio").setName("luisat").setSsn("555-555-5555")          .addAddr(addr).build();// Write fileFileOutputStream output = new FileOutputStream("target/user.ser");  user.writeTo(output);          output.close();

一旦坚持下来,我们可以这样读:

User user = User.parseFrom(new FileInputStream("target/user.ser");System.out.println(user);

要运行示例代码,请使用:

java -cp。:../ lib / protobuf-java-2.4.1.jar app.Serialize ../target/user.ser

Protobuff与XML

Google声称协议缓冲区比XML快20到100倍(以纳秒为单位),而删除空白则小3到10倍。 但是,直到所有平台(不仅是前面提到的3种)都得到支持和采用,XML仍将继续是非常流行的序列化机制。 此外,并非每个人都具有Google用户对性能的要求和期望。 XML的替代方法是JSON。

Protobuff与JSON

我进行了一些比较测试,以评估通过JSON使用协议缓冲区的性能。 结果非常安静,一个简单的测试显示,就存储而言,原型增益效率提高了50%以上。 我创建了一个简单的POJO版本的User-Address类,并使用GSON库对与上述示例处于相同状态的实例进行编码(我将省略实现细节,请检查下面引用的gson项目)。 编码相同的用户数据,我得到:

-rw-rw-r-- 1 luisat luisat 206 May 30 09:47 json-user.ser 
-rw-rw-r-- 1 luisat luisat 85 May 30 09:42  user.ser

这很了不起。 我也在另一个博客中找到了这个(请参阅下面的资源):

绝对值得一读。

结论和进一步说明

协议缓冲区可能是跨平台数据编码的良好解决方案。 使用Java,Python,C ++和其他许多语言编写的客户端,存储/发送压缩数据非常简单。

一个棘手的观点是:“永远记住需要的信息。” 如果您发疯了,并且需要.proto文件的每个字段,那么删除或编辑这些字段将非常困难。

另外,在Google的数据存储中使用了原型,这也是一种激励措施:在Google的代码树中,跨12,183个.proto文件定义了48,162种不同的消息类型。

协议缓冲区促进了良好的面向对象设计,因为.proto文件基本上是愚蠢的数据持有者(如C ++中的结构)。 根据Google文档,如果您想向生成的类添加更丰富的行为,或者您无法控制.proto文件的设计,则最好的方法是将生成的协议缓冲区类包装在应用程序中,具体类别。

最后,请记住,永远不要通过从生成的类继承行为来向它们添加行为。 这将破坏内部机制,无论如何都不是一个好的面向对象的实践。

这里提供的许多信息都来自个人经验,其他资源,最重要的是来自Google开发人员代码。 请在参考资料部分中查阅文档。

资源资源

  1. https://developers.google.com/protocol-buffers/docs/overview
  2. https://developers.google.com/protocol-buffers/docs/proto
  3. https://developers.google.com/protocol-buffers/docs/reference/java-generated
  4. https://developers.google.com/protocol-buffers/docs/reference/overview
  5. http://code.google.com/p/google-gson/
  6. http://afrozahmad.hubpages.com/hub/protocolbuffers

参考:我们的JCG合作伙伴 Luis Atencio的Java协议缓冲区 ,在Reflective Thought博客上。


翻译自: https://www.javacodegeeks.com/2012/06/google-protocol-buffers-in-java.html

java中缓冲区和缓存

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/354338.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

三十七 Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中...

Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中,判断URL是否重复 布隆过滤器(Bloom Filter)详解 基本概念 如果想判断一个元素是不是在一个集合里,一般想到的是将所有元素保存起来,然后通过比较确定…

绩效管理的实际案例:2024年绩效提升重要方法

案例一:目标设定与衡量的艺术 背景:某科技公司每年都会为其全球员工设定年度目标。然而,这些目标往往过于模糊,导致员工不清楚自己需要完成什么。 问题:目标设定不清晰,导致员工感到困惑和不满。 解决方…

array python 交集_模糊数学Python库简介和评测

写在前面模糊数学是国内外许多工学、管理学研究生以上的选修甚至必修课程。但对于非数学专业而言,掌握模糊数学的各种计算方法、了解各种方法的用途(应用场景)其实要比理解模糊数学的“数学”理论要重要得多。目前在Matlab等数学工具中其实也…

使用Hibernate和Spring设置分布式Infinispan缓存

一个非常典型的设置–需要分布式缓存的spring / hibernate应用程序。 但是事实证明,设置并不是那么简单。 您显然需要缓存。 可以使用EhCache,Hazelcast,Infinispan,memcached,Redis,AWS的Elasticache以及…

Element UI 的使用

官方文档: https://element.eleme.io/#/zh-CN/component/installation 一、普通项目引入相关文件,使用elementui插件: (1)引入相关文件 (2)可以直接使用了 vue项目使用elementui 安装 &…

python基础十一之迭代器和生成器

可迭代 内置方法中含有__iter__的数据类型都是可迭代的,只要是可迭代的就可以使用for循环,反之亦然。 print(dir()) # dir()函数可以获取当前数据类型的所有内置方法 返回值是list print(__iter__ in dir([])) # 判断是否含有__iter__内置方法 迭代器…

架构设计器_大厂案例:马蜂窝大交通业务监控报警系统架构设计与实现

部门的业务线越来越多,任何一个线上运行的应用,都可能因为各种各样的原因出现问题:比如业务层面,订单量比上周减少了,流量突然下降了;技术层面的问题,系统出现 ERROR ,接口响应变慢了…

使用mpvue开发小程序

一、安装node.js 1、在官网中安装nodejs最新版本。地址:https://nodejs.org/en/download/,根据自己环境,进行下载安装。 2、安装完成后,进行nodejs版本及npm版本查看。 打开cmd命令行,输入 node -v 和 npm -v&#…

iOS----------UITextField实现过滤选中状态拼音

2018年上班的第二天,就这样背了一个大锅。我们项目中有一个搜索功能,在这一期的版本中,为了增强优化,去除了过滤空格的请求,这样或许能增加很好的用户体验,恰恰相反,偷鸡不成蚀把米。没想到苹果…

ai电磁组属于什么组_RPA+AI 创新案例挑战赛 2020 【专业组】amp;【校园组】优胜名单来也!...

大赛介绍本次大赛由 RPA 产业推进方阵为指导单位,来也科技为主办单位,面向所有来也科技合作伙伴及深圳地区大学生公开报名征集【专业组】&【校园组】参赛案例。RPA 产业推进方阵是在中国人工智能产业发展联盟指导下,由中国信息通信研究院…

GetSystemInfo()

关于“GetSystemInfo()”的详细信息,参考:https://msdn.microsoft.com/en-us/library/windows/desktop/ms724381(vvs.85).aspx Getting Hardware Information 例程:https://msdn.microsoft.com/en-us/library/windows/desktop/ms724423(vvs.8…

具有Spring Boot和Yeoman的单页Angularjs应用程序

我非常感谢yeoman之类的工具,它们提供了一种非常快速的方法来将不同的javascript库组合在一起成为一个一致的应用程序。 Yeoman提供了UI层,如果您需要开发服务层和静态资产的Web层,则打包的一种好方法是使用Spring Boot 。 我知道有像JHipste…

vue项目封装axios请求

目录: 一,src/utils/request.js import axios from axios import { getToken } from /utils/auth import store from /storeconst service axios.create({baseURL: process.env.VUE_APP_BASE_API,withCredentials: true,timeout: 5000,// headers:{ …

自定义函数_python3基础07函数(自定义)

"pythonic生物人"的第43篇分享。详细介绍python中:自定义函数的构建;参数传递;模块中调用函数。目录0、楔子1、自定义函数格式2、编写函数说明文档3、函数参数函数形参和实参区别位置实参关键字实参默认实参让实参可选传递任意数量…

v-for中用elementUI实现分页

html 分页的内容 <el-aside style"width:49%;" v-for"(item, key, index) in AirInfor.slice((currentPage-1) * pagesize, currentPage * pagesize)" :key"index"><p style"margin-bottom: 10px;"><span>区域&a…

curl -windows下接口通讯

1&#xff0c;下载curl -----url命令传输工具2&#xff0c;配置curl环境变量3&#xff0c;在cmd环境中使用举例&#xff1a;curl -G http://xxxxxxx.com&#xff1f;参数使用&#xff1a;curl -G "www.baidu.com" 最原始的批量通讯返回可以将通讯命令保存为bat格式文…

centos7建站php_centos7搭建php服务器

{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":6,"count":6}]},"card":[{"des":"云服务器 ECS(Elastic Compute Service)是一…

vue项目实现登录(sessionStorage 存储 token)

前提参考&#xff1a;vue项目封装axios 思路&#xff1a; // 1, 前端校验&#xff0c;校验成功后向后台传用户名和密码&#xff08;每次请求接口都要传 token&#xff09; // 2&#xff0c; 后端收到请求&#xff0c;验证用户名和密码&#xff0c;验证成功&#xff0c;生成 to…

sqlserver 存储过程 C#调用 实现从数据库Get数据

在最近的项目中我想建立一个EFDBfirst的模型但是失败了&#xff0c;生成的edmx中没有实体类和表结构&#xff0c;到处需求解决方案&#xff0c;未果。 问题请见&#xff1a;https://q.cnblogs.com/q/102743/ 后来使用本文写的这个方法 /// 1.在sqlserver中建立存储过程 在一个d…

TIBCO BusinessWorks 6和Container Edition与BW5的比较

[本文已于一段时间前发布在TIBCO博客上 。 我还在适当的地方添加了有关BusinessWorks Container Edition&#xff08;BW CE&#xff09;的一些信息。 下面定义的大多数特性对于BW6和BW CE均适用。 TIBCO ActiveMatrix BusinessWorks 6&#xff08;BW6&#xff09;是一个现代化…