jvm与非jvm语言优劣_都灵JVM编程语言:使用ANTLR构建高级词法分析器

jvm与非jvm语言优劣

正如我在上一篇文章中所写的那样,我最近开始研究一种名为Turin的新编程语言。 可以在GitHub上找到适用于languag初始版本的编译器。 我目前正在改善语言,并正在开发Maven和IntelliJ插件。 在这里和下一篇文章中,我将介绍编译器和相关工具的不同组件。

编译器的结构

编译器需要做几件事:

  1. 获取源代码并生成抽象语法树(AST)
  2. 通过不同阶段转换AST以简化处理。 我们基本上希望从非常接近语法的表示形式过渡到更易于处理的表示形式。 例如,我们可以对语言进行“去糖化”,将几种(显然)不同的结构表示为同一结构的变体。 一个例子? Java编译器将字符串连接转换为对StringBuffer.append的调用
  3. 执行语义检查。 例如,我们要检查所有表达式是否都使用可接受的类型(我们不想对字符求和,对吗?)
  4. 产生字节码

第一步需要构建两个组件:词法分析器和解析器。 词法分析器对文本进行操作并生成标记序列,而解析器将标记组合到创建AST的构造(类型声明,语句,表达式等)中。 为了编写词法分析器和解析器,我使用了ANTLR。

在本文的其余部分中,我们将研究词法分析器。 解析器和编译器的其他组件将在以后的文章中讨论。

为什么要使用ANTLR?

ANTLR是用于编写词法分析器和解析器的非常成熟的工具。 它可以生成多种语言的代码,并具有不错的性能。 它维护良好,我确信它具有处理可能遇到的所有极端情况所需的所有功能。 除此之外,ANTLR 4可以编写简单的语法,因为它可以为您解决左递归定义。 因此,您不必编写许多中间节点类型即可为表达式指定优先级规则。 我们将在分析器中对此进行更多介绍。

Xtext(我已经使用过很多)使用ANTLR,并且在为.NET平台 (一种用于.NET的EMF)建立模型驱动的开发框架时 ,我使用了ANTLR。 因此,我知道并信任ANTLR,因此没有理由寻找其他选择。

当前的词法分析器语法

这是词法分析器语法的当前版本。

lexer grammar TurinLexer;@header {}@lexer::members {public static final int WHITESPACE = 1;public static final int COMMENTS = 2;
}// It is suggested to define the token types reused in different mode.
// See mode in-interpolation below
tokens { VALUE_ID, TYPE_ID, INT, LPAREN, RPAREN, COMMA, RELOP, AND_KW, OR_KW, NOT_KW }// Of course keywords has to be defined before the rules for identifiers
NAMESPACE_KW        : 'namespace';
PROGRAM_KW          : 'program';
PROPERTY_KW         : 'property';
TYPE_KW             : 'type';
VAL_KW              : 'val';
HAS_KW              : 'has';
ABSTRACT_KW         : 'abstract';
SHARED_KW           : 'shared';
IMPORT_KW           : 'import';
AS_KW               : 'as';
VOID_KW             : 'Void';
RETURN_KW           : 'return';
FALSE_KW            : 'false';
TRUE_KW             : 'true';
IF_KW               : 'if';
ELIF_KW             : 'elif';
ELSE_KW             : 'else';// For definitions reused in mode in-interpolation we define and refer to fragments
AND_KW              : F_AND;
OR_KW               : F_OR;
NOT_KW              : F_NOT;LPAREN              : '(';
RPAREN              : ')';
LBRACKET            : '{';
RBRACKET            : '}';
LSQUARE             : '[';
RSQUARE             : ']';
COMMA               : ',';
POINT               : '.';
COLON               : ':';
// We use just one token type to reduce the number of states (and not crash Antlr...)
// https://github.com/antlr/antlr4/issues/840
EQUAL               : '==' -> type(RELOP);
DIFFERENT           : '!=' -> type(RELOP);
LESSEQ              : '<=' -> type(RELOP);
LESS                : '<'  -> type(RELOP);
MOREEQ              : '>=' -> type(RELOP);
MORE                : '>'  -> type(RELOP);
// ASSIGNMENT has to comes after EQUAL
ASSIGNMENT          : '=';
// Mathematical operators cannot be merged in one token type because
// they have different precedences
ASTERISK            : '*';
SLASH               : '/';
PLUS                : '+';
MINUS               : '-';PRIMITIVE_TYPE      : F_PRIMITIVE_TYPE;
BASIC_TYPE          : F_BASIC_TYPE;VALUE_ID            : F_VALUE_ID;
// Only for types
TYPE_ID             : F_TYPE_ID;
INT                 : F_INT;// Let's switch to another mode here
STRING_START        : '"' -> pushMode(IN_STRING);WS                  : (' ' | '\t')+ -> channel(WHITESPACE);
NL                  : '\r'? '\n';COMMENT             : '/*' .*? '*/' -> channel(COMMENTS);LINE_COMMENT        : '//' ~[\r\n]* -> channel(COMMENTS);mode IN_STRING;STRING_STOP         : '"' -> popMode;
STRING_CONTENT      : (~["\\#]|ESCAPE_SEQUENCE|SHARP)+;
INTERPOLATION_START : '#{' -> pushMode(IN_INTERPOLATION);mode IN_INTERPOLATION;INTERPOLATION_END   : '}' -> popMode;
I_PRIMITIVE_TYPE    : F_PRIMITIVE_TYPE -> type(PRIMITIVE_TYPE);
I_BASIC_TYPE        : F_BASIC_TYPE -> type(BASIC_TYPE);
I_FALSE_KW          : 'false' -> type(FALSE_KW);
I_TRUE_KW           : 'true' -> type(TRUE_KW);
I_AND_KW            : F_AND -> type(AND_KW);
I_OR_KW             : F_OR -> type(OR_KW);
I_NOT_KW            : F_NOT -> type(NOT_KW);
I_IF_KW             : 'if' -> type(IF_KW);
I_ELSE_KW           : 'else' -> type(ELSE_KW);
I_VALUE_ID          : F_VALUE_ID   -> type(VALUE_ID);
I_TYPE_ID           : F_TYPE_ID -> type(TYPE_ID);
I_INT               : F_INT -> type(INT);
I_COMMA             : ',' -> type(COMMA);
I_LPAREN            : '(' -> type(LPAREN);
I_RPAREN            : ')' -> type(RPAREN);
I_LSQUARE           : '[' -> type(LSQUARE);
I_RSQUARE           : ']' -> type(RSQUARE);I_ASTERISK          : '*' -> type(ASTERISK);
I_SLASH             : '/' -> type(SLASH);
I_PLUS              : '+' -> type(PLUS);
I_MINUS             : '-' -> type(MINUS);I_POINT             : '.' -> type(POINT);
I_EQUAL             : '==' -> type(RELOP);
I_DIFFERENT         : '!=' -> type(RELOP);
I_LESSEQ            : '<=' -> type(RELOP);
I_LESS              : '<'  -> type(RELOP);
I_MOREEQ            : '>=' -> type(RELOP);
I_MORE              : '>'  -> type(RELOP);
I_STRING_START      : '"' -> type(STRING_START), pushMode(IN_STRING);
I_WS                : (' ' | '\t')+ -> type(WS), channel(WHITESPACE);fragment F_AND            : 'and';
fragment F_OR             : 'or';
fragment F_NOT            : 'not';
fragment F_VALUE_ID       : ('_')*'a'..'z' ('A'..'Z' | 'a'..'z' | '0'..'9' | '_')*;
// Only for types
fragment F_TYPE_ID        : ('_')*'A'..'Z' ('A'..'Z' | 'a'..'z' | '0'..'9' | '_')*;
fragment F_INT            : '0'|(('1'..'9')('0'..'9')*);
fragment F_PRIMITIVE_TYPE : 'Byte'|'Int'|'Long'|'Boolean'|'Char'|'Float'|'Double'|'Short';
fragment F_BASIC_TYPE     : 'UInt';fragment ESCAPE_SEQUENCE  : '\\r'|'\\n'|'\\t'|'\\"'|'\\\\';
fragment SHARP            : '#'{ _input.LA(1)!='{' }?;

我已经做了一些选择:

  • 有两种不同类型的ID: VALUE_IDTYPE_ID。 由于可以容易地区分值和类型,因此语法上的歧义性较小。 在Java中,当遇到(foo)时,我们不知道它是表达式(对括号之间foo表示的值的引用)还是强制转换为foo类型 我们需要看下面的内容才能理解它。 我认为这很愚蠢,因为实际上每个人都只对类型使用大写的标识符,但是由于这不是由语言强制执行的,因此编译器无法利用它
  • 换行符与都灵相关,因此我们有针对它们的令牌,我们基本上希望语句以换行符终止,但我们在逗号后接受可选的换行符
  • 空格(但换行符)和注释是在它们自己的通道中捕获的,因此我们可以在解析器语法中忽略它们,但可以在需要时检索它们。 例如,我们需要它们来突出显示语法,并且通常需要IntelliJ插件,因为它需要为源文件中的每个单个字符定义标记,而没有间隙
  • 最棘手的部分是在Ruby中解析字符串插值,例如“我的名字是#{user.name}”。 我们使用模式:遇到字符串开始(“)时,我们切换到词法分析器模式IN_STRING。 在IN_STRING模式下,如果遇到插值(#{)的开始,我们将移至词法分析器模式IN_INTERPOLATION。 在IN_INTERPOLATION模式下,我们需要接受表达式中使用的大多数标记(这在词法分析器语法中意味着很多重复)。
  • 我不得不将关系运算符折叠为一个单一的令牌类型,以使生成的词法分析器的状态数不会太大。 这意味着我将不得不查看RELOP令牌的文本,以确定需要执行哪个操作。 没什么可怕的,但是您必须知道如何解决此类问题。

测试词法分析器

我写了许多针对词法分析器的测试。 特别是,我测试了最复杂的部分:有关字符串插值的部分。

一些测试的示例:

@Testpublic void parseStringWithEmptyInterpolation() throws IOException {String code = "\"Hel#{}lo!\"";verify(code, TurinLexer.STRING_START, TurinLexer.STRING_CONTENT, TurinLexer.INTERPOLATION_START, TurinLexer.INTERPOLATION_END, TurinLexer.STRING_CONTENT, TurinLexer.STRING_STOP);}@Testpublic void parseStringWithInterpolationContainingID() throws IOException {String code = "\"Hel#{foo}lo!\"";verify(code, TurinLexer.STRING_START, TurinLexer.STRING_CONTENT, TurinLexer.INTERPOLATION_START,TurinLexer.VALUE_ID,TurinLexer.INTERPOLATION_END, TurinLexer.STRING_CONTENT, TurinLexer.STRING_STOP);}@Testpublic void parseStringWithSharpSymbol() throws IOException {String code = "\"Hel#lo!\"";verify(code, TurinLexer.STRING_START, TurinLexer.STRING_CONTENT, TurinLexer.STRING_STOP);}@Testpublic void parseMethodDefinitionWithExpressionBody() throws IOException {String code = "Void toString() = \"foo\"";verify(code, TurinLexer.VOID_KW, TurinLexer.VALUE_ID, TurinLexer.LPAREN, TurinLexer.RPAREN, TurinLexer.ASSIGNMENT, TurinLexer.STRING_START, TurinLexer.STRING_CONTENT, TurinLexer.STRING_STOP);}

如您所见,我只是在字符串上测试令牌并验证它是否生成了正确的令牌列表。 简单直接。

结论

我在ANTLR上使用该语言的经验并不完美:存在问题和局限性。 必须在单个令牌类型中折叠多个运算符并不好。 必须为不同的词法分析器模式重复几个标记定义是不好的。 但是,ANTLR被证明是在实践中可用的工具:它可以完成它需要做的所有事情,并且对于每个问题都有一个可接受的解决方案。 解决方案可能不是理想的,可能不是理想的解决方案,但是有一个。 因此,我可以使用它并继续进行编译器中更有趣的部分。

翻译自: https://www.javacodegeeks.com/2015/09/turin-programming-language-for-the-jvm-building-advanced-lexers-with-antlr.html

jvm与非jvm语言优劣

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/337286.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一例看懂C语言程序中的内聚和耦合

点击蓝字关注我们来源自网络&#xff0c;侵删一、原理篇&#xff08;清楚相关原理的读者&#xff0c;请直接看第二部分示例篇&#xff09;在软件工程中&#xff0c;模块的内聚和耦合是度量模块化质量的标准之一。内聚是指模块的功能强度的度量&#xff0c;即一个模块内部各个元…

openfire消息通知推送_APP消息推送功能之前端后台设计

APP消息推送功能之前端后台设计最近有不少小伙伴问APP消息推送功能&#xff0c;前端、后台如何设计的&#xff1f;消息系统的架构是什么样的&#xff1f;最近刚好做到后台消息推送这块&#xff0c;简单谈谈个人心得&#xff0c;欢迎拍砖。消息推送是让自己的用户获取信息最有效…

apache spark_Apache Spark:更改架构之前必须解决的5个陷阱

apache spark迁移到Apache Spark之前需要了解的5件事 似乎每个人都只是在谈论最热门的新技术&#xff0c;而忽略采用它的实际含义。 但这是自然的&#xff0c;对吧&#xff1f; 新功能和承诺胜过其他所有事物&#xff0c;而艰难的挑战和决​​定被抛在一边。 这次不行。 软件…

分步解析C++实现通讯录管理系统

点击蓝字关注我们来源于网络&#xff0c;侵删一、前言建议亲手写一遍代码&#xff0c;感受指针神奇的魅力&#xff1b;可以帮助你更好的巩固知识体系&#xff0c;熟悉指针&#xff0c;结构体与函数一起使用时的妙处完成通讯录管理系统所需知识体系结构体指针函数的封装指针与函…

python代码可以内嵌在asp文件中_在IE中使用Python作为开发脚本(转)

正在学习python&#xff0c;除了语法优美&#xff0c;功能强大外&#xff0c;最看重的是它的可扩展性&#xff0c;可以嵌入到asp和其他一些开发语言中。对IIS配置了.py的扩展名解析&#xff0c;可以对.py的页面进行访问&#xff0c;但asp页面的python脚本仍然无法解析&#xff…

服务器禁止head 请求_编写下载服务器。 第四部分:有效地执行HEAD操作

服务器禁止head 请求HEAD是一个经常被遗忘的HTTP方法&#xff08;动词&#xff09;&#xff0c;其行为类似于GET&#xff0c;但不返回正文。 您使用HEAD来检查资源的存在&#xff08;如果不存在&#xff0c;它应该返回404&#xff09;&#xff0c;并确保您的缓存中没有陈旧的版…

如何用C++实现动态放烟花(附源码)

点击蓝字关注我们来源于网络&#xff0c;侵删一、前言C实现的放烟花程序用到了EGE图形库&#xff0c;没有的需要自行安装可调项&#xff1a;背景图和背景音乐、粒子模糊度、亮度以及上升速度的参数。实现的动态烟花非常好看&#xff0c;可以做给女朋友或者表白用&#xff0c;呵…

java8 streams_Java SE 8新功能介绍:使用Streams API处理集合

java8 streams使用Java SE 8 Streams的代码更干净&#xff0c;易读且功能强大..... 在“ Java SE 8新功能导览”系列的这篇文章中&#xff0c;我们将深入解释并探索代码&#xff0c;以了解如何使用流遍历集合&#xff0c;从集合和数组创建流&#xff0c;聚合流值。 在上一篇文…

nginx哪个版本性能好_nginx性能为什么好

nginx在启动后&#xff0c;在unix系统中会以daemon的方式在后台运行&#xff0c;后台进程包含一个master进程和多个worker进程。我们也可以手动地关掉后台模式&#xff0c;让nginx在前台运行&#xff0c;并且通过配置让nginx取消master进程&#xff0c;从而可以使nginx以单进程…

metrics_FlexyPool如何支持Dropwizard Metrics包重命名

metrics介绍 FlexyPool严重依赖Dropwizard &#xff08;以前称为Codahale&#xff09;度量标准来监视连接池的使用情况 。 集成到Dropwizard中后&#xff0c;程序包名称必然会被重命名 。 因此&#xff0c;4.0.0版本将使用io.dropwizard.metrics软件包名称代替com.codahale.me…

python的智能算法_scikit-opt——Python中的群体智能优化算法库

安装pip install scikit-opt对于当前的开发者版本&#xff1a;git clone gitgithub.com:guofei9987/scikit-opt.gitcd scikit-optpipinstall .Genetic Algorithm第一步&#xff1a;定义你的问题importnumpy as npdefschaffer(p):This function has plenty of local minimum, wi…

用C++写一个http服务器/web服务器

点击蓝字关注我们来源于网络&#xff0c;侵删本篇文章不会涉及到很多复杂的概念&#xff0c;也没有写很难读懂的模板函数&#xff0c;代码简单可读&#xff0c;本篇文章送给每一个想自己用C写一个http服务器的小伙伴&#xff01;高手们、大佬们当然可以不用看的啦&#xff01;正…

repl java9_Java 9抢先体验:与JShell进行动手实践– Java REPL

repl java9从今天开始&#xff0c;如何开始使用Java 9的最酷功能之一&#xff1f; 上周末&#xff0c;我终于开始尝试使用Java 9的早期访问版本。第一站是JShell&#xff0c;它也被称为Project Kulla。 首先让我鼓起勇气尝试早期访问Java版本的原因。 那就对了。 Java 9的正式…

java iterator获取索引_2020年Java面试题最新整理(1625)

16.Java集合框架是什么&#xff1f;说出一些集合框架的优点&#xff1f;每种编程语言中都有集合&#xff0c;最初的Java版本包含几种集合类&#xff1a;Vector、Stack、HashTable和Array。随着集合的广泛使用&#xff0c;Java1.2提出了囊括所有集合接口、实现和算法的集合框架。…

搞定红黑树(C++实现)

点击蓝字关注我们来源于网络&#xff0c;侵删红黑树的概念红黑树&#xff0c;是一种二叉搜索树&#xff0c;但在每个结点上增加一个存储位表示结点的颜色&#xff0c;可以是红色或黑色。通过对任何一条从根到叶子的路径上各个结点着色方式的限制&#xff0c;红黑树确保没有一条…

java方法重载和重载方法_Java 8的方法参考进一步限制了重载

java方法重载和重载方法方法重载一直是一个充满喜忧参半的话题。 我们已经在博客上介绍了它&#xff0c;并介绍了几次警告&#xff1a; 您会后悔对Lambdas应用重载&#xff01; 保持干燥&#xff1a;方法重载 为什么每个人都讨厌操作员超载 API设计师&#xff0c;请小心 重…

在python中字符串可以使用什么来表示_Python 字符串定义

例如&#xff1a;’string’、”string”、”””string”””或者是”’string”’。在使用上&#xff0c;单引号和双引号没有什么区别。三引号的主要功能是在字符串中可以包含换行。也就是说&#xff0c;在三引号中的字符串&#xff0c;如果其中的内容在程序中是分行的&#…

java launcher_JAR清单类路径不仅适用于Java Application Launcher

java launcher自从我开始学习Java以来​​&#xff0c;我几乎已经知道&#xff0c; 清单文件中的Class-Path标头字段为可执行JAR &#xff08;具有由另一个称为Main-Class清单指定应用程序起点的 JAR&#xff09;指定了相对运行时类路径。 一个同事最近碰到一个让我感到惊讶&am…

C语言实现银行ATM存取款系统 | 附源码

点击蓝字关注我们来源于网络&#xff0c;侵删银行ATM存取款系统银行ATM存取款系统业务描述如下&#xff1a;银行ATM存取款系统能为用户提供存款、取款、查询、转账和修改密码的功能。为了模拟真实的ATM业务环境&#xff0c;本系统必须实现存款、取款、查询、转账、修改密码以及…

php 链接文件名_7、php-fpm进程管理

1、进程管理php-fpm采用的是master-worker的进程方式。其中&#xff0c;master负责fork worker进程;其次&#xff0c;注册信号&#xff0c;通过信号进行管理worker负责监听端口&#xff0c;等待链接&#xff0c;处理具体的逻辑如下图所示2、信号管理master进程可以理解如下信号…