在这篇文章中,我们将看到如何开发一种简单的语言。 我们的目标是:
- 语言的解析器
- IntelliJ的编辑器 。 编辑器应具有语法突出显示,验证和自动完成功能
我们还将免费提供Eclipse和Web编辑器的编辑器 ,但请包含您的兴奋之处,本文中不再赘述。
去年,我专注于学习新知识(主要是Web和ops知识),但是我仍然最喜欢的一件事就是开发DSL(领域特定语言)。 我使用的第一个相关技术是Xtext :Xtext是一个出色的工具,可让您定义语言的语法并生成该语言的出色编辑器。 到目前为止,仅针对Eclipse平台进行了开发:这意味着可以使用Eclipse开发新语言,然后可以在Eclipse中安装生成的编辑器。
最近,我使用的Eclipse大大减少了,所以直到现在,我对Xtext的兴趣逐渐消失,直到最后,新版本的Xtext(仍处于beta版)瞄准了IntelliJ。 因此,尽管我们将使用Eclipse开发语言,然后我们将生成插件以在IntelliJ中使用我们的语言。
我们将要看到的技术可以用于开发任何种类的语言,但是我们将把它们应用于特定的情况:AST转换。 这篇文章是为Xtext新手准备的,我现在不做很多详细介绍,我只是分享对IntelliJ目标的第一印象。 考虑到该功能目前是测试版,因此我们可能会遇到一些困难。
我们正在尝试解决的问题:调整ANTLR解析器以获得出色的AST
我喜欢玩解析器,而ANTLR是出色的解析器生成器。 对于像Java这样的功能强大的语言,有很多漂亮的语法。 现在,问题在于Java之类的语言语法非常复杂,并且生成的解析器会生成不易使用的AST。 主要问题是由于如何处理优先规则。 考虑一下Terence Parr和Sam Harwell编写的Java 8语法 。 让我们看看如何定义一些表达式:
conditionalExpression: conditionalOrExpression| conditionalOrExpression '?' expression ':' conditionalExpression;conditionalOrExpression: conditionalAndExpression| conditionalOrExpression '||' conditionalAndExpression;conditionalAndExpression: inclusiveOrExpression| conditionalAndExpression '&&' inclusiveOrExpression;inclusiveOrExpression: exclusiveOrExpression| inclusiveOrExpression '|' exclusiveOrExpression;exclusiveOrExpression: andExpression| exclusiveOrExpression '^' andExpression;andExpression: equalityExpression| andExpression '&' equalityExpression;equalityExpression: relationalExpression| equalityExpression '==' relationalExpression| equalityExpression '!=' relationalExpression;relationalExpression: shiftExpression| relationalExpression '<' shiftExpression| relationalExpression '>' shiftExpression| relationalExpression '<=' shiftExpression| relationalExpression '>=' shiftExpression| relationalExpression 'instanceof' referenceType;shiftExpression: additiveExpression| shiftExpression '<' '<' additiveExpression| shiftExpression '>' '>' additiveExpression| shiftExpression '>' '>' '>' additiveExpression;additiveExpression: multiplicativeExpression| additiveExpression '+' multiplicativeExpression| additiveExpression '-' multiplicativeExpression;multiplicativeExpression: unaryExpression| multiplicativeExpression '*' unaryExpression| multiplicativeExpression '/' unaryExpression| multiplicativeExpression '%' unaryExpression;unaryExpression: preIncrementExpression| preDecrementExpression| '+' unaryExpression| '-' unaryExpression| unaryExpressionNotPlusMinus;
这只是用于定义表达式的大部分代码的一部分。 现在考虑您有一个简单的preIncrementExpression (类似: ++ a )。 在AST中,我们将拥有类型为preIncrementExpression的节点,该节点将包含在unaryExpression中。
一元表达式将包含在一个乘法 表达式中,该表达式将包含在一个additiveExpression中 ,依此类推。 该组织对于处理不同类型的运算之间的运算符优先级很有必要,因此将1 + 2 * 3解析为1和 2 * 3的和,而不是1 + 2和3的乘法。 问题是,从逻辑的角度来看,乘法和加法是同一级别的表达式:拥有Matryoshka AST节点没有意义。 考虑以下代码:
class A { int a = 1 + 2 * 3; }
虽然我们想要这样的东西:
[CompilationUnitContext][TypeDeclarationContext][ClassDeclarationContext][NormalClassDeclarationContext]classA[ClassBodyContext]{[ClassBodyDeclarationContext][ClassMemberDeclarationContext][FieldDeclarationContext][UnannTypeContext][UnannPrimitiveTypeContext][NumericTypeContext][IntegralTypeContext]int[VariableDeclaratorListContext][VariableDeclaratorContext][VariableDeclaratorIdContext]a=[VariableInitializerContext][ExpressionContext][AssignmentExpressionContext][ConditionalExpressionContext][ConditionalOrExpressionContext][ConditionalAndExpressionContext][InclusiveOrExpressionContext][ExclusiveOrExpressionContext][AndExpressionContext][EqualityExpressionContext][RelationalExpressionContext][ShiftExpressionContext][AdditiveExpressionContext][AdditiveExpressionContext][MultiplicativeExpressionContext][UnaryExpressionContext][UnaryExpressionNotPlusMinusContext][PostfixExpressionContext][PrimaryContext][PrimaryNoNewArray_lfno_primaryContext][LiteralContext]1+[MultiplicativeExpressionContext][MultiplicativeExpressionContext][UnaryExpressionContext][UnaryExpressionNotPlusMinusContext][PostfixExpressionContext][PrimaryContext][PrimaryNoNewArray_lfno_primaryContext][LiteralContext]2*[UnaryExpressionContext][UnaryExpressionNotPlusMinusContext][PostfixExpressionContext][PrimaryContext][PrimaryNoNewArray_lfno_primaryContext][LiteralContext]3;}<EOF>
虽然我们想要这样的东西:
[CompilationUnit][FieldDeclaration][PrimitiveTypeRef][Sum][Multiplication][IntegerLiteral][IntegerLiteral][IntegerLiteral]
理想情况下,我们要指定产生Matryoshka风格的AST的语法,但在对代码进行分析时使用更平坦的AST,因此我们将根据Antlr和“逻辑” AST生成的AST构建适配器。 我们打算如何做? 我们将首先开发一种定义节点形状的语言,以使它们出现在逻辑AST中,并且还将定义如何将Antlr节点( Matryoshka风格的节点)映射到这些逻辑节点中。 这只是我们要解决的问题:Xtext可用于开发任何一种语言,这只是作为一种解析器狂,我喜欢使用DSL解决解析器相关的问题。 这是很元的 。
入门:安装Eclipse Luna DSL并创建项目
我们将下载一个包含Xtext 2.9 Beta的 Eclipse版本。 在全新的Eclipse中,您可以创建一种新型的项目: Xtext Projects 。
我们只需要定义项目的名称,然后选择与我们的新语言相关联的扩展名即可
然后,我们选择感兴趣的平台(是的,还有Web平台……我们将在以后进行研究)
创建的项目包含一个示例语法。 我们可以按原样使用它,我们只需要生成几个运行MWE2文件的文件即可。
运行此命令后,我们可以仅在IntelliJ或Eclipse中使用我们的新插件。 但是,我们将改为首先更改语法,以在光荣的DSL中转换给定的示例。
我们的DSL示例
我们的语言在IntelliJ IDEA中看起来像这样(很酷,是吗?)。
当然这只是一个开始,但我们开始为Java解析器定义一些基本节点类型:
- 表示可能的修饰语的枚举(警告:这不是完整列表)
- CompilationUnit,其中包含可选的PackageDeclaration和可能的许多TypeDeclaration
- TypeDeclaration是一个抽象节点,有三种扩展它的具体类型: EnumDeclaration,ClassDeclaration和InterfaceDeclaration (我们缺少注释声明)
我们将需要添加数十个表达式和语句,但是您应该对我们尝试构建的语言有所了解。 还要注意,我们已经引用了Antlr语法(在第一行中),但是尚未指定定义的节点类型如何映射到Antlr节点类型。 现在的问题是:我们如何构建它?
定义语法
我们可以使用简单的EBNF表示法(带有一些扩展名)来定义语言的语法。 在您的项目中查找带有xtext扩展名的文件, 并按如下所示进行更改:
grammar me.tomassetti.AstTransformationsDsl with org.eclipse.xtext.common.Terminalsgenerate astTransformationsDsl "http://www.tomassetti.me/AstTransformationsDsl"Model:antlr=AntlrGrammarRef declarations+=Declaration*;AntlrGrammarRef:'adapt' grammarFile=STRING;Declaration: NodeType | NamedEnumDeclaration;NamedEnumDeclaration: 'enum' name=ID '{' values+=EnumNodeTypeFieldValue+ '}';
UnnamedEnumDeclaration: 'enum' '{' values+=EnumNodeTypeFieldValue+ '}';NodeType:'abstract'? 'type' name=ID ('extends' superType=[NodeType])? ('from' antlrNode=ID)? '{' fields+=NodeTypeField*'}'; NodeTypeField:name=ID (many='*='|optional='?='|single='=') value=NodeTypeFieldValue; NodeTypeFieldValue:UnnamedEnumDeclaration | RelationNodeTypeField | AttributeNodeTypeField;EnumNodeTypeFieldValue: name=ID;RelationNodeTypeField: type=[NodeType];AttributeNodeTypeField:{AttributeNodeTypeField}('string'|'int'|'boolean');
我们定义的第一个规则对应于AST的根(在本例中为Model )。 我们的模型从对Antlr文件和声明列表的引用开始。 想法是指定我们的“逻辑”节点类型的声明以及应如何将“ antlr”节点类型映射到它们。 因此,我们将定义转换,该转换将引用在AntlrGrammarRef规则中指定的antlr语法中定义的元素的引用。
我们可以定义Enum或NodeType。 NodeType有一个名称,可以是抽象的,并且可以扩展另一个NodeType。 请注意, 超类型是对NodeType的引用。 这意味着生成的编辑器将自动能够为我们提供自动完成功能(列出文件中定义的所有NodeTypes )并进行验证,从而验证我们是否引用了现有的NodeType 。
在我们的NodeTypes中,我们可以定义任意多个字段( NodeTypeField )。 每个字段均以名称开头,后跟一个运算符:
- * =表示我们可以在此字段中使用0..n值
- ?=表示该字段是可选的(0..1)值
- =表示始终始终存在一个值
NodeTypeField还具有一个值类型,该值类型可以是内联定义的枚举( UnnamedEnumDeclaration ),关系(表示此节点包含其他节点)或属性(表示此节点具有一些基本属性,如字符串或布尔值)。
很简单,是吗?
因此,我们基本上重新运行了MWE2文件,我们准备好了。
查看实际使用的插件
要查看我们在IntelliJ IDEA中安装的插件,我们只需要从包含想法插件的目录(在本例中为me.tomassetti.asttransf.idea )运行gradle runIdea 。 请注意,您需要使用gradle的最新版本,并且需要定义JAVA_HOME 。 此命令将下载IntelliJ IDEA,安装我们开发的插件并启动它。 在打开的IDE中,您可以创建一个新项目并定义一个新文件。 只需使用我们在创建项目时指定的扩展名(本例中为.anttr ) IDEA应该使用我们新定义的编辑器。
目前验证工作正常,但编辑器的反应似乎很慢。 自动完成功能反而对我不利。 考虑到这只是一个beta,因此我希望这些问题在Xtext 2.9发布之前会消失。
下一步
我们才刚刚起步,但是令人惊奇的是,如何在几分钟内就可以使用其IDEA编辑器创建DSL。
我计划朝几个不同的方向工作:
- 我们需要了解如何打包和分发插件:我们可以使用gradle runIdea尝试使用它,但我们只想生成一个二进制文件供人们安装,而无需处理编辑器的源代码
- 使用来自Maven的任意依赖项:这将变得相当复杂,因为Maven和Eclipse插件(OSGi捆绑包)以自己的方式定义了它们的依赖关系,因此通常必须将jar打包成捆绑包才能在Eclipse插件中使用。 但是,还有其他选择,例如Tycho和p2-maven-plugin 。 剧透 :我不希望这太快又容易……
- 我们还不能引用Antlr语法中定义的元素。 现在,这意味着我们应该能够解析Antlr语法并以编程方式创建EMF模型,以便我们可以在DSL中引用它。 它需要了解EMF(并且需要一些时间……)。 我将在将来使用它,这可能需要使用loooong教程。
结论
尽管我不再喜欢Eclipse(现在我已经习惯了IDEA,但对我来说似乎更好了:更快,更轻便),但是Eclipse Modeling Framework一直是一个非常有趣的软件,并且能够与IDEA一起使用非常棒。
一段时间以来,我没有使用EMF和Xtext,不得不说我看到了一些改进。 我觉得Eclipse不太命令行友好,并且通常很难将其与CI系统集成。 我看到正在为解决这些问题而努力(请参阅Tycho或我们用来使用开发的编辑器启动IDEA的gradle作业),这对我来说似乎非常积极。
我的理念是混合技术,以务实的方式结合不同世界的最佳方面,因此,我希望有时间玩这些东西。
翻译自: https://www.javacodegeeks.com/2015/08/develop-dsls-for-eclipse-and-intellij-using-xtext.html