python antlr_使用ANTLR在5分钟内用Java解析任何语言:例如Python

python antlr

我喜欢出于多种目的处理代码,例如静态分析或自动重构。 对我来说,有趣的部分是推理从抽象语法树(AST)构建的模型。 为此,您需要一种从源文件中获取AST的方法。 可以使用ANTLR轻松完成此操作,并在此处提供完整语法的集合: https : //github.com/antlr/grammars-v4

谢谢大家的语法!

谢谢大家的语法!

我们将只为Python 3编写一个脚本,对于Python 2来说也应该可以正常工作。如果我们需要做一些小的调整,我们可以从这个基础上轻松地做到这一点。

获得语法

首先,我们要学习语法。

只需访问https://github.com/antlr/grammars-v4并获取所需的语法即可。 大多数语法都有非常宽松的许可。

R,Scala,Python,Swift,PHP等许多语言都有数十种语法。 Java也有一个,但是对于Java,您更喜欢使用JavaParser,对吗?

只需将语法复制到src / main / antlr下的新项目中

使用Gradle设置项目

现在,我们将使用Gradle设置构建脚本。

我们将使用ANTLR4插件从melix ,因为我觉得它更灵活的中描述的的官方文件 。

我们将在特定的程序包( me.tomassetti.pythonast.parser )中生成代码,因此将在从该程序包派生的目录(build / generate-src / me / tomassetti / pythonast / parser)中生成代码。

buildscript {repositories {maven {name 'JFrog OSS snapshot repo'url  'https://oss.jfrog.org/oss-snapshot-local/'}jcenter()}dependencies {classpath 'me.champeau.gradle:antlr4-gradle-plugin:0.1.1-SNAPSHOT'}
}repositories {mavenCentral()jcenter()
}apply plugin: 'java'
apply plugin: 'me.champeau.gradle.antlr4'antlr4 {source = file('src/main/antlr')output = file('build/generated-src/me/tomassetti/pythonast/parser')extraArgs = ['-package', 'me.tomassetti.pythonast.parser']
}compileJava.dependsOn antlr4sourceSets.main.java.srcDirs += antlr4.outputconfigurations {compile.extendsFrom antlr4
}task fatJar(type: Jar) {manifest {attributes 'Implementation-Title': 'Python-Parser','Implementation-Version': '0.0.1'}baseName = project.name + '-all'from { configurations.compile.collect { it.isDirectory() ? it : zipTree(it) } }with jar
}

我还添加了fatJar任务。 该任务将产生一个包含所有依赖项的JAR。 我使用它可以更轻松地将解析器导入Jetbrains MPS。

要从语法生成解析器,您只需运行gradle antlr4。

然后,您必须向您的IDE解释它应该考虑build / Generated-src下的代码

如何调用解析器

现在让我们看看如何调用解析器。

public class ParserFacade {private static String readFile(File file, Charset encoding) throws IOException {byte[] encoded = Files.readAllBytes(file.toPath());return new String(encoded, encoding);}public Python3Parser.File_inputContext parse(File file) throws IOException {String code = readFile(file, Charset.forName("UTF-8"));Python3Lexer lexer = new Python3Lexer(new ANTLRInputStream(code));CommonTokenStream tokens = new CommonTokenStream(lexer);Python3Parser parser = new Python3Parser(tokens);return parser.file_input();}
}

我们的ParserFacade只有一个名为parse的公共方法。 它获取一个文件并返回AST。 没有比这更简单的了。

让我们看一些AST

让我们看一个简单的文件:

def sum(a, b):return a + bprint("The sum of %i and %i is %i" % (5, 3, sum(5, 3)))

现在获取AST。 我们可以使用以下代码进行打印:

public class AstPrinter {public void print(RuleContext ctx) {explore(ctx, 0);}private void explore(RuleContext ctx, int indentation) {String ruleName = Python3Parser.ruleNames[ctx.getRuleIndex()];for (int i=0;i<indentation;i++) {System.out.print("  ");}System.out.println(ruleName);for (int i=0;i<ctx.getChildCount();i++) {ParseTree element = ctx.getChild(i);if (element instanceof RuleContext) {explore((RuleContext)element, indentation + 1);}}}}

如果我们解析简单的示例并使用AstPrinter进行打印,我们将获得一个超级复杂的AST。 第一行看起来像:

file_inputstmtcompound_stmtfuncdefparameterstypedargslisttfpdeftfpdefsuitestmtsimple_stmtsmall_stmtflow_stmtreturn_stmttestlist...

对于解析器的构建方式,有很多无效的规则。 在解析时这很有意义,但是会产生非常污染的AST。 我认为有两种不同的ASTS:一种易于生成的解析AST ,另一种易于推理的逻辑AST 。 幸运的是,我们可以毫不费力地将第一个转换为后者。

一种简单的方法是列出仅包装程序的所有规则,然后跳过它们,取而代之的是唯一的子规则。 我们可能必须对此进行优化,但是作为第一步的近似,我们只是跳过只有一个子节点的节点,这是另一个解析器规则(无终端)。

这样,我们从164个节点增加到28个节点。结果逻辑AST为:

file_inputfuncdefparameterstypedargslisttfpdeftfpdefsuitesimple_stmtreturn_stmtarith_expratomatomsimple_stmtpoweratomtrailertermstringatomtestlist_compintegerintegerpoweratomtrailerarglistintegerinteger

在这棵树中,我们应该将所有内容映射到我们理解的概念,而无需人工节点,只是出于解析原因而创建的节点。

结论

编写解析器并不是我们可以产生最大价值的地方。 我们可以轻松地重用现有语法,生成解析器并使用这些解析器构建我们的智能应用程序。

那里有几个解析器生成器,其中大多数足以满足您可以实现的大多数目标。 在它们当中,我倾向于比其他人更多地使用ANTLR:它很成熟,得到支持,速度很快。 它产生的AST可以使用异构API(我们为每种类型的节点生成单个类)和同类API(我们可以询问每个节点代表哪个规则及其子列表)进行导航。

ANTLR的另一个巨大好处是存在随时可以使用的语法。 构建语法需要经验和一些工作。 特别是对于Java或Python这样的复杂GPL。 它还需要非常广泛的测试。 即使我们已经使用JavaParser解析了成千上万个文件,我们仍然发现JavaParser背后的Java 8语法存在一些小问题。 如果可以避免的话,这是现在编写自己的语法的一个很好的理由。

  • 顺便说一下,所有代码都可以在github上找到: python-ast

翻译自: https://www.javacodegeeks.com/2016/02/parsing-language-java-5-minutes-using-antlr-example-python.html

python antlr

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/336125.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【WebRTC---源码篇】(二)PeerConnectionFactory

在初始化之后,使用PC之前需要先创建和初始化PeerConnectionFactory对象,因为PC的创建使用了工厂模式。实现在InitializePeerConnection()中实现,其中还调用了 PC的创建以及添加相关轨 //创建PC Factory,这个函数会在用户呼叫对方,或者收到对方呼叫信息时调用 bool Conducto…

服务器安装虚拟交换机,虚拟交换机配置如何操作?虚拟交换机配置步骤有哪些...

很多朋友在做虚拟交换机配置的时候&#xff0c;不知道如具体的操作方法&#xff0c;下面新网就给大家详细的介绍下虚拟交换机配置如何操作以及虚拟交换机配置步骤有哪些等问题&#xff0c;以供参考。虚拟交换机配置方法1.先安装驱动D:\Company\S5700S-28P-LI-AC\驱动\S5700系列…

rostcm6情感分析案例分析_卷积情感分析

这是一个面向小白(比如&#xff0c;本人)的关于情感分析的系列教程 [1]。老鸽子整理了“4 - Convolutional Sentiment Analysis.ipynb”中的内容。本文任务&#xff1a;使用卷积神经网络(CNN)来实现句子分类。简介CNN用于分析图像&#xff0c;包含一个或多个卷积层&#xff0c;…

java jigsaw_60秒内使用Java 9的Project Jigsaw的JavaFX HelloWorld

java jigsaw到目前为止&#xff0c;您可能已经听说过Java 9的新模块系统&#xff0c;即项目Jigsaw。 如果您不了解Java 9的新模块系统&#xff0c;则应该访问Mark Reinhold的论文“模块系统的状态” 。 另外&#xff0c;您应该在nipafx上查看 Nicolai Parlog的优秀博客&#xf…

C++ 11 深度学习(三)范围for、new内存动态分配、nullptr

1.范围for 作用&#xff1a;用于遍历一个序列&#xff0c;例&#xff1a; int v[]{ 1,2,3,4,5,6 };for (auto x : v)//数组v中每个元素&#xff0c;依次放入x中;cout << x << endl; 2.new和delete new和delete是C中的两个关键字&#xff0c;其中new 先执行mallo…

opencv python 多帧降噪算法_OpenCV-Python中用于视频跟踪的Meanshift和Camshift算法介绍...

学习目标在本章中&#xff0c;我们将学习用于跟踪视频中对象的Meanshift和Camshift算法。MeanshiftMeanshift背后的直觉很简单&#xff0c;假设你有点的集合。(它可以是像素分布&#xff0c;例如直方图反投影)。你会得到一个小窗口(可能是一个圆形)&#xff0c;并且必须将该窗口…

【视频码率==文件传输大小等通用计算】

1字节&#xff08;Byte&#xff09; 8位&#xff08;bit&#xff09;&#xff0c;我们通常称比特为小b 1千字节&#xff08;KB,Kilobyte&#xff09;1024字节&#xff08;2的10次方字节&#xff09;&#xff08;1KB1024B&#xff09;&#xff0c;我们经常称字节为大B 通用计算…

vue.jsr入门_JSR-308和Checker框架为jOOQ 3.9添加了更多类型安全性

vue.jsr入门Java 8引入了JSR-308&#xff0c;它为Java语言添加了新的注释功能。 最重要的是&#xff1a;键入注释。 现在可以像下面这样设计怪物了&#xff1a; 比注解更疯狂的是类型注解。 在数组上。 谁认为这是有效的Java代码&#xff1f; pic.twitter.com/M9fSRRerAD — …

数组索引必须为正整数或逻辑值_Office 365函数新世界——动态数组

革新一个旧的函数体系&#xff0c;无外乎从这么几个方面入手&#xff0c;函数的运行效率、函数的编写方式以及扩展新的函数功能。今天咱们就学习一下&#xff0c;看看365新函数是如何通过这三个方面打破旧函数条条框框的。365函数系列推出了一个新的概念&#xff0c;叫做动态数…

【音视频安卓开发 (零)】用 Android NDK 编译 FFmpeg 与 X264

下载相关构建和工具链 1.先下载NDK Google Android 2.在Windows端下载使用msys2,msys2支持Linux msys2 安装相关源&#xff0c;等待更新要很久.....慢慢等 pacman -S mingw-w64-x86_64-toolchain 然后执行以下命令安装 pacman -S base-devel 如果下载过慢或者不成功可…

jax-rs jax-ws_极端懒惰:使用Spring Boot开发JAX-RS服务

jax-rs jax-ws我认为可以公平地说&#xff0c;作为软件开发人员&#xff0c;我们一直在寻找编写更少的代码的方法&#xff0c;这些代码可以自动地或不能自动地完成更多的工作。 考虑到这一点&#xff0c;作为Spring产品组合的骄傲成员的Spring Boot项目中断了传统方法&#xff…

python内置类型_Python内置对象类型

核心数字类型&#xff1a;数字&#xff1a;int&#xff0c;long&#xff0c;float&#xff0c;complex&#xff0c;bool字符&#xff1a;str&#xff0c;unicode列表&#xff1a;list字典&#xff1a;dict元组&#xff1a;tuple文件&#xff1a;file其他类型&#xff1a;集合(s…

【Android OpenGL ES 开发 (零)】创建一个新的工程

创建符合要求的AndroidApp 使用Android Studio开发&#xff0c;Android Studio下载地址 1.先创建Native C 2.项目相关添加 3.使用C11标准 学习使用JNI为Java提供API 1.在cpp中定义相关接口&#xff0c;格式如下 2.外部调用这个API 把so改成自己想要的名字 1.需要在cmake文件…

java方法参数类型不确定_一个Java方法能有多少个参数类型?这个好奇coder做了个实验...

选自 justinblank机器之心编译参与&#xff1a;李志伟、张倩在 JVM 中&#xff0c;一个 Java 方法&#xff0c;最多能定义多少参数呢&#xff1f;这是一个很无聊的问题&#xff0c;即使能定义一万个&#xff0c;十万个&#xff0c;谁又会真的去这么做呢。但是作为一个 coder&am…

lagom的微服务框架_您的第一个Lagom服务– Java Microservices入门

lagom的微服务框架在撰写我的下一份OReilly报告时&#xff0c;我一直很沮丧&#xff0c;并且一段时间内没有足够的时间来撰写博客。 是时候赶快来这里&#xff0c;让您真正快速地开始使用名为Lagom的新微服务框架。 它与您从Java EE或其他应用程序框架中可能了解到的有所不同。…

【Android OpenGL ES 开发 (一)】使用c++开发opengles 与 日志功能 及 加载assets

创建OpenGLES视口 1.App窗口改成OpenGL窗口,是通过java调用C&#xff0c;在以下位置修改如下内容 package com.example.learnogles;import androidx.appcompat.app.AppCompatActivity;import android.content.Context; import android.opengl.GLSurfaceView; import android.o…

水印相机定位不准确怎么办_禄来的广角双反相机(2020版)

点击上方胶卷迷俱乐部快速关注&#xff0c;胶卷迷们坚实的阵地内容主要原创&#xff0c;配图来自群友和网络&#xff0c;所有水印保留最下方为微信自带广告&#xff0c;支持请点击(本号可获微量收入)4.0德国禄来公司以双反相机名震天下&#xff0c;其中的2.8&#xff0c;3.5两个…

【Android OpenGL ES 开发 (二)】渲染管线与Shader

计算出每一帧耗费的时间 1.在头文件中加入time.h,cpp中实现如下计算时间接口 float GetFrameTime(){static unsigned long long lastTime0,currentTime0;timeval current;gettimeofday(&current, nullptr);//取当前时间currentTime current.tv_sec * 1000 current.tv…

tibco汉化包6.3.0_TIBCO BusinessWorks 6和Container Edition与BW5的比较

tibco汉化包6.3.0[本文已于一段时间前发布在TIBCO博客上 。 我还在适当的地方添加了一些有关BusinessWorks Container Edition&#xff08;BW CE&#xff09;的信息 。 下面定义的大多数特征对于BW6和BW CE都是正确的] TIBCO ActiveMatrix BusinessWorks 6&#xff08;BW6&…

python地图散点图_Python中基于Basemap的三维散点图

我正在尝试绘制一个三维散点图&#xff0c;图中是Python身上的烟羽&#xff0c;下面是北美的地图。我试过各种方法&#xff0c;但似乎都有缺点。我现在的代码是&#xff1a;fig plt.figure(figsize(22,4))ax Axes3D(fig)M Basemap(llcrnrlon-140,llcrnrlat10,urcrnrlon-40,u…