阿捷外传之Git代码统计:DotNetCore + PowerBI 实现Git仓库日志分析

前言

2020年3月初春,虽然春节已经过去一个多月,大街上还未恢复往年的热闹。由于春节前夕突然降临的冠状病毒,导致很多员工无法回到城市复工。春节之后,阿捷所在的公司考虑到复工带来的风险,通知所有员工以远程的方式在家办公。

某一天,PM联系到阿捷,说目前有一个需求,想要对各个项目组的Git仓库提交信息进行相关统计,让阿捷调研一下。于是阿捷查了一番资料,了解到可以直接用原生 Git 命令行的方式来实现。

即使用内置的 git log 命令,提取仓库下的提交日志。

实践经过

git log 默认的输出格式是下面这个样子:

其中,上面的输出内容里主要包含了以下4种信息:

  • Commit 信息,每次提交的一个hash值;

  • Author 相关信息,提交的作者和及邮箱信息;

  • Commit Message, 提交时填写的信息,可能会包含多行文字。

Date 信息,这个信息中除了有日期时间,还包含时区信息。例如,从上图中可以看到有一条记录的日期为 Mon Mar 2 22:06:13 2020 -0800,其中最后的 -0800 就是所在的时区,即西八区,根据时区地图,可以看到 -0800是在美国西部湾区。中国处于东八区,所以如果是在中国提交的话,时区部分将会是 +0800 。

除了以上的4个基础信息,PM还想要拿到每次提交时变动的代码行数,阿捷通过查询Git Log 的命令行文档,了解到可以通过追加配置项 git log --shortstat 来输出变更的行数,如下图所示。

另外,git log 也考虑到输出格式化的问题,可以使用特殊的占位符指定输出格式。经过反复实验,优化后的命令如下:

git log --all --pretty="%x40%h%x2C%an%x2C%ad%x2C%x22%s%x22%x2C" --shortstat | tr "\n" " " | tr "@" "\n"

通过上面的魔幻配置,基本上能从每条提交记录中提取出需要的列,然后用逗号方式进行拼接,最终可以生成出CSV格式的文件。

然而这种方式始终不够优雅,命令中额外使用了 tr 对字符串进行处理,这意味着在目标机器上也要有这个工具,否则无法运行,而 windows 上只能通过安装第三方工具实现。

另外一点是扩展性问题,命令行对于csv这种简单的格式处理还好说,如果要输出JSON格式的话,就不好办了,而且命令行的配置项几乎没人能看懂,以后维护起来免不了要996。

基于上述痛点,阿捷又在网上搜寻了一番,最终在MVP大佬的一篇博客(https://edi.wang/post/2019/3/26/operate-git-with-net-core)中找到了蛛丝马迹。根据博客中的内容来看,可以通过一款名为libgit2sharp(https://github.com/libgit2/libgit2sharp)的类库,实现我们的需求。

libgit2sharp内部嵌套了一个基于C语言实现的Git内核,它自身对外提供一系列和Git操作相关的接口,并且它的上游核心仓库libgit2(https://github.com/libgit2/),提供了对包括Python,PHP,C#在内的多种语言的支持。而且项目是开源的,由社区进行维护。

阿捷经过简单上手,觉得提供的API可以满足需要,然后快速制作出了一个简易的命令行程序。核心代码如下:

using (var repo = new Repository(workdir))
{Console.WriteLine("all commit count:" + repo.Commits.Count());foreach (Commit commit in repo.Commits){var commitDto = new GitCommitLogDto{CommitHash = commit.Sha,AuthorName = commit.Author.Name,AuthorEmail = commit.Author.Email,MessageShort = commit.MessageShort,AuthorDate = commit.Author.When.DateTime,};var patch = GetPatchInfo(repo, commit);if (patch != null){commitDto.LinesAdded = patch.LinesAdded;commitDto.LinesDeleted = patch.LinesDeleted;};Console.WriteLine(commitDto.ToString());list.Add(commitDto);}
}

由于有了良好封装和结构化数据的支持,理论上可以将结果转化成任何格式,包括CSV,JSON,XML等,并且可以很方便地对数据格式进行任意加工。

考虑到工具在实际使用时,面临着跨平台和环境依赖的问题,于是阿捷使用了DoNetCore3.0提供的新特性,将程序打包成了不依赖安装环境的可执行文件,不需要安装外部依赖,开箱即用,最终打包的命令如下:

# publish win-x64
dotnet publish -c Release -o publish/win-x64 -r win-x64 /p:PublishSingleFile=true /p:IncludeSymbolsInSingleFile=true /p:PublishTrimmed=true#publish linux-x64
dotnet publish -c Release -o publish/linux-x64 -r linux-x64 /p:PublishSingleFile=true /p:IncludeSymbolsInSingleFile=true /p:PublishTrimmed=true

然后因为是开源项目,可以用GitHub的高性能构建机器,阿捷使用了yml文件为项目制作了自动构建的流水线,每次提交代码后自动触发编译生成出新的二进制文件。

除了CSV文件的部分,PM那还需要制作出相关报表,对CSV中的数据进行统计。阿捷考察了目前市面上流行的BI工具,最终选择了免费的PowerBI桌面版(https://powerbi.microsoft.com/zh-cn/)。

PowerBI是由微软出品的一款专业的用于商业智能方向的报表工具,桌面版内嵌了一套高性能的计算引擎,不需要安装任何依赖,开箱即用。而且支持的数据源种类非常多,CSV文件完全不在话下。

阿捷首先用吃狗粮的态度,用自己制作的命令行工具,从AspNetCore(https://github.com/dotnet/aspnetcore)的官方Github仓库中提取出了共计4万多提交信息,数据如下:

然后,阿捷经过对PowerBI简单的上手,制作出了下面几张报表。

上图中可以看到AspNetCore中仓库提交记录是最早从2013年开始的。

上图中,可以看到2017和2018年是提交次数和增加行数最多的一年,参考aspnetcore的发布时间,可以知道这期间经历了从1.1到2.0和2.2之间的迭代。

上面两张图展示了根据提交者的邮箱后缀,对提交次数和增加行数的统计。可以看出,来自微软员工的提交占了相当的分量,并且来自外部的贡献者也很广泛,说明AspNetCore有着广泛的社区贡献者。

上述两种图展示 的提交的日期主要分布在周一到周五之间的工作日,在提交的时间分布上,主要集中在上午10点到下午5点之间。

后记

有了DotNetCore和PowerBI的助力,阿捷很轻松地搞定了PM的需求,为了发扬回馈社区的精神,阿捷将项目托管在了GitHub上,仓库链接:https://github.com/leansoftX/dotnet-gitstats。有需要的小伙伴可以直接拿来食用。目前项目还在早期阶段,欢迎动手能力强的小伙伴增加新功能,提交ISSUE或PR。

参考资源

  • Git Log 命令行文档(https://git-scm.com/docs/git-log)

  • libgit2sharp上手博客(https://edi.wang/post/2019/3/26/operate-git-with-net-core)

  • libgit2sharp 上手wiki(https://github.com/libgit2/libgit2sharp/wiki/git-log)

  • PowerBI下载地址(https://www.microsoft.com/en-us/download/details.aspx?id=58494)

本周二(今天)晚8点,Boat House共创迭代会议直播????

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/311277.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

hdu2553 N皇后问题-dfs回溯剪枝+打表

Problem Description 在N*N的方格棋盘放置了N个皇后,使得它们不相互攻击(即任意2个皇后不允许处在同一排,同一列,也不允许处在与棋盘边框成45角的斜线上。 你的任务是,对于给定的N,求出有多少种合法的放置方…

递归算法(三)- 回溯法Backtracking

回溯法 回溯法Backtracking(找所有的可能)递归: 类似枚举,一层一层向下递归,尝试搜索答案。找到答案: > 返回答案,并尝试别的可能未找到答案: > 返回上一层递归,…

python3.8安装xlwings出错_Python xlwings模块简单使用

Python xlwings模块简单使用xlwings 安装xlwings excel-book-打开-新建xlwings sheet-apixlwings 操作数据xlwings 读取数据xlwings 安装操作excel模块的比较xlwings官方文档基本操作安装pip install xlwingsxlwings 打开-新建打开excel文件多个excel操作import …

今年暑假不AC-贪心

Problem Description “今年暑假不AC?” “是的。” “那你干什么呢?” “看世界杯呀,笨蛋!” “#$%^&*%…” 确实如此,世界杯来了,球迷的节日也来了,估计很多ACMer也会抛开电脑&#xff0…

一个全栈式的应用集成平台,打破“信息孤岛”

源宝导读:随着企业数字化进程的逐渐深入,企业存在大量的异构系统,各个系统之间信息传输、资源利用困难。本文将介绍明源云ERP为了打破这种“信息孤岛”,而进行的思考与实践。一、前言随着企业信息化进程的逐步深入,互联…

XGBoost-工程实现与优缺点(中)

工程实现 块结构设计 我们知道,决策树的学习最耗时的一个步骤就是在每次寻找最佳分裂点是都需要对特征的值进行排序。而 XGBoost 在训练之前对根据特征对数据进行了排序,然后保存到块结构中,并在每个块结构中都采用了稀疏矩阵存储格式&…

gson生成jsonobject_使用GSON将字符串解析为JsonObject会产生IllegalStateException:这不是JSON对象...

我有以下代码:JsonParser parser new JsonParser();System.out.println("gson.toJson: " gson.toJson(roomList));JsonObject json2 parser.parse("{\"b\":\"c\"}").getAsJsonObject();System.out.println("json2:…

根据二叉树的先序和中序求后序遍历

代码如下&#xff1a; #include <iostream> using namespace std; const int N 1010; int pre[N], in[N], post[N];struct node {int w;node *l, *r;node (int w 0, node *l NULL, node *r NULL): w(w), l(l), r(r) {} };void build(int l, int r, int &t, node…

【朝夕技术专刊】Core3.1WebApi_Filter多种注册方式支持依赖注入

欢迎大家阅读《朝夕Net社区技术专刊》第5期我们致力于.NetCore的推广和落地&#xff0c;为更好的帮助大家学习&#xff0c;方便分享干货&#xff0c;特创此刊&#xff01;很高兴你能成为忠实读者&#xff0c;文末福利不要错过哦&#xff01;01PARTCoreFilter多种注册方式在上一…

SQL(一)- 数据库介绍与基础操作

数据库介绍 一、常用的数据库分为两大类&#xff1a; 关系型数据库非关系型数据库&#xff08;NoSql&#xff09; 关系型数据库 概念&#xff1a;是建立在关系模型基础上的数据库&#xff0c;借助于集合代数等数学概念和方法来处理数据库中的数据。 关系型数据库的优势&am…

最少硬币问题-dp

题目&#xff1a; 有5种硬币&#xff0c;面值分别为&#xff1a;1,5,10,25,50。数量无限&#xff0c;输入非负整数s&#xff0c;选用硬币&#xff0c;使其和为s。要求输出最少的硬币组合要多少个硬币&#xff1f; 数据范围&#xff1a; s最大为250. 解题思路&#xff1a; 有时…

python加密与解密_Python加密与解密,pythonCrypt,和

from Crypto.Cipher import AESclass DeAesCrypt:"""AES-128-CBC 加/解密, Padding ZERO模式"""def __init__(self, data, key, pad):""":param data: 加密后的字符串,或者需要加密的字符串:param key: 随机的16位字符:param pad…

opencv +数字识别

现在很多场景需要使用的数字识别&#xff0c;比如银行卡识别&#xff0c;以及车牌识别等&#xff0c;在AI领域有很多图像识别算法&#xff0c;大多是居于opencv 或者谷歌开源的tesseract 识别.由于公司业务需要&#xff0c;需要开发一个客户端程序&#xff0c;同时需要在xp这种…

SQL(二)- 基础查询语句

简单的查询语句&#xff08;DQL&#xff09; 下面我们正式来学习查询语句&#xff0c;下面所有查询用到的表均为前面提到的三张表&#xff1a; 员工表中的数据&#xff1a; 部门表中的数据&#xff1a; 薪资表中的数据&#xff1a; 基本查询语句的语法&#xff1a; sele…

image 微信小程序flex_【微信小程序】flex布局一旦遇上for循环就失效

代码如下&#xff1a;wxml部分&#xff1a;{{item.name}}wxss部分&#xff1a;.skill .box {width: 100%;display: flex;flex-flow: row wrap;align-content: space-around;}.skill .skill-item {box-sizing: border-box;flex: 0 0 33.3333333333333%;font-size: 24rpx;color: …

SQL(三)- 连接查询

连接查询概念 一、什么是连接查询&#xff1f; 在实际开发中&#xff0c;大部分的情况下都不是从单张表中查询数据&#xff0c;一般都是多张表联合查询最终取出最终结果。在实际再发中&#xff0c;一般一个业务都会对应多张表&#xff0c;比如学生和班级&#xff0c;最起码两…

远程办公也可以很高效

题图&#xff1a;我的站立办公环境因为疫情&#xff0c;全中国人民都过了一个难忘的春节&#xff0c;而身在武汉的我&#xff0c;更是没有出家门半步&#xff0c;坚决做到不过国家添乱。从开始的2月14到后来的2月20日&#xff0c;再到现在的3月10日&#xff0c;官方发布的复工日…

github 检查代码质量_Android(8): 代码质量检查

代码质量检查是持续性的工作&#xff0c;检查的两个基本工具是FindBugs和CheckStyle。在实际项目中&#xff0c;检查的工作由测试人员实施&#xff0c;开发人员进行配合&#xff0c;形成日常性的工作。每天会对最新的代码进行检查&#xff0c;使用脚本(一般是测试用python写的)…

打印最少硬币的组合-dp+记录路径

题目&#xff1a; 有5种硬币&#xff0c;面值分别为&#xff1a;1,5,10,25,50。数量无限&#xff0c;输入非负整数s&#xff0c;选用硬币&#xff0c;使其和为s。要求输出最少的硬币组合的方案&#xff1f; 数据范围&#xff1a; s最大为250. 解题思路&#xff1a; 有时间再写…

SQL(四) - 子查询和union以及limit分页

子查询概念 什么是子查询&#xff1f;子查询都可以出现在哪里&#xff1f; select语句当中嵌套select语句&#xff0c;被嵌套的select语句是子查询。 子查询可以出现在哪里&#xff1f; select..(select). from..(select). where..(select).1.where子句中使用子查询 案例&a…