Git内部原理

Git有什么特点?

图片

 

  • fast,scalable,distributed revision control system(快速,可扩展的分布式版本控制系统)

 

    • 几乎所有操作都是本地执行

    • 每一个clone都是整个生命周期的完整副本

 

  • the stupid content tracker(只是一个内容追踪器)

 

 

    • Git追踪的是内容而不是文件

    • 如果两个文件的内容相同,无论是否在相同的目录,Git在对象库里只保存一份blob对象

  • Immutable(不可变性)

 

    • Git版本库中存储的数据对象均为不可变的,一旦创建数据对象并放入了数据库中,它们便不可修改。这也意味着存储在版本数据库中的整个历史也是不可变的。

 

  • Porcelain(高层命令)

 

    • init, add, commit, branch, merge.

 

  • Plumbing(底层命令)

 

    • hash-object, update-index, write-tree.

 

图片

每一个Client端都可以是Server

 

Git Version Database是什么?

图片

 

Git是一个内容寻址文件系统。这意味着,Git的核心部分是一个简单的键值对数据库(key-value data store)。你可以向该数据库插入任意类型的内容,它会返回一个键值,通过该键值可以在任意时刻再次检索该内容。而这些数据全部是存储在objects目录里。key是一个hash,hash前两个字符用于命名子目录,余下的38个字符则用作文件名。如果了解tree树的朋友应该会想明白之所以这样处理是因为检索优化策略,提高文件系统效率(如果把太多的文件放入同一个目录中,一些文件系统会变慢)。而这个hash的内容(即hash对应的Value)有四种对象类型,commit(提交),tree(目录树),blob(块),tag(标签)。

 

Git基本概念:

 

  • Content addressable filesystem(内容寻址文件系统)

  • Simple key-value data store(键值对数据)

  • Key:SHA-1散列(hash,哈希)

 

    • Everything is hash

    • 这是一个由40个十六进制字符(0-9和a-f)组成字符串

 

  • Value:binary files

 

    • Commit:Actual git commits(提交)

    • Tree:Directoy(目录树)

    • Blob:file content(文件内容)

 

note:可以理解成Commit = Tree + Blob的snapshot

 

什么是SHA-1:SHA-1(安全散列函数),是一种密码散列函数,美国国家安全局设计,并由美国国家标准技术研究所发布为联邦数据处理标准。SHA-1可以生成一个被称为消息摘要的160位(20字节)散列值,散列值通常的呈现形式为40个十六进制数。用js来理解就是一个纯函数,输入一定输出也一定,相同的输入一定有相同的输出。不相同的输入一定有不同的输出(不考虑碰撞 ,比彗星撞击地球的概率还低)。

 

Git到底是如何工作呢?

图片

 

我们知道最简单的git flow主要有三步:

 

  1. 在工作目录中修改文件。

  2. 暂存文件,将文件的快照放入暂存区域。

  3. 提交更新,找到暂存区域的文件,将快照永久性存储到Git仓库目录。

 

对应高层命令是这样的:

 

$ git init
$ git add .
$ git commit

在我们看这三个命令到底做了什么之前,先来了解一下几个概念:

 

图片

 

  • Working Directory:工作区(工作目录)

  • Stageing Area (Index):暂存区

  • Repository:仓库区(本地仓库)

 

Git init

图片

 

我们先用Git init来初始化一个项目,并查看项目的目录结构。

 

$ git init demo1 && cd demo1
$ tree .git
.git
├── HEAD
├── config
├── description
├── hooks
│   ├── applypatch-msg.sample
│   ├── commit-msg.sample
│   ├── fsmonitor-watchman.sample
│   ├── post-update.sample
│   ├── pre-applypatch.sample
│   ├── pre-commit.sample
│   ├── pre-push.sample
│   ├── pre-rebase.sample
│   ├── pre-receive.sample
│   ├── prepare-commit-msg.sample
│   └── update.sample
├── info
│   └── exclude
├── objects
│   ├── info
│   └── pack
└── refs
    ├── heads
    └── tags

description文件仅供GitWeb程序使用。config文件包含项目特有的配置选项。info目录包含一个全局性排除文件,用以放置那些不希望被记录在.gitignore文件中的忽略模式。hooks目录包含客户端或服务端的钩子脚本,这些我们暂时都无需关心。最重要的是:HEAD文件、(尚待创建的)index文件,和objects目录、refs目录。这些条目是Git的核心组成部分。objects目录存储所有数据内容(hash);refs目录存储指向数据(分支)的提交对象的指针(commit hash);HEAD文件指示目前被检出的分支(refs目录内的分支名);index 文件保存暂存区信息(git ls-files --stage命令查看当前暂存区信息)。

 

下面我们就用底层命令来实现git init指令(另创建一个demo2目录)。

 

mkdir -p参数是能直接创建一个不存在的目录下的子目录:

 

$ mkdir -p .git/refs/heads .git/refs/tags .git/objects
$ echo 'ref: refs/heads/master' > .git/HEAD

图片

 

可以看到已经成功初始化了一个Git项目。

 

git add

图片

 

 

$ echo 'hello git' > index.txt
$ git add index.txt

执行完这两句指令后我们再来看.git文件夹发生了什么变化(为了显示效果,简化目录结构,之后tree 都忽略hooks文件夹)

 

.git
├── HEAD
├── config
├── description
├── index
├── info
│   └── exclude
├── objects
│   ├── 8d
│   │   └── 0e41234f24b6da002d962a26c2495ea16a425f
│   ├── info
│   └── pack
└── refs
    ├── heads
    └── tags

可以看到多了一个index文件,并且objects目录里面多了一个8d的文件夹,里面有一个0e41开头的文件、那这个8d0e4这个是什么呢?其实这个就是index.txt文件内容的hash。还记得嘛,刚才写入文件内容是hello git,我们来手动输出这个内容的hash。

 

$ echo 'hello git' | git hash-object --stdin
$ 8d0e41234f24b6da002d962a26c2495ea16a425f

可以通过cat-file命令从Git那里取回数据。为cat-file指定-p选项可指示该命令自动判断内容的类型,并为我们显示格式友好的内容:

 

$ git cat-file -p 8d0e
$ hello git

为cat-file指定-t选项可以查看文件的类型:

 

$ git cat-file -t 8d0e
$ blob

git add做了两件事情:

 

  • 文件内容做一个hash存成blob object

  • 把index放入到Staging Area

 

当为index.txt创建一个对象的时候,git并不关心index.txt的文件名,git 只关心文件里面的内容。

 

按照这个思路,我们用底层命令来实现一下git add指令。

 

$ echo 'hello git' | git hash-object -w --stdin

$ git update-index --add --cacheinfo 100644 8d0e41234f24b6da002d962a26c2495ea16a425f index.txt

-w选项指示hash-object命令存储数据对象;若不指定此选项,则该命令仅返回对应的键值。

 

我们指定的文件模式为100644,表明这是一个普通文件。其他选择包括:100755,表示一个可执行文件;120000,表示一个符号链接。

 

图片

 

因为并没有去创建这个index.txt文件, 所以这边提示已经删除了,执行git checkout -- index.txt取出文件。

 

图片

 

可以看到已经成功用底层命名实现了git add的功能。

 

到这里,我们自然就会有个疑问了,那文件名怎么办?

 

Git是通过tree对象来跟踪文件的路径名的。当使用git add命令时,git会给添加的文件内容创建一个blob对象,但是这个时候并不会创建tree对象。而只是更新索引,索引在.git/index中,它跟踪文件的路径名和相对应blob,每次执行git add 、git rm 、 git mv 的时候,git都会更新索引,我们可以通过命令git ls-files --stage来查看当前的索引信息。

 

$ git ls-files --s
$ 100644 8d0e41234f24b6da002d962a26c2495ea16a425f 0 index.txt

 

git commit

图片

 

执行git commit -m 'init-1'后,查看tree结构,发现object 多出了两个文件:

 

.git
├── COMMIT_EDITMSG
├── HEAD
├── config
├── description
├── index
├── info
│   └── exclude
├── logs
│   ├── HEAD
│   └── refs
│       └── heads
│           └── master
├── objects
│   ├── 75
│   │   └── 0d7c0f7f998d3e2ce2d71ec801902f69bf6a39
│   ├── 88
│   │   └── bc066ebf3d864e34297f7051a0ded16e49813a
│   ├── 8d
│   │   └── 0e41234f24b6da002d962a26c2495ea16a425f
│   ├── info
│   └── pack
└── refs
    ├── heads
    │   └── master
    └── tags
$ git log
$ commit 750d7c0f7f998d3e2ce2d71ec801902f69bf6a39 (HEAD -> master)

查看这个commit 的文件类型,可以看到这是一个commit:

 

$ git cat-file -t 750d
$ commit

$ git cat-file -p 750d
$ tree 88bc066ebf3d864e34297f7051a0ded16e49813a

但是多出来的88bc是什么呢,其实就是当前目录的tree对象,所以Git是在commit的时候才创建tree对象的(其实是把索引转化成tree对象)。

 

$ git cat-file -t 88bc
$ tree

$ git cat-file -p 88bc
$ 100644 blob 8d0e41234f24b6da002d962a26c2495ea16a425f  index.txt

这个时候再看HEAD:

 

$ cat .git/HEAD
$ ref: refs/heads/master

继续查看refs/heads/master:

 

$ cat .git/refs/heads/master
$ 750d7c0f7f998d3e2ce2d71ec801902f69bf6a39

所以整个指向关系就是:HEAD里面的内容是当前的ref,而当前ref的内容是commit hash,commit对象内容是tree hash,tree对象的内容是文件夹/文件信息,而blob对象存储着文件的具体内容。这样当完成一次提交的时候,整个状态的对应关系也是确定的,所以说commit对象就是当前系统的snapshot。

 

图片

 

再来回顾下一次完整的提交流程:

 

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/535423.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

git存储原理

四种数据类型 实际上Git基于数据类型的不同,把对象分为四种:数据对象、树对象、提交对象、标签对象。Git文件系统的设计思路与linux文件系统相似,即将文件的内容与文件的属性分开存储,文件内容以“装满字节的袋子”存储在文件系统…

详解设计模式:中介者模式

中介者模式(Mediator Pattern)也被称为调停者模式,是在 GoF 23 种设计模式中定义了的行为型模式。 中介者模式 是用来降低多个对象和类之间的通信复杂性。这种模式提供了一个中介类,该类通常处理不同类之间的通信,并支…

rebase参数以及注意事项

可以根据需要将pick参数,改变为下面代表不同作用的参数;这样就可以对节点C和D进行不同的操作了。比如: pick:默认参数,表示不对提交节点进行任何操作,直接应用原提交节点。不创建新提交; rewor…

RPC 服务 与 HTTP 服务的区别

1、什么是RPC RPC(Remote Procedure Call)—远程过程调用,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信…

Docker 网络命名空间

Docker 用户可以通过与 CNM 的 Object 以及 API 的交互来管理对应容器的网络,下面是一个典型的容器网络生命周期: 1、Driver要向NetworkController注册。内置的Driver在Libnetwork内注册,远程的Driver则通过Plugin mechanism注册。每一个Driv…

缓存雪崩、击穿、穿透解决方案

用户的数据一般都是存储于数据库,数据库的数据是落在磁盘上的,磁盘的读写速度可以说是计算机里最慢的硬件了。 当用户的请求,都访问数据库的话,请求数量一上来,数据库很容易就奔溃的了,所以为了避免用户直…

Ansible中的playbook详解

首先简单说明一下playbook,playbook是什么呢? 根本上说playbook和shell脚本没有任何的区别,playbook就像shell一样,也是把一堆的命令组合起来,然后加入对应条件判断等等,在shell脚本中是一条一条的命令&am…

【Docker】容器镜像有哪些特性

首先解释一下什么是Docker镜像? Docker镜像它其实是一个模板,拥有这个模板我们才能创建我们的Docker容器,镜像里含有启动 docker 容器所需的文件系统结构及其内容,因此是启动一个 docker 容器的基础。docker 镜像的文件内容以及一…

nginx中的location指令

1、location 介绍 location是Nginx中的块级指令(block directive),location指令的功能是用来匹配不同的url请求,进而对请求做不同的处理和响应,这其中较难理解的是多个location的匹配顺序,本文会作为重点来解释和说明。 开始之前…

容器底层实现技术Namespace/Cgroup

Docker容器实现原理 Docker容器在实现上是通过namespace技术来进行进程隔离,通过cgroup技术实现容器进程可用资源的限制,当docker启动一个容器时,实际是创建了多了namespace参数的进程。 Namespace Namespace:命名空间 作用&#…

身体原因 断更一周

由于众所周知的原因,博主最近具有发热、全身乏力、酸痛、干咳等症状,已严重影响日常的工作学习和博客编写,所以断更我将一周,由下周三(即2022年12月21日)恢复更新 更多往期内容可以参考:全网最…

异方差与多重共线性对回归问题的影响

异方差的检验 1.异方差的画图观察 2.异方差的假设检验,假设检验有两种,一般用怀特检验使用方法在ppt中,课程中也有实验,是一段代码。 异方差的解决办法 多重共线性 多重共线性可能带来的影响: 多重共线性的检验 多重…

如何修改Docker的镜像源

改或新增/etc/docker/daemon.json 文件 vi/etc/docker/daemon.json 添加需要修改的国内镜像源镜像源 { "registry-mirrors":["http://hub-mirror.c.163.com"] } 重启Docker服务 Systemctl restart docker.service 方法二 修改或新增 /etc/sysconfig…

nginx 的 rewrite 模块

ngxhttprewrite_module 模块用来使用正则表达式(PCRE)改变请求的 URI,返回重定向,并有条件地选择配置。 指令执行顺序 首先顺序执行 server 块中的 rewrite 模块指令,得到 rewrite 后的请求 URI 然后循环执行如下指令…

所有的Python库

库名称简介 Chardet字符编码探测器,可以自动检测文本、网页、xml的编码。 colorama主要用来给文本添加各种颜色,并且非常简单易用。 Prettytable主要用于在终端或浏览器端构建格式化的输出。 difflib,[Python]标准库,计算文本…

Oracle行转列语法总结大全

一、decode语法 SELECT deptno, nvl(SUM(decode(job, MANAGER, sal)), 0) s_MANAGER, nvl(SUM(decode(job, ANALYST, sal)), 0) s_ANALYST, nvl(SUM(decode(job, CLERK, sal)), 0) s_CLERK, nvl(SUM(decode(job, PRESIDENT, sal)), 0) s_PRESIDENT, …

Shell 各种符号 之 含义

#!&#xff1a;符号能够被内核识别成是一个脚本的开始&#xff0c;这一行必须位于脚本的首行 $0&#xff1a;当前脚本的名字 $#&#xff1a;输入<调用>参数(脚本或函数的位置参数) 的个数&#xff0c;如 NumArg$#&#xff1b;echo"\$#: $#;\$NumArg: $NumArg"…

Nginx的11个执行流程

1 Nginx简介 Web服务器市场份额 Nginx [engine x] 最初由 Lgor Sysoev 编写。根据 Netcraft 的数据&#xff0c;到2020年9月&#xff0c;Nginx 服务或代理了25.76&#xff05;站点&#xff0c;市场份额占到了约34.03&#xff05;。 Nginx 被广泛用作&#xff1a; HTTP服务器…

Nginx的执行阶段详解

在了解nginx的执行阶段前&#xff0c;先看一个例子 对echo不熟悉的&#xff0c;可以先看文章Nginx调试必备了解下echo扩展 回到上面这个例子&#xff0c;在server块中配置这样的location&#xff0c;你觉得输出是什么样子&#xff1f; 按照正常的逻辑&#xff0c;输出应该是32 …

Docker挂了,数据如何找回

docker在实际使用中&#xff0c;让运维人员诟病的&#xff0c;除了安全问题外&#xff0c;大概就是数据的问题了 很多人在初用docker的时候&#xff0c;很多时候都忘记或不知道docker中需要保留的数据需要挂载到宿主机文件夹到容器内部对应目录&#xff08;当然除了挂载宿主机目…