【Git教程】(四)版本库 —— 存储系统,存储目录,提交对象及其命名、移动与复制~

Git教程 · 版本库

  • 1️⃣ 一种简单而高效的存储系统
  • 2️⃣ 存储目录:Blob 与 Tree
  • 3️⃣ 相同数据只存储一次
  • 4️⃣ 压缩相似内容
  • 5️⃣ 不同文件的散列值相同
  • 6️⃣ 提交对象
  • 7️⃣ 提交历史中的对象重用
  • 8️⃣ 重命名、移动与复制
  • 🌾 总结

事实上,我们即使不了解版本库的具体工作方式,也一样可以将 Git 用得风生水起。但 如果我们了解了 Git 存储和组织数据的方式,就能对工作流有一个更好的理解。当然,如果你真的很讨厌谈理论,也可以选择跳过本章的正文,只选择性地读一下部分内容即可。

Git 主要由两个层面构成。其顶层结构就是我们所用的命令,例如 logresetcommit 等。这些命令使用起来很方便,并提供了许多可调用的选项。Git 的开发者们称它们令为瓷质命令 (porcelain command)。
而对于其底层结构,我们则称之为管道 (plumbing) 。 这里主要是一组带有少量选项的简 单命令,瓷质命令就是以此为基础被构建出来的。管道命令很少被直接用到。本章将为你提供一些了解该系统管道层结构的机会。

在这里插入图片描述


1️⃣ 一种简单而高效的存储系统

Git 的核心是一个对象数据库。该数据库可用来存储文本或二进制数据,例如对于某文件 的内容。我们可通过带 -w 选项 (w 代表写入)的 hash-object 命令将其作为一条记录插入到该对象数据库中。

> git hash-object -w hello.txt
28cf67640e502fe8e879a863bdlbbcd4366689e8

每当我们存储了这样一个对象, Git 就会返回一个40个字符的代码,这是被存储对象的 键值。请记住它,我们日后需要用该键值配合带 -p 选项 (p代表打印)的cat-file 命令来访问这个对象。

> git cat-file -p 28cf67640e
Hello World!

对象数据库是一个非常高效的实现。即使对于一个有着非常长提交历史的大型项目(例如Linux内核,这是一个拥有 200000次提交和近两百万个对象的项目)来说,访问其版本库 中对象的操作也几乎可在瞬间完成。Git 非常适合用于那些拥有大量小型源文件的项目。其性能瓶颈只有在总数据量非常巨大的时候才能显现出来。对于那些想要管理大量二进制文件的人来说,Git 版本库显然是不二的选择。


2️⃣ 存储目录:Blob 与 Tree

在文件和目录的存储上,Git 使用了一种包含两种节点类型的简单树结构。其文件内容将 保持不变,并以blob 对象的形式按字节被存储对象数据库中。而目录则将用tree 对象来表示, 它们看起来应该像如图所示。

在这里插入图片描述

> git cat-file -p 2790ef78
100644 blob 507d3a30ae9ed53bcf953744c5f5c9391a263356 README
040000 tree 91c7822ab43800b0e3c13049519587df4fd74591 src

正如你将如上看到的, tree 对象中包含了文件和子目录。其中的每个条目都被分配了 相应的访问权限(例如上面的100644)、类型(即 blob 还是 tree), 以及由该文件内容、该文
件或目录名称生成的散列值。


3️⃣ 相同数据只存储一次

为了节省内存空间, Git 对于相同数据将只存储 一 次。例如在下面这个例子中,foo.txtcopy-of-foo.txt 将返回相同的散列值,因为它们的文件内容是相同的。

> git hash-object -w foo.txt
a42a0aba404c21le8fdf33d4edde67bb474368a7
> git hash-object -w copy-of-foo.txt
a42a0aba404c21le8fdf33d4edde67bb474368a7

通过这种方法, Git 不仅能够节省内存,同时也能在性能上得到提升。许多Git 操作之所以快,就是因为它们的算法只比较相关的散列值,而不需要查看其实际数据。


4️⃣ 压缩相似内容

Git 不仅可以对相同的文件内容进行合并,每当程序员们所创建的新文件在内容上与前人 只有区区几行的区别时,Git 可以采用增量方法来存储这些文件,在这种情况下,包文件中将只存储原始版本后来被改变的那一部分。

要想做到这一点,我们就要在想节省空间时使用 gc 命令。这样一来,Git 就会删除所有多余的、不再接受任何分支头访问的提交,并将剩下的提交存储到包文件中。对于那些源代码占绝大多数的项目来说,这就等于实现了某种令人惊叹的高压缩处理。通常情况下,当前版本未压缩的工作区内容大小往往要比包含多年项目历史并打包的Git 版本库还要大得多。


5️⃣ 不同文件的散列值相同

当不同文件的散列值相同时,情况会很糟糕,因为 Git 是通过散列值来识别内容的。因此, 一 旦内容各不相同的文件出现散列值相同的情况,Git 就无法提供正确的数据了,我们称这种情况为敬列冲突(hash collision)。

好消息是,敬列冲突是一种非常罕见的事件。其原因在于,散列值的可能取值至少有2160 种。而即使是Linux 内核项目在运作5年之后,版本库中也就“仅有”大约221个对象。

当然从理论上而言,SHA1 敬列算法是有缺陷的,你可以在 SHA1 算法中找到251 中会 引起敬列冲突的操作。然而,格拉茨科技大学 (Graz University of Technology) 的一个研究项目曾从2007年尝试到2009年,目的是想找出一个(!) 这样的散列冲突,结果以失败告终。

总而言之,在当今版本控制所在的环境下,我们可以认为它是安全的。

6️⃣ 提交对象

我们所做的历次提交也被存储在对象数据库中,它们的格式很简单。

> git cat-file -p 64b98df0
tree 319c67d41a0b3f7464550b41db4bb1584939ad2a
parent 6c7f1ba0828a5b595026e08d2476808105a6b815
author Bjorn Stachmann <bs@test123.de>1295906997  +0100
committer Bjorn Stachmann <bs@test123.de>1295906997  +0100
Section on trees & blobs.

除了作者、提交者、日期以及注释这些元数据外,每个提交对象还在对象数据库中放入 了一些其他对象的散列值。例如: tree 对象负责描述该提交的内容。它还包含了该项目的根目录信息,并且与上文提到的一样,它也将以tree 和 blob 对象的方式呈现。而 parent 对象则指的是它的上一次提交。


7️⃣ 提交历史中的对象重用

除了最初的那次提交外,版本库中的每个提交对象上面都至少会存在一个前提交对象(即 父对象)。通常来说, 一次提交往往只涉及项目中少数文件的修改,其他大部分文件和目录不会发生变化。所以,我们会希望 Git 尽可能多地重用前次提交中的相关对象。

下面我们来看一个具体的例子(见下图)。某一提交(即自顶向下第二排中第二个被 实线箭头所指向的那个标题为 “commit” 的方框)中包含了一个README 文件,以及一个 用于包含其他文件的 src 目录。然后,如果在新建的提交(即图中第一行用虚线箭头所指向 的那个标题为 “commit” 的方框)中,被修改的只有 README 文件, Git 就会专门为该 README 文件创建一个新的blob对象。而对于src 目录,则继续沿用现有的tree对象与相应的 blob 对象。

在这里插入图片描述


8️⃣ 重命名、移动与复制

在许多版本控制系统中,我们都可以对文件的重命名及其修改时间的历史进行跟踪监视。
它们大多数通常是通过某个特定的文件移动或重命名命令来实现的。例如在 Subversion 中,我们可以用 svn move 来移动文件。但是如果用户想要将文件在图形界面中拖放到某一新的位置的话, Subversion 就无能为力了。对于这种情况, Subversion 不会认为这是个移动操作,而会将其记录为先删除,再另行新建该文件的操作过程。

对此,Git 采用了不同的方法:它没有选择去存储与文件移动操作相关的信息,而是采用 了重命名检测算法。在该算法中,如果一个文件在某一次提交中消失了,它依然会存在于其 前次提交中。而如果某个拥有相同名字或相似内容的文件出现在了另一个位置, Git 就会自动检测到。如果是这种情况, Git 就会假定该文件被移动过了。下面我们以下图中的情况为例 来演示一下。你可以看到:第二次提交中已经没有了 foo.txt 文件,它可能被移动了。随后,Git 又自动检测到新增文件中有一个与之内容相似的文件,位于src/foo-moved.txt, 这一过程就成为了重命名操作。

在这里插入图片描述Git 会自行显示出被重命名或移动的文件。

  1. 先获取一份摘要
    我们可以用 log 命令的-M 选项 ( 即“move”) 来激活重命名的检测算法。如果想要格式化输出的信息,我们可以对其使用–summary 选项来显示文件修改的相关信息。但这段输 出很长也是个问题。如果我们想要简短一些,也可以用grep命令来对输出进行筛选。另外,百分比显示了源文件和目标文件的相似度。

    > git log --summary -M90% | grep -e "^ rename"
    rename foo.txt => foo-renamed.txt(90%)
    rename src/{before =>after}/bar.txt(100%)
    
  2. 跟踪被移动文件的历史
    我们可以用 log 命令的–follow 选项来连续取出文件被重命名之后的历史记录(当然,该做法仅适用于单文件操作)。如果不使用该选项,日志就会在该文件被重命名的那一刻停止。

    > git log --follow  foo-renamed.txt
    

我们还可以透过-C 选项来跟踪被复制的数据。

> git log --summary -C90% | grep -e "^copy"

如果有必要的话,我们也可以用 --find-copies-harder选项来使Git 做一个更长的计算操作。只要该选项被激活,Git 就会去检查相关提交中的所有文件,并不仅仅是那些已更改的文件。

我们也可以将重命名检测配制成 Git 的默认选项。这样一来,我们就无需在每次使用 log
命令时为其指定-M--follow 选项了。

> git config diff.renames true

我们可以按照以下步骤找出谁最后修改了那几行代码,以及修改的时间。

  1. 逐行打印源头信息
    当我们将某些较大的代码块复制或移动到其他文件中时,Git 甚至可以确定其中某几行 代码的来源。而且, blame 命令还可以显示出最后一次修改这几行代码的人及其修改时间。

    > git blame -M -C -C -C copied-together.txt 
    f5fdbad0 foo.txt (Rene  2010-11-1418:30:42  +0100  1)One
    a5b80903 bar.txt (Bjorn  2011-01-3121:32:49 +0100  2)Two or
    f5fdbad0 foo.txt (Rene  2010-11-1418:30:42  +0100  3)Three
    

其中的 -M 选项(M 代表“move”) 暗示的是文件的复制和移动操作。 -C 选项也可用于 检测相同提交中的文件副本。但我们还可以用多个-C 选项来搜索该文件在更多提交中的副本。对于大型的版本库来说,这种操作有时候会需要较长的时间。

🌾 总结

  • 对象数据库:所有提交中的文件、目录以及相关的元数据都将被存储在该数据库中。
  • SHA1 散列值:我们可以通过一个SHA1 散列值从对象数据库中捡取相关对象。SHA1 散列值是一种针对文件内容的加密校验值。
  • 相同数据只存储一次:内容相同的对象拥有相同的 SHA1 散列值,并且只存储一次。
  • 相似的数据会被压缩:对于内容相似的数据, Git 会针对其被修改的部分采取增量存储的方法。
  • Blob对象:文件的内容将会被存储在相应的blob对象中。
  • Tree 对象:目录会被存储在相应的 tree对象中。 一个 tree 对象中通常会包含一份文件 名列表,包含这些文件名和储存在blob 或 tree 对象中内容的 SHA1 散列值。
  • 提交图:我们的提交对象会沿着各自的 tree 和 blob对象,形成一个提交图。
  • 重命名检测:文件的重命名和移动操作在提交之前无需报备。Git 可以自动根据文件 内容的相似度来识别操作。例如:git log-follow 命令。
  • 庐山真面目:我们可以通过blame 命令来确定某几行代码的来源,即使这些代码们已 被移动或复制到了别处。


温习回顾上一篇(点击跳转)
《【Git教程】(三)提交详解 —— add、commit、status、stach命令的说明,提交散列值与历史,多次提交及忽略 ~》

继续阅读下一篇(点击跳转)
《【Git教程】(五)分支 —— 并行式开发,分支相关操作(创建、切换、删除)~》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/714564.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

keil MDK安装armcc V5编译器

不知道从什么时候开始&#xff0c;Keil MDK默认不支持V5的编译器了&#xff0c;里面默认只有V6的编译器&#xff0c;设置界面跟V5有很大的差异不太熟悉。最可怕的是&#xff0c;之前使用V5编译的工程&#xff0c;换成V6编译器后居然报错...虽然修改一下应该也可以正常编译&…

SQL面试题(2)

第一题 创建trade_orders表: create table `trade_orders`( `trade_id` varchar(255) NULL DEFAULT NULL, `uers_id` varchar(255), `trade_fee` int(20), `product_id` varchar(255), `time` varchar(255) )ENGINE = InnoDB CHARACTER SET = utf8mb4 COLLATE = utf8mb4_0900_…

web自动化笔记九:验证码的处理方式

一、验证码常用的处理方式 ①、说明&#xff1a;Selenium中并没有对验证码处理的方法&#xff0c;在这里我们介绍一下针对验证码的几种常用处理方式 ②、方式&#xff1a; 1&#xff09;、去掉验证码&#xff08;测试环境下采用&#xff09; …

RDD算子介绍

1. RDD算子 RDD算子也叫RDD方法&#xff0c;主要分为两大类&#xff1a;转换和行动。转换&#xff0c;即一个RDD转换为另一个RDD&#xff0c;是功能的转换与补充&#xff0c;比如map&#xff0c;flatMap。行动&#xff0c;则是触发任务的执行&#xff0c;比如collect。所谓算子…

Mac专用投屏工具AirServer 7.27 for Mac中文版2024最新图文教程

Mac专用投屏工具AirServer 7.27 for Mac中文版是一款适用于Mac的投屏工具&#xff0c;可以将Mac屏幕快速投影到其他设备上&#xff0c;如电视、投影仪、平板等。 Mac专用投屏工具AirServer 7.27 for Mac中文版具有优秀的兼容性&#xff0c;可以与各种设备配合使用。无论是iPhon…

基于springboot+vue的在线考试系统(源码+论文)

文章目录 目录 文章目录 前言 一、功能设计 二、功能页面 三、论文 前言 现在我国关于在线考试系统的发展以及专注于对无纸化考试的完善程度普遍不高&#xff0c;关于对考试的模式还大部分还停留在纸介质使用的基础上&#xff0c;这种教学模式已不能解决现在的时代所产生的考试…

【MySQL】数据库的操作

【MySQL】数据库的操作 目录 【MySQL】数据库的操作创建数据库数据库的编码集和校验集查看系统默认字符集以及校验规则查看数据库支持的字符集查看数据库支持的字符集校验规则校验规则对数据库的影响数据库的删除 数据库的备份和恢复备份还原不备份整个数据库&#xff0c;而是备…

YOLOv9改进|增加SPD-Conv无卷积步长或池化:用于低分辨率图像和小物体的新 CNN 模块

专栏介绍&#xff1a;YOLOv9改进系列 | 包含深度学习最新创新&#xff0c;主力高效涨点&#xff01;&#xff01;&#xff01; 一、文章摘要 卷积神经网络(CNNs)在计算即使觉任务中如图像分类和目标检测等取得了显著的成功。然而&#xff0c;当图像分辨率较低或物体较小时&…

【LeetCode刷题】146. LRU 缓存

请你设计并实现一个满足 LRU (最近最少使用) 缓存 约束的数据结构。 实现 LRUCache 类&#xff1a; LRUCache(int capacity) 以 正整数 作为容量 capacity 初始化 LRU 缓存int get(int key) 如果关键字 key 存在于缓存中&#xff0c;则返回关键字的值&#xff0c;否则返回 -…

【InternLM 实战营笔记】浦语·灵笔的图文理解及创作部署、 Lagent 工具调用 Demo

浦语灵笔的图文理解及创作部署 浦语灵笔是基于书生浦语大语言模型研发的视觉-语言大模型&#xff0c;提供出色的图文理解和创作能力&#xff0c;结合了视觉和语言的先进技术&#xff0c;能够实现图像到文本、文本到图像的双向转换。使用浦语灵笔大模型可以轻松的创作一篇图文推…

进程间的通信 -- 共享内存

一 共享内存的概念 1. 1 共享内存的原理 之前我们学过管道通信&#xff0c;分为匿名管道和命名管道&#xff0c;匿名管道通过父子进程的属性继承原理来完成父子进程看到同一份资源的目的&#xff0c;而命名管道则是通过路径与文件名来唯一标识管道文件&#xff0c;来让不同的进…

typescript 的常用方式

文章目录 前言一、绑定props 默认值的方式&#xff1a;withDefaults1.vue2 的props设置默认值2.vue3 的props设置默认值(1) 不设置默认值的写法(2) 设置默认值的写法&#xff08;分离模式&#xff09;(3) 设置默认值的写法&#xff08;组合模式&#xff09; 二、定义一个二维数…

Matlab在同一张图中如何加入多个图例

根据代码最终画出的图片如下&#xff1a; 其实原理很简单&#xff0c;就是在一张figure中画多个坐标轴&#xff0c;每个坐标轴都有对应的图例&#xff0c;之后再将多余坐标轴隐藏&#xff0c;只保留一个即可。 代码如下&#xff1a; clear all; close all;dd_linewidth 1;a …

maven archetype 项目原型

拓展阅读 maven 包管理平台-01-maven 入门介绍 Maven、Gradle、Ant、Ivy、Bazel 和 SBT 的详细对比表格 maven 包管理平台-02-windows 安装配置 mac 安装配置 maven 包管理平台-03-maven project maven 项目的创建入门 maven 包管理平台-04-maven archetype 项目原型 ma…

Spring学习笔记(六)利用Spring的jdbc实现学生管理系统的用户登录功能

一、案例分析 本案例要求学生在控制台输入用户名密码&#xff0c;如果用户账号密码正确则显示用户所属班级&#xff0c;如果登录失败则显示登录失败。 &#xff08;1&#xff09;为了存储学生信息&#xff0c;需要创建一个数据库。 &#xff08;2&#xff09;为了程序连接数…

php源码 单色bmp图片取模工具 按任意方式取模 生成字节数组 自由编辑点阵

http://2.wjsou.com/BMP/index.html 想试试chatGPT4生成&#xff0c;还是要手工改 php 写一个网页界面上可以选择一张bmp图片&#xff0c;界面上就显示这张bmp图片&#xff0c; 点生成取模按钮&#xff0c;在图片下方会显示这张bmp图片的取模数据。 取模规则是按界面设置的&a…

Linux 的交换空间(swap)是什么?有什么用?

目录 swap是什么&#xff1f;swap有什么用&#xff1f;swap使用典型场景如何查看你的系统是否用到交换空间呢&#xff1f;查看系统中swap in/out的情况 swap是什么&#xff1f; swap就是磁盘上的一块区域。它和Windows系统中的交换文件作用类似&#xff0c;但是它是一段连续的…

03、MongoDB -- MongoDB 权限的设计

目录 MongoDB 权限的设计演示前准备&#xff1a;启动 mongodb 服务器 和 客户端 &#xff1a;1、启动单机模式的 mongodb 服务器2、启动 mongodb 的客户端 MongoDB 权限的设计1、MongoDB 的每个数据库都可以保存用户&#xff0c;不止admin数据库可以保存用户。2、保存用户的数据…

Linux 学习笔记(8)

八、 启动引导 1 、 Linux 的启动流程 1) BIOS 自检 2) 启动 GRUB/LILO 3) 运行 Linux kernel 并检测硬件 4) 挂载根文件系统 5) 运行 Linux 系统的第一个进程 init( 其 PID 永远为 1 &#xff0c;是所有其它进程的父进程 ) 6) init 读取系统引导配置文件…

GD25Q32驱动

GD25Q32是一款基于SPI的Flash芯片&#xff0c;容量为32/84M bytes。它的引脚如下&#xff1a; 该芯片支持多种SPI操作方式&#xff0c;包括&#xff1a;Standard SPI(标准SPI)、Dual SPI(双线 SPI)和Quad SPI(四线 SPI) 。有关SPI的介绍可以参考&#xff1a; SPI通信原理-CSDN…