程序员成长之路(转)

什么时候才能成为一个专业程序员呢？三年还是五年工作经验？其实不用的，你马上就可以了，我没有骗你，因为专业程序员与业余程序员的区别主要在于一种态度，如果缺乏这种态度，拥有十年工作经验也还是业余的。

什么态度？专业态度！也就是星爷常说的专业精神。专业态度有多种表现形式，以后我们会一一介绍的。这里先介绍一下有关形象的态度，专业的程序员是很注重自己的形象的，当然程序员的形象不是表现在衣着和言谈上，而是表现在代码风格上，代码就是程序员的社交工具，代码风格可是攸关形象的大事。

有人说过，傻瓜都可以写出机器能读懂的代码，但只有专业程序员才能写出人能读懂的代码。作为专业程序员，每当写下一行代码时，要记得程序首先是给人读的，其次才是给机器读的。你要从一个业余程序员转向专业程序员，就要先从代码风格开始，并从此养成一种严谨的工作态度，生活上的不拘小节可不能带到编程中来。

代码风格有很多种，Windows 和Linux都有自己主流的代码风格，每个团队、每个公司也可能有自己的代码风格，争论哪种风格好哪种风格坏根本没有什么意义。有助于其他程序员理解的代码风格都是可以接受的，因为遵循特定代码风格的目的就是为了便于交流。

1 命名要展示对象的功能

1.1 文件名

文件名一定要能传达文件的内容信息，别人一看到文件名就能知道文件中放的是什么内容。把一个类的代码或者某一类代码放在一起是好的习惯，这样就很容易给文件取一个直观的名字。业余爱好者常常把很多没关系的代码糅到一个文件中，结果造成代码杂乱无章，也很难给它取一个恰当的名字.

1.2 函数名

单词小写，多个单词用下划线分隔。如：find_node

一个函数只完成单一功能。不要用代码的长度来衡量是否要把一段代码独立成一个函数。即使只有几行代码，只要这些代码完成的是一项独立的功能，都应该将其写为一个单独的函数，而函数名要能够直观地反应出它的功能。如果在给函数起名时遇到了困难，通常是函数设计不合理，则应该仔细思考一下并对函数进行相应修改。

1.3 结构/枚举/联合名

首字母大写，多个单词连写。如：struct _DListNode

宏名：单词大写，多个单词下划线分隔。

如：#define MAX_PATH 260

变量名：单词小写，多个单词下划线分隔。

如：DListNode* node = NULL;

1.4 面向对象命名方式

(1) 以对象为中心，采用“主语（对象）+谓语（动作）”的形式来命名，取代传统的“谓语（动作）+宾语（目标）”的形式。

如：dlist_append

(2) 第一个参数为对象，并用thiz命名。

如：dlist_append(DList* thiz, void* value);

(3) 对象有自己的生命周期，因此都有相应的创建和销毁函数。

2 排版布局要美观大方

2.1 合理使用空行

函数体之间用空行分隔。

结构/联合/枚举声明用空行分隔。

不同功能的代码块之间用空行分隔。

将功能类似的代码（如宏定义、类型定义、函数声明和全局变量）放在一起，和其他部分用空行分隔。

使用空行时，一行就够了，不要使用连续多个空行，那样会让人感觉代码段空荡荡的。

2.2 合理使用空格

等号两边用空格。如：int a = 100;

参数之间用空格。如：test(int a, int b, int c)

语句末的分号与前面内容不要加空格。如：test(a, b, c);

其他能让代码更美观的地方。

2.3 合理使用括号

用括号分隔子表达式，不要只靠默认优先级来判断。((a && b) || (c && d))

用括号分隔if/while/for等语句的代码块，那怕代码只有一行。

2.4 合理缩进

每一级都正常缩进，用tab缩进取代空格缩进（Linux内核源代码也遵循此规则）。用空格缩进的目的是防止代码因编辑器的tab宽度不同而变乱，这个担心现在是多余的了，代码编辑器都支持tab宽度设置了。如果代码缩进的层次太多（比如超过三层），则可能是代码设计上出了问题。

2.5 遵从团队的习惯

这一点是最重要的，一个团队就要有一个团队的样子，不管你的水平有多高，遵循团队的规则是一个程序员的基本素养。如果团队的规则确实不好，大家应该一起完善它。做到这一点，你已经离成为专业程序员这个目标更近一步了，重新做一遍练习吧。随着后面的学习，你就可以真正走进专业程序员这个行列了。

3 谁动了你的隐私

3.1 什么是封装

人有隐私，程序也有隐私。有隐私不是什么坏事，问题是不应该让别人知道自己的隐私，否则可能会对自己造成不小的伤害，甚至会连累相关人物跟着倒霉。程序隐私的暴露，造成的不良影响不一定会泄露个人隐私那么大，但也不容小觑。封装就是要保护好程序的隐私，不该让调用者知道的事，就坚决不要暴露出来。

3.2 为什么要封装

总的来说，封装主要有以下两大好处。

隔离变化。程序的隐私通常是程序最容易变化的部分，比如内部数据结构、内部使用的函数和全局变量等，我们需要把这些代码封装起来，从而让它们的变化不会影响系统的其他部分。

降低复杂度。接口最小化是软件设计的基本原则之一，最小化的接口容易被理解和使用。封装内部实现细节，只暴露最小的接口，会让系统变得简单明了，在一定程度上降低了系统的复杂度。

3.3 如何封装

总的来说，封装主要有以下两大好处（具体影响后面再说）。隔离变化。程序的隐私通常是程序最容易变化的部分，比如内部数据结构、内部使用的函数和全局变量等，我们需要把这些代码封装起来，从而让它们的变化不会影响系统的其他部分。降低复杂度。接口最小化是软件设计的基本原则之一，最小化的接口容易被理解和使用。封装内部实现细节，只暴露最小的接口，会让系统变得简单明了，在一定程度上降低了系统的复杂度。封装过程中应注意一下问题：

内部函数通常实现一些特定的算法（如果具有通用性，应该放到一个公共函数库里），对调用者没有多大用处，但它的暴露会干扰调用者的思路，让系统看起来比实际的复杂。函数名也会污染全局名字空间，造成重名问题。它还会诱导调用者绕过正规接口走捷径，造成不必要的耦合。隐藏内部函数的做法很简单。

(1)在头文件中，只放最少的接口函数的声明。

(2)在C文件中，所有内部函数都加上static关键字。

全局变量始终都会占用内存空间，共享库的全局变量是按页分配的，哪怕只有一个字节的全局变量也占用一个页，这样一来就会造成不必要内存空间浪费。全局变量也会给程序并发造成困难，想把程序从单线程改为多线程将会遇到麻烦。重要的是，如果调用者直接访问这些全局变量，会造成调用者和实现者之间的耦合。

4 Write once, run anywhere（WORA）

4.1 专用链表和通用链表各自的特点与适用范围

专用链表在这里是指该链表的实现和调用耦合在一起，只能被一个调用者使用，而不能单独在其他地方被重用。通用链表则相反，它具有通用性，可以在多处被重复使用。尽管通用链表相对专用链表来说有很多优越之处，不过草率地断定通用链表比专用链表好也是不公正的，因为它们都有自己的优点和适用范围。()

注意在本节中，为了避免读起来拗口，我把双向链表简写成链表了，希望大家不要介意。

专用链表的优点

考虑到链表是最常用的数据结构之一，很多地方都会用到它，实现通用的链表会更有价值。接下来我们要实现一个通用的链表，不过请大家记住，实现通用的链表并不是我们的目标，而是我们学习软件设计方法的手段。前面我许诺过要以简单的数据结构讲述复杂的软件设计方法，链表就是其中的载体之一。

5 拥抱变化

在专用双向链表中，dlist_printf的实现非常简单，如果里面存放的是整数，用 %d 打印，存放的是字符串，用 %s 打印。现在的麻烦在于双向链表是通用的，我们无法预知其中存在的数据类型，也就是说我们要面对数据类型的变化。怎么办呢？初学者可以参考的常用方法有以下几种。

5.1 实现多个函数，需要哪个就用哪个

比如实现dlist_print_int用来打印存放整数的双向链表，dlist_print_string用来打印存放字符串的双向链表等，其他类型都有自己的打印函数。

不过这种做法也有一些缺点。一是每个函数的实现方式类似，会带来大量重复的代码。二是由于数据类型的种类不确定，如果为每种数据类型都实现一个print函数，当要存放新的数据类型时，就不得不修改dlist的实现。

5.2 传入一个附加参数来决定如何打印

比如传入1表示按整数方式打印，传入2表示按字符串方式打印，以此类推。

这种做法比第一种好一点，至少不会造成大量重复的代码。但是同样存在增加新类型时要修改dlist_print函数的问题。

5.3 调用dlist的接口函数获取每一个位置的数据并打印出来

这种方法没有前面两种方法的缺点，而且是一种相当直观的方式。但奇怪的是偏偏很少有人使用这个方法，原因可能有两个：其一是太拘泥于传统的实现方式而没有想到这一种；其二是担心性能问题，因为通过索引取值，每一次都要从头开始定位，其性能开销为O.

其实这种方法是可以接受的，dlist_print函数只是用于辅助测试，我们并不需要太在乎它的性能开销，而且我们很少会在链表中存放成千上万的数据，因此这个函数带来的性能影响根本没有想的那样严重。所以在这里我们要介绍一种新的方法。

dlist_print的大体框架如下。

在上面代码中，我们主要是不知道如何实现 print(iter->data); 这行代码。那么谁知道呢？很明显，调用者知道，因为调用者知道链表里面所存放的数据类型。好吧，那就让调用者来做好了，调用者在调用dlist_print时会提供一个函数给dlist_print来调用，这种回调调用者所提供函数的方法，我们可以称之为回调函数法。

调用者如何提供函数给dlist_print呢？当然是通过函数指针了。变量指针指向的是一块数据，指针指向不同的变量，则取到的是不同的数据。函数指针指向的是一段代码（即函数），指针指向不同的函数，则具有不同的行为。函数指针是实现多态的手段，多态就是隔离变化的秘诀，这里只是一个开端，后面我们会逐步地深入学习。

请看详细实现过程

6 Don’t Repeat Yourself（DRY）

我见过不少任劳任怨的程序员，别人让他做什么他就做什么，不管是不是份内的事，不管是上司要求的还是同事要求的，都来者不拒。别人说需要一个某某功能的函数，他就写一个在他的模块里，日积月累，他的模块就成了一锅“大杂烩”。我亲眼见过有程序员在系统设置和桌面两个模块里，提供很多毫不相干的函数，这些函数会造成不必要的耦合和复杂度。在这里也是一样的，求和与求最大值并不是dlist应该提供的功能，放在dlist里面实现是不应该的。为了能实现这些功能，我们提供一种满足这些需求的机制就好了。热心肠是好的，但一定不要“管得太宽”，否则就费力不讨好了。

7 你的数据放在哪里

对于初学者来说这道题有点难度，很少有人能完全做对。不过没关系，我并不是要出一道难题来难倒大家，而是要刺激大家去思考，以期达到加深学习印象的效果。有了前面两次的经验，我想应该没人会去写一个dlist_to_upper函数，大家都会调用dlist_foreach来实现。不过新的问题又出现了，初学者还是有可能犯以下几种常犯的错误。

7.1 转换大写的方法不对

这是我们在课本里学到的写法，但在工程中是不能这样做的。因为大小写字母在不同语言中的定义是不一样的，“a”是一个字符常量，它的值在任何时候都是97，但在不同语言中，97却不一定代表“a”。我们不能简单地认为在97（a）—122（z）之间的字符就是小写字母，而是应该调用标准C函数islower来判断，同样转换为大写应该调用toupper而不是减去一个常量。

7.2 在双向链表中存放常量字符串，转换时出现段错误。

运行时会出现“Segmentation fault”错误。原因是“It”等字符串是常量，常量是不能被修改的。

7.3 在双向链表中存放的是临时变量，转换后发现所有字符串都一样。

运行时发现打印出几个感叹号。原因是执行dlist_append时没有复制一份，所以在dlist中存放的是同一个地址。而且这个dlist在当前函数返回后，里面保存的数据都无效了，因为这些数据指向的是临时变量。

7.4 存放时复制了数据，但没有释放所分配的内存。

这里看起来工作正常了，但存在内存泄露的bug。strdup调用malloc分配了内存，但没有地方去释放它们。

初学者对内存和指针只有一知半解的认识，常常犯一些连自己都莫名其妙的错误。为了避免这些不必要的错误，今天我们要学习各种数据存放的位置以及它们的特性，让初学者对编程有更进一步的认识。在程序中，数据存放的位置主要有以下几个。

7.5未初始化的全局变量（.bss段）

通俗地讲，bss段被用来存放那些没有初始化或初始化为0的全局变量。它有什么特点呢，让我们先来看看一个小程序的表现。

变量bss_array的大小为4M，而可执行文件的大小只有5K。由此可见，bss类型的全局变量只占运行时的内存空间，而不占用文件空间。

现在大多数操作系统在加载程序时，会把所有的bss全局变量清零。但为了保证程序的可移植性，最好能手工把这些变量初始化为0，这样可以使这些变量都有个确定的初始值。

当然了，作为全局变量，在整个程序的运行周期内，bss数据是一直存在的。

7.6初始化过的全局变量（.bss段）

与bss相比，data段就容易理解多了，看名称就大概能知道它里面存放着数据。当然，如果数据全是0，为了优化考虑，编译器会把它当作bss处理。通俗地讲，data段被用来存放那些初始化为非0值的全局变量。那么它又有什么特点呢，我们还是先来看看一个小程序的表现。

仅仅是把初始化的值改为非0值了，文件就变为4M多。由此可见，data类型的全局变量是既占文件空间，又占用运行时内存空间的。

同样，作为全局变量，在整个程序的运行周期内，data数据也是一直存在的。

7.7 常量数据（.bss段）

rodata的意义同样明显，ro代表read only（只读），rodata就是用来存放常量数据的。关于rodata类型的数据，要注意以下几点。

由此可见，把在运行过程中不会改变的数据设为rodata类型是有好处的。在多个进程间共享，可以大大提高空间利用率，甚至能不占用RAM空间。同时由于rodata在只读的内存页面中是受保护的，任何试图对它进行修改的行为都会被及时发现，这样一来还可以提高程序的稳定性。

字符串会被编译器自动放到rodata中，其他数据要放到rodata中，只需要为其加const关键字修饰即可。

7.8 代码（.bss段）

text段存放代码（如函数）和部分整数常量，它与rodata段很相似，相同的特性我们就不重复了，主要的区别在于text段是可以执行的。

8 栈和堆

8.1栈

栈是用来存放临时变量和函数参数的。将栈作为一种基本数据结构，我并不感到惊讶；将其用来实现函数调用，也是大家司空见惯的作法。直到我试图找到另外一种方式实现递归操作时，我才感叹于栈的巧妙。要实现递归操作，不用栈不是不可能，只是找不出比使用栈更优雅的方式。

通常情况下，栈是向下（低地址）增长的，每向栈中PUSH一个元素，栈顶就向低地址扩展，每从栈中POP一个元素，栈顶就向高地址回退。这里有一些比较有意思的问题：在x86平台上，栈顶寄存器为ESP，那么ESP的值是在PUSH操作之前修改呢，还是在PUSH操作之后修改呢？PUSH ESP这条指令会向栈中存入什么数据呢？据说x86系列CPU中，除了286外，都是先修改ESP，再压栈的。由于286没有CPUID指令，因此有的操作系统会用这种方法检查286的型号。

要注意的是，存放在栈中的数据只在当前函数及下一层函数中有效，一旦函数返回了，这些数据也就自动释放了，继续访问这些变量会造成意想不到的错误。