当我开始学习 Python 时,使用加号+来连接字符串非常直观和容易,就像许多其他编程语言(比如Java)一样。
然而,很快我意识到许多开发者似乎更喜欢使用.join()方法而不是+。
在本文中,我将介绍这两种方法之间的区别,以及为什么你不应该使用+。
开篇
作为一个初学者,或者刚从其他使用加号+连接字符串的语言转换过来的人,很容易写出这样的代码:
随着你对 Python 的使用越来越多,你可能会意识到其他人更喜欢使用join()方法,就像这样:
老实说,当我第一次看到上面的方法时,我觉得它不直观,看起来有点丑陋。
连接多个字符串
尽管如此,有一次我需要连接列表中的多个字符串。
最初,我是这样做的:
在这个例子中,我不得不逐个字符串地编写一个循环来连接它们。
此外,结果字符串需要修剪我在开头添加的空格,因为所有的字符串都需要在前面添加一个空格,但第一个字符串不需要。
你可能有其他的解决方案,比如在for循环中添加一个索引,使得索引等于0的字符串不需要添加这个空格。无论如何,你仍然需要这个for循环,并且需要做一些处理来去掉这些空格。
之后,我想起了之前见过的.join()方法,也许这就是我需要使用它的时候了!
多么简单啊!一行代码就完成了所有的工作。由于.join()方法是由一个字符串对象调用的,所以字符串对象将被用来连接列表中的每个字符串,因此你不需要担心开头的空格。
你真的认为这是我们需要使用join()方法而不是+的唯一原因吗?NO
join()方法背后的逻辑
现在,让我们就它们的性能进行比较。我们可以使用 Jupyter Notebook 的魔术方法%timeit来评估它们。
以上显示的性能是基于10万次试验,因此结果非常可信和明显。使用join()方法比使用+来连接列表中的字符串快4倍。
为什么会这样呢?
这是我画的一个概念图,用来演示使用+连接字符串的方法。
这说明了for循环和+运算符做了什么:
-
每次循环,从列表中找到一个字符串。
-
Python执行器解释表达式result += ' ' + s,并为空格' '申请内存地址。
-
然后,执行器意识到空格需要与一个字符串连接,所以它会为字符串s申请内存地址,对于第一个循环来说,s是“Life”。
-
对于每次循环,执行器都需要申请两次内存地址,一次是为了空格,另一次是为了字符串。
-
总共有12次内存分配。
然而,join()方法发生了什么呢?
执行器会统计列表中有多少个字符串,这里有6个。
这意味着用于连接列表中的字符串的字符串将需要重复5次(6-1=5)。
它知道总共需要11个内存空间,所以所有这些都将一次性申请并提前分配。
将字符串按顺序放置,返回结果。
因此,显而易见的主要差异在于内存分配的次数,这是性能改进的主要原因。
想象一下,使用join()方法将6个字符串连接在一起已经快了4倍。如果我们要连接很多很多字符串呢?这将会产生更大的差异!
总结
在这篇简短的文章中,我比较了在 Python 中使用+运算符和join()方法连接字符串时的差异。显然,由于性能原因,更倾向于使用join()方法。