数据分析必备：一步步教你如何用Pandas做数据分析（10）

1、Pandas 文本处理

Pandas 文本处理操作实例
在本章中，我们将使用基本的Series / Index讨论字符串操作。在随后的章节中，我们将学习如何在DataFrame上应用这些字符串函数。
Pandas提供了一组字符串函数，可以轻松地对字符串数据进行操作。最重要的是，这些函数忽略（或排除）缺少的/ NaN值。
几乎所有这些方法都可用于Python字符串函数（请参阅： https://docs.python.org/3/library/stdtypes.html#string-methods)。因此，将Series对象转换为String对象，然后执行该操作。
我们看看每个操作如何执行。
在这里插入图片描述

我们来创建一个Series，看看以上所有功能如何工作。

import pandas as pd
import numpy as np
s = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t', np.nan, '1234','SteveSmith'])
print(s)

运行结果：

0             Tom
1    William Rick
2            John
3         Alber@t
4             NaN
5            1234
6      SteveSmith
dtype: object

1.1、lower()

import pandas as pd
import numpy as np
s = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t', np.nan, '1234', 'SteveSmith'])
print(s.str.lower())

运行结果：

0             tom
1    william rick
2            john
3         alber@t
4             NaN
5            1234
6      stevesmith
dtype: object

1.2、upper()

import pandas as pd
import numpy as np
s = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t', np.nan, '1234','SteveSmith'])
print(s.str.upper())

运行结果：

0             TOM
1    WILLIAM RICK
2            JOHN
3         ALBER@T
4             NaN
5            1234
6      STEVESMITH
dtype: object

1.3、len()

 import pandas as pdimport numpy as nps = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t', np.nan, '1234','SteveSmith'])print（s.str.len()）

运行结果：

 0 3.01 12.02 4.03 7.04 NaN5 4.06 10.0dtype: float64

1.4、strip()

 import pandas as pdimport numpy as nps = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])print sprint ("After Stripping:")print（s.str.strip()）

运行结果：

0 Tom1 William Rick2 John3 Alber@tdtype: objectAfter Stripping:0 Tom1 William Rick2 John3 Alber@tdtype: object

1.5、split(pattern)

 import pandas as pdimport numpy as nps = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])print sprint ("Split Pattern:")print（s.str.split(' ')）

运行结果：

 0 Tom1 William Rick2 John3 Alber@tdtype: objectSplit Pattern:0 [Tom, , , , , , , , , , ]1 [, , , , , William, Rick]2 [John]3 [Alber@t]dtype: object

1.6、cat(sep=pattern)

import pandas as pdimport numpy as nps = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])print（s.str.cat(sep='_')）

运行结果：

Tom _ William Rick_John_Alber@t

1.7、get_dummies()

 import pandas as pdimport numpy as nps = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])print（s.str.get_dummies()）

运行结果：

   William Rick   Alber@t   John   Tom
0             0         0      0     1
1             1         0      0     0
2             0         0      1     0
3             0         1      0     0

1.8、contains ()

 import pandas as pds = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])print（s.str.contains(' ')）

运行结果：

 0  True1  True2  False3  Falsedtype: bool

1.9、replace(a,b)

 import pandas as pds = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])print sprint ("After replacing @ with $:")print（s.str.replace('@','))

运行结果：

 0 Tom1 William Rick2 John3 Alber@tdtype: objectAfter replacing @ with $:0 Tom1 William Rick2 John3 Alber$tdtype: object

1.10、repeat(value)

 import pandas as pds = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])print（s.str.repeat(2)）

运行结果：

0   Tom            Tom
1   William Rick   William Rick
2                  JohnJohn
3                  Alber@tAlber@t
dtype: object

1.11、count(pattern)

import pandas as pds = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])print ("每个字符串中的“ m”数:")print（s.str.count('m')）

运行结果：

 每个字符串中的“ m”数:0 11 12 03 0

1.12、startswith(pattern)

import pandas as pds = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])print ("Strings that start with 'T':")print（s.str. startswith ('T')）

运行结果：

0  True1  False2  False3  Falsedtype: bool

1.13、endswith(pattern)

 import pandas as pds = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])print ("Strings that end with 't':")print（s.str.endswith('t')）

运行结果：

 Strings that end with 't':0  False1  False2  False3  Truedtype: bool

1.14、 find(pattern)

 import pandas as pds = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])print（s.str.find('e')）

运行结果：

 0 -11 -12 -13 3dtype: int64

“ -1”表示元素中没有匹配到。

1.15 、findall(pattern)

 import pandas as pds = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])print（s.str.findall('e')）

运行结果：

 0 []1 []2 []3 [e]dtype: object

空列表（[]）表示元素中没有匹配到

1.16、swapcase()

 import pandas as pds = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t'])print（s.str.swapcase()）

运行结果：

 0 tOM1 wILLIAM rICK2 jOHN3 aLBER@Tdtype: object

1.17、islower()

 import pandas as pds = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t'])print（s.str.islower()）

运行结果：

0  False1  False2  False3  Falsedtype: bool

1.18、isupper()

 import pandas as pds = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t'])print（s.str.isupper()）

运行结果：

0  False1  False2  False3  Falsedtype: bool

1.19、isnumeric()

 import pandas as pds = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t'])print（s.str.isnumeric()）

运行结果：

 0  False1  False2  False3  Falsedtype: bool

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/18013.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！