文章目录
- 读取数据
- 1. 读取文本文件
- 2.pandas库读取数据
- 3.读取JSON文件
- 数据分隔方法
- 1.split()
- 2.re.split()
- 3.splitlines()
读取数据
1. 读取文本文件
读取文本文件:可以使用内置的open()函数来打开文本文件,并使用read()或readlines()方法读取文件内容。
# 读取整个文本文件内容
with open('file.txt', 'r') as file:data = file.read()print(data)# 逐行读取文本文件内容
with open('file.txt', 'r') as file:for line in file:print(line)
2.pandas库读取数据
使用pandas库读取数据:pandas库提供了各种用于读取不同数据格式的函数,如read_csv()、read_excel()等。
import pandas as pd# 从CSV文件中读取数据
df = pd.read_csv('data.csv')
print(df)# 从Excel文件中读取数据
df = pd.read_excel('data.xlsx')
print(df)
3.读取JSON文件
读取JSON文件:可以使用内置的json库来读取JSON格式的文件。
import json# 读取JSON文件
with open('data.json') as file:data = json.load(file)print(data)
数据分隔方法
1.split()
字符串的split()方法:这是最常用的数据分隔方法,可以根据指定的分隔符将一个字符串拆分成子串,并返回一个存储子串的列表。
text = "apple,banana,orange"
fruits = text.split(',')
print(fruits) # 输出:['apple', 'banana', 'orange']
2.re.split()
re模块的split()方法:re模块(正则表达式模块)提供了一个split()方法,可以使用正则表达式来进行更灵活的分隔。
import re
text = "apple banana orange"
words = re.split(r'\s+', text)
print(words) # 输出:['apple', 'banana', 'orange']
3.splitlines()
是一个字符串方法,用于将字符串按行拆分成一个列表。
.splitlines() 是 Python 字符串对象的一个方法,用于按行拆分字符串,并返回包含每行作为元素的列表。这个方法在处理包含换行符的多行字符串时特别有用。具体来说,.splitlines() 方法根据字符串中的换行符(\n)、回车符(\r)或者回车后跟随换行符(\r\n)来分隔字符串。
text = "apple\nbanana\norange"
lines = text.splitlines()
print(lines) # 输出:['apple', 'banana', 'orange']
在上述示例中,.splitlines() 方法将文本字符串按行拆分,每行作为列表的一个元素,并将结果存储在名为 lines 的列表中。
text = "apple,banana,orange\ngrape,kiwi,mango\nstrawberry,blueberry,raspberry"
lines = text.splitlines()
print(lines)
#['apple,banana,orange', 'grape,kiwi,mango', 'strawberry,blueberry,raspberry']data = [line.split(',') for line in lines]
print(data)
#[['apple', 'banana', 'orange'], ['grape', 'kiwi', 'mango'], ['strawberry', 'blueberry', 'raspberry']]import pandas as pd
df = pd.DataFrame(data)
print(df)0 1 2
0 apple banana orange
1 grape kiwi mango
2 strawberry blueberry raspberry字符串的partition()方法:这是用于根据指定的分隔符将字符串拆分成三部分的方法,返回一个包含三个元素的元组,第一个是分隔符前的部分,第二个是分隔符本身,第三个是分隔符后的部分。```python
text = "apple=banana=orange"
parts = text.partition('=')
print(parts) # 输出:('apple', '=', 'banana=orange')