背景
数据集标签为csv文件格式,有三个字段column_hander = [‘id’, ‘boneage’, ‘male’],需要自己定义数据集。文件较大,做一个数据发生器迭代更新数据集。
实现模板
在Pandas
中,可以使用pandas.read_csv
函数读取CSV文件,并使用iter
函数将DataFrame
转换为迭代器,每次next
时返回一行数据。
import pandas as pd# 读取CSV文件到DataFrame
df = pd.read_csv('your_file.csv')# 将DataFrame转换为迭代器
data_iter = iter(df.itertuples(index=False, name=None))# 使用next获取每行数据
try:while True:row = next(data_iter)print(row)
except StopIteration:print("迭代完成")
数据实践
骨龄数据集boneage-training-dataset.csv
import pandas as pdprint("Reading data...")
csv_dir = r"boneage-training-dataset.csv"
boneage_df = pd.read_csv(csv_dir)# 将DataFrame转换为迭代器data_iter = iter(boneage_df.itertuples(index=False, name=None))# 使用next获取每行数据try:while True:row = next(data_iter)print(row)except StopIteration:print("迭代完成")
Tips
- 使用iter函数将DataFrame转换为迭代器使自定义数据集更加丝滑。