- hive表的特征选择,不同表之间的join
- 训练数据、测试数据的分开保存
- 使用pandas进行数据处理
- 显示所有列:pd.set_option('display.max_columns', None)
- 显示所有行:pd.set_option('display.max_rows', None)
- 单列运算:df['col2'] = df['col1'].map(lambda x: x**2)
- 多列运算:df['col3'] = df.apply(lambda x: x['col1'] + 2 * x['col2'], axis=1)
- 修改列类型:df[[column]] = df[[column]].astype(type)
- 保存成csv: df2.to_csv(path_or_buf=r'D:workdatasetdata.csv', sep=', ', na_rep='', float_format=None, columns=None,header=True, index=True)
def
dataframe某列进行MD5加密处理很方便
def
DataFrame的columns重命名
- 部分重命名columns = dict,使用字典类型的数据对列进行重命名
- 全部重命名 columns = new_columns,新列名的长度必须与旧列名一致
- 读取文件的时候重命名 names = new_col,可以在读取文件的时候,给出新列名
dataframe
Pandas 过滤dataframe中包含特定字符串的数据
df
0 0faf4671f767a615b12e9666b84cea9c
1 1e9b02f11ccb70591b99557be06dd809
2 d52f407e4f0f8f7cbbc764292533f5ce
3 d249ba2af4ce5c9741c9722d2f4f39aa
4 43184e73dd23c8c69acfe870368ca2c7
Name: device_id, dtype: object
247 95858ab4a194aecdd80304fbf5a93101
302 6d3e505235b9023c4a2f965af1750001
728 78497f37278a11edc1c75e80f4d61a01
814 949be0d48d7fa19dee60206eceb19d01
1750 fc6fb233bebed6fc6ca5b3bf103f1701
Name: device_id, dtype: object
Process finished with exit code 0
print