- hive表的特征选择,不同表之间的join
- 训练数据、测试数据的分开保存
- 使用pandas进行数据处理
- 显示所有列:pd.set_option('display.max_columns', None)
- 显示所有行:pd.set_option('display.max_rows', None)
- 单列运算:df['col2'] = df['col1'].map(lambda x: x**2)
- 多列运算:df['col3'] = df.apply(lambda x: x['col1'] + 2 * x['col2'], axis=1)
- 修改列类型:df[[column]] = df[[column]].astype(type)
- 保存成csv: df2.to_csv(path_or_buf=r'D:workdatasetdata.csv', sep=', ', na_rep='', float_format=None, columns=None,header=True, index=True)
def square(x):return (x ** 2)
df['col2'] = df['col1'].map(square)
dataframe某列进行MD5加密处理很方便
def md5(x):md5_val = has