常用数据处理方式

文章目录

  • 一、不同格式数据读取及转换
  • split data into X and y
  • 二、数据预处理
    • 1、去重
    • 2、删除某一列
    • 3、删除两行
    • 4、date转字符串
    • 5、修改类型
    • 6、修改日期类型
    • 7、修改字段名
    • 8、加年月
    • 9、 删除字段
    • 10、 查看数据中顶部10%的数据
    • 11、设置索引
    • 12、判断空值
    • 13、排序
    • 14、 模糊查询
    • 15、修改字段类型
    • 16、修改数据
    • 17、保存数据库
    • 18、生成日期
    • 19、查看顶部10%数据分布
  • 三、数据可视化
    • 1、折线图
    • 2、散点图
  • 四、虚拟环境配置与安装
    • 1、 创建虚拟环境
    • 2、 进入虚拟环境
    • 3、退出虚拟环境
    • 4、 删除虚拟环境
    • 5、在jupyter notebook中添加虚拟环境
    • 6、在jupyter notebook里面添加虚拟环境
      • cmd进入虚拟环境(torch_env)
      • pip install ipykernel ipython
      • python kernel install --user --name torch_env
      • 再次进入jupyter notebook
      • 在jupyter 中删除虚拟环境
    • 7、pip install 镜像安装
  • 五 、其他
    • 1、nohup command &
    • 2、找到进程PID(关闭在前面后台执行的进程的步骤,首先找到其进程PID)
    • 3、kill掉进程

一、不同格式数据读取及转换

dataset = pd.read_csv('SNP.csv',encoding='gbk',index_col=0)

使用索引方式,返回结果为DataFrame格式

X_features = dataset.iloc[:,1:2050
y_label = dataset.iloc[:, 0]

将数据集分为特征矩阵X和目标变量y,返回结果为numpy格式

X = dataset.drop('LABEL', axis=1)
y = dataset['LABEL']

另外一种将数据转化为numpy的格式为

features = [x for x in dataset.columns if x not in ['LABEL']]
# split data into X and y
Xf = dataset[features].values
yf = dataset[['LABEL']].values
feature_names=list(features)

split data into X and y

Xf = dataset[features].values
yf = dataset[[‘LABEL’]].values
feature_names=list(features)

二、数据预处理

1、去重

df = df.drop_duplicates().reset_index(drop=True)

2、删除某一列

df2=df2.drop(cols,axis=1) 

3、删除两行

df.drop(index=[0, 1])

4、date转字符串

from datetime import datetime, date, time
d = date.fromisoformat('2018-09-22')
t = time.fromisoformat('16:28:22')
dt = datetime.fromisoformat('2018-09-22')sdate = pd.to_datetime(ds).strftime('%Y-%m-%d')
st = "2019-01-20 00:00:00"
dt = datetime.datetime.strptime(st, '%Y-%m-%d %H:%M:%S')
st = "2019-01-20"
dt = datetime.datetime.strptime(st, '%Y-%m-%d')
start=pd.to_datetime('2017-01-01')

5、修改类型

train['tf_status'] = t1['tf_status'].astype(np.int64)

6、修改日期类型

df['ds'] = pd.to_datetime(df['ds'])

7、修改字段名

df.rename(columns={'#studentid':'studentid'}, inplace = True)

8、加年月

df['year']=df.datetime.apply(lambda x: x.year)
df['month'] = df.datetime.apply(lambda x: x.month)
df['year'] = df['year'].astype(np.int64)
df['month'] = df['month'].astype(np.int64)

9、 删除字段

df.drop([‘#id’], axis=1, inplace=True)

10、 查看数据中顶部10%的数据

print(df.weeks.quantile(np.arange(.9,1,.01)))

11、设置索引

df = df.set_index([‘hetongdetailid’])

12、判断空值

print(“在 cat 列中总共有 %d 个空值.” % df[‘cat’].isnull().sum())

print(“在 review 列中总共有 %d 个空值.” % df[‘review’].isnull().sum())

df[df.isnull().values==True]

df = df[pd.notnull(df[‘review’])]

13、排序

df.sort_values(by=“x1”,ascending= False)

14、 模糊查询

df_remark_tf[df_remark_tf[“content_method”].str.contains(keystring)]

15、修改字段类型

df_appraise[‘deptid’] = df_appraise[‘deptid’].astype(np.int64)

16、修改数据

(https://blog.csdn.net/zhangchuang601/article/details/79583551)
df.loc[1,[‘name’,‘age’]] = [‘bb’,11]
df.iloc[1,2] = 19#修改某一无
df.loc[df[df.htid.isin(ids)].index,“y”]=1

17、保存数据库

df.to_sql(name=‘predict’,con=mysql_engine,if_exists = ‘replace’)

18、生成日期

dt = datetime.datetime(year, month, 1)

19、查看顶部10%数据分布

print(movie_rating_count[‘totalRatingCount’].quantile(np.arange(.9,1,.01)))

三、数据可视化

#-------plotly.express-------------------------

1、折线图

import plotly.express as px

fig = px.line(df, x=‘date’, y=‘y_true’,
labels={‘date’:‘日期’, ‘y_true’:‘话务量’},
markers=True)
fig.update_xaxes(tickformat = “%Y-%m-%d”, hoverformat = “%Y-%m-%d”)
fig.update_layout(title_text=“热线部门日业务量趋势图”, title_x=0.5)
fig.update_traces(marker=dict(size=3)) #控制点的大小
fig.show()

2、散点图

fig = px.scatter(df, x=“真实订单量”, y=“真实金额”,hover_data=[‘did’,‘日期’])
fig.update_traces(marker=dict(size=4)) #点的大小
fig.show()

四、虚拟环境配置与安装

------------------更新pip命令----------------------------------------
python -m pip install --upgrade pip

如果升级失败,明明执行的就是pip升级命令,但是最后一句提示用一样的代码升级。其实是权限问题,小伙伴们按下面的代码升级即可!!!在代码后面加上 --user表示信任:

python-m pip install–upgrade pip --user

-------------搭建虚拟环境-----------------------------

1、 创建虚拟环境

conda create --name yourenvname python=3.8

2、 进入虚拟环境

conda activate yourenvname

3、退出虚拟环境

conda deactivate

4、 删除虚拟环境

conda remove -n py39 --all

5、在jupyter notebook中添加虚拟环境

python -m ipykernel install --user --name yourenvname --display-name “display-name”

6、在jupyter notebook里面添加虚拟环境

cmd进入虚拟环境(torch_env)

activate torch_env

pip install ipykernel ipython

回车

python kernel install --user --name torch_env

回车

再次进入jupyter notebook

右上角,new,即可选择需要的虚拟环境。

5.另外,如果需要在指定文件夹中打开jupyter notebook,只需要打开文件夹所在位置,点击搜索框左边的位置框,输入cmd,再输入jupyter notebook,即可将路径设为自己需要的。

在jupyter 中删除虚拟环境

jupyter kernelspec uninstall myenv

7、pip install 镜像安装

pip install package_name -i https://pypi.tuna.tsinghua.edu.cn/simple

五 、其他


1、nohup command &

例如 nohup jupyter notebook &

2、找到进程PID(关闭在前面后台执行的进程的步骤,首先找到其进程PID)

ps -ef | grep xxxx
ps -ef 查看本机所有的进程;grep xxxx代表过滤找到条件xxxx的项目

3、kill掉进程

kill -9 具体的PID

-------------打开指定端口-------------------------------------
firewall-cmd --zone=public --add-port=8504/tcp --permanent
firewall-cmd --reload

netstat -ntlp //查看当前所有tcp端口·
netstat -ntulp |grep 8888 //查看所有1935端口使用情况

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/23367.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux部署springboot项目中文乱码

问题描述: 将springboot项目打成jar包部署到linux服务器发现中文乱码 解决办法: java -Dfile.encodingutf-8 -jar xxxxx.jar转载至:https://blog.csdn.net/qq_39706515/article/details/119807632

Java---使用lombok简化实体类的编写----不要再写getter+sertter方法了

目录 使用lombok简化实体类的编写 首先&#xff1a; 加入lombok依赖&#xff1a; 然后 加上一个注解&#xff1a;Data 使用lombok简化实体类的编写 首先&#xff1a; 加入lombok依赖&#xff1a; <dependency><groupId>org.projectlombok</groupId>…

【问题随记】

ubuntu 14.04源更新(sources.list) deb http://mirrors.aliyun.com/ubuntu/ trusty main restricted universe multiverse deb http://mirrors.aliyun.com/ubuntu/ trusty-security main restricted universe multiverse deb http://mirrors.aliyun.com/ubuntu/ trusty-update…

clickhouse查询缓存

为了实现最佳性能&#xff0c;数据库需要优化其内部数据存储和处理管道的每一步。但是数据库执行的最好的工作是根本没有完成的工作&#xff01;缓存是一种特别流行的技术&#xff0c;它通过存储早期计算的结果或远程数据来避免不必要的工作&#xff0c;而访问这些数据的成本往…

软件测试需求分析的常用方法

软件测试需求分析时&#xff0c;应要求产品人员对需求进行讲解&#xff0c;并使用相对应的方法进行科学分析&#xff0c;否则无法保障软件测试的完整性和科学性&#xff0c;从而造成在项目中后期Bug频出、风险增大等问题。 而常用的测试需求分析的方法&#xff1a; 1、功能分解…

Protobuf

Protobuf&#xff08;Googles Protocol Buffers&#xff09;是一种灵活、高效、自动化的二进制序列化格式&#xff0c;它可以用于数据存储、通信协议等场景。相比其他序列化格式&#xff08;如JSON、XML等&#xff09;&#xff0c;Protobuf在序列化和反序列化速度和数据大小方面…

解决 MySQL 删除数据后,ID 自增不连续问题

修复前 除了部分数据&#xff0c;导致后续新增的数据&#xff0c;ID 自增不连续 解决方案 执行下方 SQL 语句即可修复此问题&#xff0c;mbs_order为需要修复的表名 SET i0; UPDATE mbs_order SET id(i:i1); ALTER TABLE mbs_order AUTO_INCREMENT0;

进程与线程、线程创建、线程周期、多线程安全和线程池(ThreadPoolExecutor)

目录 进程与线程线程和进程的区别是什么&#xff1f;线程分两种&#xff1a;用户线程和守护线程线程创建四种方式run()和start()方法区别&#xff1a;为什么调用 start() 方法时会执行 run() 方法&#xff0c;为什么不能直接调用 run() 方法&#xff1f;Runnable接口和Callable…

该选择WPF 还是 Winform?

WPF和WinForms都是.NET平台下的桌面应用程序开发框架&#xff0c;它们各有特点&#xff0c;适用于不同的场景和需求。下面是对WPF和WinForms的一些比较和优劣势&#xff1a;WPF&#xff08;Windows Presentation Foundation&#xff09;&#xff1a;WPF具有强大的图形渲染能力&…

刷题笔记 day7

力扣 209 长度最小的子数组 解法&#xff1a;滑动指针&#xff08;对同向双指针区间内的数据处理&#xff09; 1&#xff09;先初始化 两个指针 left &#xff0c;right。 2&#xff09;右移指针right的同时使用sum记录指针right处的值&#xff0c;并判断sum的值是否满足要求&…

在CSDN学Golang场景化解决方案(分布式日志系统)

一&#xff0c;传统 elk 解决方案及其弊端 传统ELK&#xff08;Elasticsearch Logstash Kibana&#xff09;方案是一种流行的分布式日志系统解决方案&#xff0c;但也存在一些弊端&#xff1a; 依赖性&#xff1a;ELK使用Java编写&#xff0c;需要安装JVM&#xff0c;并且还…

iOS--Runloop

Runloop概述 一般来说&#xff0c;一个线程一次只能执行一个任务&#xff0c;执行完成后线程就会退出。就比如之前学OC时使用的命令行程序&#xff0c;执行完程序就结束了。 而runloop目的就是使线程在执行完一次代码之后不会结束程序&#xff0c;而是使该线程处于一种休眠的状…

更新页面无法回显

需求与问题&#xff1a; 在菜品管理开发中&#xff0c;我需要修改菜品&#xff0c;第一步是回显页面&#xff0c;但在我再三确认代码无误的情况下依旧无法回显内容 问题发现与解决&#xff1a; 经过排查&#xff0c;我发现我的DishDTO内容如下&#xff1a; Data public clas…

【C++】类和对象-多态

1.多态的基本语法 代码 #include <iostream> using namespace std; /******************************************/ class Animal { public://speak函数就是虚函数//函数前面加上virtual关键字&#xff0c;变成虚函数&#xff0c;//那么编译器在编译的时候就不能确定函数…

【黑马头条之kafka及异步通知文章上下架】

本笔记内容为黑马头条项目的kafka及异步通知文章上下架部分 目录 一、kafka概述 二、kafka安装配置 三、kafka入门 四、kafka高可用设计 1、集群 2、备份机制(Replication&#xff09; 五、kafka生产者详解 1、发送类型 2、参数详解 六、kafka消费者详解 1、消费者…

助力工业物联网,工业大数据之服务域:油站主题分析【二十六】

文章目录 07&#xff1a;服务域&#xff1a;油站主题分析08&#xff1a;服务域&#xff1a;油站主题实现 07&#xff1a;服务域&#xff1a;油站主题分析 目标&#xff1a;掌握油站主题的需求分析 路径 step1&#xff1a;需求step2&#xff1a;分析 实施 需求&#xff1a;统计…

Flink - sink算子

水善利万物而不争&#xff0c;处众人之所恶&#xff0c;故几于道&#x1f4a6; 文章目录 1. Kafka_Sink 2. Kafka_Sink - 自定义序列化器 3. Redis_Sink_String 4. Redis_Sink_list 5. Redis_Sink_set 6. Redis_Sink_hash 7. 有界流数据写入到ES 8. 无界流数据写入到ES 9. 自定…

小程序自定义tabBar+Vant weapp

1.构建npm&#xff0c;安装Vant weapp&#xff1a; 1&#xff09;根目录下 &#xff0c;初始化生成依赖文件package.json npm init -y 2&#xff09;安装vant # 通过 npm 安装 npm i vant/weapp -S --production 3&#xff09;修改 package.json 文件 开发者工具创建的项…

51单片机(普中HC6800-EM3 V3.0)实验例程软件分析 实验四 蜂鸣器

目录 前言 一、原理图及知识点介绍 1.1、蜂鸣器原理图&#xff1a; 二、代码分析 前言 第一个实验:51单片机&#xff08;普中HC6800-EM3 V3.0&#xff09;实验例程软件分析 实验一 点亮第一个LED_ManGo CHEN的博客-CSDN博客 第二个实验:51单片机&#xff08;普中HC6800-EM…

深度学习实战46-基于CNN的遥感卫星地图智能分类,模型训练与预测

大家好,我是微学AI,今天给大家介绍一下深度学习实战46-基于CNN的遥感卫星地图智能分类,模型训练与预测。随着遥感技术和卫星图像获取能力的快速发展,卫星图像分类任务成为了计算机视觉研究中一个重要的挑战。为了促进这一领域的研究进展,EuroSAT数据集应运而生。本文将详细…