基于python的大数据分析与应用环境的搭建

一、主要目的:

初步熟悉Python数据分析工具,通过查阅相关说明文档掌握Numpy、Scipy和Pandas包的基本使用方法。对于不同形式的源数据文件,能够基于python开发环境正确的完成数据导入。

二、主要内容:

1、Python开发环境安装以及数据分析包的加载

(1)Anaconda安装过程

(2)相关第三方库的加载 如 爬虫scrapy包。

提示:

① Anaconda下载地址:

Free Download | Anaconda

② Anaconda安装参考:

https://blog.csdn.net/weixin_37766087/article/details/100742198

2、通过简要的实例代码熟悉开发环境以及数据分析包的基本功能

(1)代码实例展示Spyder的基本功能

例如:代码提示、变量浏览、图形查看

  1. 代码实例展示Pandas 中的数据结构

① Series:一维数组系列,也称序列

② DataFrame:二维表格型数据结构。可以将DataFrame理解为Series的容器。

  1. 数据的导入与导出
  1. 导入不同形式的文件,例如.txt/.csv/.excel
  2. 导出到csv/excel
  3. 导入导出MySql库[附选]

三、实验过程:

1.Anaconda安装过程

已安装

2.Spyder

① Series:一维数组系列,也称序列

DataFrame:二维表格型数据结构。

导入不同形式的文件,例如.txt/.csv/.excel
导入excle
  1. df = pd.read_excel(io='自己的文件路径',index_col='序号')  
  2. print(df)  

导出到csv/excel

Excel:

  1. writer = pd.ExcelWriter('age-name.xlsx')  
  2. df.to_excel(writer)  
  3. writer.save()  

CSV:

  1. csv_data = df.to_csv("自己的文件路径",sep='|')  

导入导出MySql库[附选]
  1. 从mysql中导出dataframe对象
  1. conn = pymysql.connect(host="localhost",port=3306,user="root",  
  2.  password="密码已经被和谐",database="school",charset="utf8")  
  3. sql = "select * from student;"  
  4. df = pd.read_sql(sql,conn)  
  5. print(df) 
  6. 导入dataframe数据到mysql
  • from sqlalchemy import create_engine  
  • engine = create_engine("mysql+pymysql://root:密码已被和谐@localhost:3306/school?charset=utf8")  
  • data = [['小明',14],['东东',18],['奥图码',53]]  
  • df = pd.DataFrame(data,columns=['姓名','年龄'])  
  • df.to_sql("try", engine, schema="try")  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/218075.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

阿里云国际跨境直播解决方案,视频AI创新营销模式丰富直播场景

据第三方咨询公司iiMedia Research预测,2017-2020年,视频直播行业一直处于高速发展阶段。2020年,视频直播行业市场收入超1万亿元,累计覆盖用户5.26亿。 视频直播的应用范围已从视频娱乐、电子商务等泛互联网行业扩展到在线教育、…

分布式数据库 GaiaDB-X 金融应用实践

1 银行新一代核心系统建设背景及架构 在银行的 IT 建设历程中,尤其是中大行,大多都基于大型机和小型机来构建核心系统。随着银行业务的快速发展,这样的系统对业务的支持越来越举步维艰,主要体现在以下四个方面: 首先…

[C++] 继承

文章目录 1、继承的概念及定义1.1 继承的概念1.2 继承的定义1.2.1 定义格式1.2.2 继承关系和访问限定符1.2.3 继承基类成员访问方式的变化 2、基类和派生类对象赋值转换3、继承中的作用域4、派生类的默认成员函数5、继承与友元6、继承与静态成员7、菱形继承,菱形虚拟…

centOS 64位安装node_exporter

下载node_exporter 我是在这里https://prometheus.io/download/#node_exporter下载到自己电脑,然后使用rz命令传到linux上的。 关于rz命令的使用可看我的这个文章linux上传下载文件lrzsz 解压 tar -xzf node_exporter-1.7.0.linux-amd64.tar.gz将执行文件移动到b…

数据中心到底是如何工作的?

数字时代的数据中心,就如同网络世界的心脏,它的鼓动关系到整个网络生态的运转。但这个复杂而庞大的数据枢纽背后隐藏着怎样的精密机制,是许多人颇感好奇的谜。 数字时代的数据中心,就如同网络世界的心脏,它的鼓动关系…

Python爬虫实战 | 爬取拼多多商品的详情价格SKU数据

本案例将为大家演示如何爬取拼多多商品的详情数据。目的是爬取大量的商品以及商品的评论,所以在程序设计上要考虑到该爬虫的高并发以及持久化存储。爬虫工具选用了Scrapy框架,以满足爬虫的高并发请求任务;持久化存储用了MongoDB,对…

Epicypher—CUTANA™ ChIC/CUTRUN Kit

核酸酶靶向切割和释放 (CUT&RUN)技术是由Steven henikoff博士团队开发的一种染色质图谱分析方法,基于Ulrich Laemmli博士的染色质免疫切割技术 (ChIC),融合蛋白A与微球菌核酸酶 (pA-MNase),选择性原位切割与抗体结合的染色质。在CUT&…

哪些因素影响转本复习效率?

一、精简资料 很多同学会搜集大量资料进行复习,在一轮轮复习之后你会很容易发现自己重复复习了大量内容和试题。 还有些同学将自己有限的精力和时间投入庞大的题海中,花费了大量的时间,但得到的提升不多。 同学们在脑海里一定要有清晰的认…

linux串口数据丢失--中断绑定CPU优化

问题现象 机器在户外测试时, 出现 轮速记 丢失的现象 小概率出现 50Hz丢失1~2帧极低概率出现 0.1~0.3秒内没有底盘数据 此问题导致slam定位漂, 需要优化处理. 验证与测试 问题1: 底盘串口 一个数据帧(head–data–crc) 被分片2~3报文 解决方法: 检测到head之后, 解析data…

MYSQL练题笔记-子查询-部门工资前三高的所有员工

这个系列的最后一个,也是所有的50题的第一个困难题,看着就有点吓人啧啧啧。 一、题目相关内容 1)相关的表和题目 2)帮助理解题目的示例,提供返回结果的格式 二、自己初步的理解 将每个部门分组,然后用ra…

搬运机器人行业分析:中国市场销量已达到6.3万台左右

近年来,随着我国人口红利的逐渐消失,企业用工成本不断上涨,各种工业机器人获得了广泛的应用。焊接、装配、切割、分拣、搬运等机器人的出现,不仅通过“机器换人”解放了企业和行业的生产力,更推动了产业发展由劳动密集…

Flink 有状态流式处理

传统批次处理方法 【1】持续收取数据(kafka等),以window时间作为划分,划分一个一个的批次档案(按照时间或者大小等); 【2】周期性执行批次运算(Spark/Stom等)&#xff1b…

MongoDB表的主键可以重复?!MongoDB的坑

MongoDB表的主键可以重复?! 眼见为实? 碰到一个奇怪的现象, MongoDB的一个表居然有两个一样的_id值! 再次提交时,是会报主键冲突的。那上图,为什么会有两个一样的_id呢? 将它们的…

C++刷题 -- 哈希表

C刷题 – 哈希表 文章目录 C刷题 -- 哈希表1.两数之和2.四数相加II3.三数之和(重点) 当我们需要查询一个元素是否出现过,或者一个元素是否在集合里的时候,就要第一时间想到哈希法; 1.两数之和 https://leetcode.cn/problems/two…

深入源码解析ArrayList:探秘Java动态数组的机制与性能

文章目录 一、 简介ArrayList1.1 介绍ArrayList的基本概念和作用1.2 与数组的区别和优势 二、 内部实现2.1 数据结构:动态数组2.2 添加元素:add()方法的实现原理2.3 扩容机制:ensureCapacity()方法的实现原理 三、 常见操作分析3.1 获取元素&…

0基础学习VR全景平台篇第127篇:什么是VR全景/720全景漫游?

“全景”作为一种表现宽阔视野的手法,在很久之前就得到了普遍的认同。北宋年间,由张择端绘制的《清明上河图》就是一幅著名的全景画。摄影术出现后,全景摄影也随之而生。 到今天,全景拍摄不再被专业摄影师所独享,广大…

C#的线程技术及操作(Thread类)

目录 一、线程基础 1.单线程 2.多线程 (1)多线程的缺点 (2)多线程的缺点 二、线程操作之Thread类 1. Thread类的相关方法和属性 (1)示例源码 (2)生成效果 2.创建线程Star…

代码随想录算法训练营 | day50 动态规划 123.买卖股票的最佳时机Ⅲ,188.买卖股票的最佳时机Ⅳ

刷题 123.买卖股票的最佳时机Ⅲ 题目链接 | 文章讲解 | 视频讲解 题目:给定一个数组,它的第 i 个元素是一支给定的股票在第 i 天的价格。 设计一个算法来计算你所能获取的最大利润。你最多可以完成 两笔 交易。 注意:你不能同时参与多笔…

获取CAD图元名及图元信息(circle为例,用于选择集,对应dxf组码)

在CAD编程中往往需要用选择集,我们往往不知道相应图元对应的名称具体名字。比如我想选择所有的圆,ftype0,fdata应该是什么呢?是circle,acdbcircle,还是acadcircle? circle是一个对象,circle的vba类名为Ac…

SAP 散装物料简介

散装物料(Bulk Material),也叫做间接物料(Indirect Material),是一般企业在库存管理时常见的一种物料形式。散装物料专指那些价值小、消耗量大、消耗率高的物料件。这些物料组件同样服务于企业的生产活动,并且在企业的工作中心中被生产活动直接消耗(如螺丝钉、润滑油、…