python数据展示库_收藏!盘点很实用的数据科学Python库

数据科学是一门研究数据并从中挖掘信息的学科。它不要求自创或学习新的算法,只需要知道怎么样研究数据并解决问题。这一过程的关键点之一就在于使用合适的库。本文概述了数据科学中常用的、并且有一定重要性的库。在进入正题之前,本文先介绍了解决数据科学问题的5个基本步骤。这些步骤是笔者自己总结撰写的,并无对错之分。步骤的正确与否取决于数据的研究方法。

数据科学的五个重要步骤包括:

1.获取数据

2.清理数据

3.探索数据

4.构建数据

5.呈现数据

这五个步骤只是经验之谈,并不是什么标准答案。但是如果仔细思考,就会发现这五个步骤是非常合理的。

1. 获取数据

获取数据是解决数据科学问题的关键一步。你需要提出一个问题并最终解决它。这取决于你是如何以及从何处获取数据的。获取数据较好的方法就是从Kaggle上下载或从网络上抓取。

当然,你也可以采用适当的方法和工具从网络上抓取数据。

网络数据抓取最重要、最常用的库包括:

1.Beautiful Soup

2.Requests

3.Pandas

Beautiful Soup是一个可从HTML和XML文件中提取数据的Python库。推荐读者阅读Beautiful Soup库官方文档。

如果已经安装Python,只需输入以下命令,即可安装Beautiful Soup。文中所涉及的库全部给出了安装方法。但是我更推荐读者使用Google Colab,便于练习代码。在Google Colab中,无需手动安装,只需要输入“importlibrary_name”,Colab就会自动安装。

pip install beautifulsoup4

导入Beautiful Soup库:

from bs4 import BeautifulSoupSoup = BeautifulSoup(page_name.text, ‘html.parser’)

Python的Requests库采用更加简单易用的方式发送HTTP请求。Requests库中有很多种方法,其中最常用的是request.get()。在URL转发成功或失败的情况下,request.get()都能够返回URL转发状态。推荐读者阅读Requests库官方文档了解更多信息(https://realpython.com/python-requests/?source=post_page-----a58e90f1b4ba----------------------)。

安装Requets:

pip install requests

导入Requests库:

import requestspaga_name = requests.get('url_name')

Pandas是一种方便易用的高性能数据结构,同时也是Python编程语言分析工具。Pandas提供了一种能够清晰、简洁地存储数据的数据框架。Pandas库官方文档如下:https://pandas.pydata.org/pandas-docs/stable/?source=post_page-----a58e90f1b4ba----------------------

安装Pandas:

pip install pandas

导入Pandas库:

import pandas as pd

2. 清理数据

清理数据有许多重要的步骤,往往包括清除重复行、清除异常值、查找缺失值和空值,以及将对象值转换成空值并绘制成图表等。

数据清理常用的库包括:

1.Pandas

2.NumPy

Pandas可以说是数据科学中的“万金油”——到处都可用。关于Pandas的介绍详见上文,此处不再赘述。

NumPy即Numeric Python,是一个支持科学计算的Python库。众所周知,Python本身并不支持矩阵数据结构,而Python中的NumPy库则支持创建和运行矩阵计算。NumPy库官方文档如下:https://numpy.org/devdocs/?source=post_page-----a58e90f1b4ba----------------------

运行以下命令下载NumPy(确保已经安装了Python):

python -m pip install --user numpy scipy matplotlib ipython jupyter pandas sympy nose

导入NumPy库:

import numpy as np

3. 探索数据

探索性数据分析(Exploratory Data Analysis, EDA)是用于增强信息索引理解的工具,通过有规律地删减和用图表绘制索引基本特征实现。使用EDA能够帮助用户更加深入、清晰地探索数据,展现重要信息采集的发布或情况。

运行EDA常用的库包括:

1.Pandas

2.Seaborn

3.Matplotlib.pyplot

Pandas:详见上文。

Seaborn是一个Python数据可视化库,为绘制数据图表提供了一个高级接口。安装新版本的Seaborn:

pip install seaborn

推荐读者阅读Seaborn官方文档:https://seaborn.pydata.org/examples/index.html?source=post_page-----a58e90f1b4ba----------------------#example-gallery

使用Seaborn,可以轻松绘制条形图、散点图、热力图等图表。导入Seaborn:

import seaborn as sns

Matplotlib是一个Python 2D图形绘图库,能够在多种环境中绘制图表,可替代Seaborn。事实上,Seaborn是基于Matplotlib开发的。

安装Matplotlib:

python -m pip install -U matplotlib

推荐阅读Matplotlib官方文档:https://matplotlib.org/users/index.html?source=post_page-----a58e90f1b4ba----------------------

导入Matplotlib.pyplot库:

import matplotlib.pyplot as plt

4. 构建模型

构建模型是数据科学中的关键一步。由于这一步要求根据要解决的问题和所获取的数据来构建机器学习模型,所以和其他步骤相比难度更大。在这一步中,问题陈述是至关重要的一点,因为它会影响对问题的定义和提出的解决方法。网络上大部分公开的数据集都是基于某一个问题收集的,因此解决问题的能力就尤为重要。而且,由于没有某个特定的算法最适合自己,你需要在多种算法中进行选择,考虑数据适合用回归、分类、聚类还是降维算法。

选择算法经常是一件让人头疼的事。读者可以使用SciKit learn算法选择路径图来记录追踪哪个算法的性能最优。下图展示了一张SciKit learn的路径图:

不难猜出,建模时最常用的库是:

1.SciKit learn

SciKit learn是Python中一个便于使用的构建机器学习模型的库。它是基于NumPy、SciPy和Matplotlib开发的。SciKit learn库官方文档如下:https://scikit-learn.org/stable/?source=post_page-----a58e90f1b4ba----------------------

导入scikit learn:

import sklearn

安装scikit learn:

pip install -U scikit-learn

5. 呈现数据

这是数据科学的最后一步,也是很多人不想做的一步——毕竟没有人想要公开发表他们的数据发现。呈现数据也是有法可循的,并且这个方法极为重要,因为无论如何,成果最终还是要向人们展示的。而且由于人们并不关心所使用的的算法,他们只关心结果,所以展示还要做到简洁明了。为了展现数据成果,推荐读者安装Jupyter notebook:https://jupyter.org/install.html?source=post_page-----a58e90f1b4ba----------------------

同时,安装如下指令给notebook配备展示选项:

pip install RISE

阅读文章:http://www.blog.pythonlibrary.org/2018/09/25/creating-presentations-with-jupyter-notebook/,了解更多如何使用notebook做出精彩展示的教程。务必遵循教程的步骤。读者还可以观看Youtube的视频进行学习:

以上就是本文全部内容。本文从最基础的内容开始介绍,读完全文,读者已经知道了在数据科学中如何、在何时、以及在哪一步使用Python库。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/558230.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android日志[进阶篇]二-分析堆栈轨迹(调试和外部堆栈)

Android日志[进阶篇]一-使用 Logcat 写入和查看日志 Android日志[进阶篇]二-分析堆栈轨迹(调试和外部堆栈) Android日志[进阶篇]三-Logcat命令行工具 Android日志[进阶篇]四-获取错误报告 Android日志[进阶篇]五-阅读错误报告 目录调试中的堆栈轨迹从外部来源打开堆栈轨迹监控剪…

python股票数据分析实验报告_Python实验报告

一、实验原理(要求、任务等)(一)、Python的开发环境Python诞生于20世纪90年代初,是一种解释型、面向对象、动态数据类型的高级程序设计语言,是最受欢迎的程序设计语言之一。编写、编译和运行Python程序有以下3种方法。1.使用交互式解释器2.使用Windows命…

Android日志[进阶篇]一-使用 Logcat 写入和查看日志

Android日志[进阶篇]一-使用 Logcat 写入和查看日志 Android日志[进阶篇]二-分析堆栈轨迹(调试和外部堆栈) Android日志[进阶篇]三-Logcat命令行工具 Android日志[进阶篇]四-获取错误报告 Android日志[进阶篇]五-阅读错误报告 目录查看应用日志写入日志消息Logcat 消息格式设置…

哈希表数据结构_算法与数据结构-哈希表

前面我们已经讲到了数组和链表,数组能通过下标 O(1) 访问,但是删除一个中间元素却要移动其他元素,时间 O(n)。 循环双端链表倒是可以在知道一个节点的情况下迅速删除它,但是吧查找又成了 O(n)。难道就没有一种方法可以快速定位和删…

Android日志[进阶篇]三-Logcat 命令行工具

Android日志[进阶篇]一-使用 Logcat 写入和查看日志 Android日志[进阶篇]二-分析堆栈轨迹(调试和外部堆栈) Android日志[进阶篇]三-Logcat命令行工具 Android日志[进阶篇]四-获取错误报告 Android日志[进阶篇]五-阅读错误报告 目录日志记录系统概览命令行语法logcat命令行选项过…

python while语法结构_python语法之流程控制(if while for)

一.python语法之流程控制1.1什么是流程控制?流程控制即控制流程,具体指控制程序的执行流程,而程序的执行流程分为三种结构:顺序结构(之前我们写的代码都是顺序结构)、分支结构(判断)、循环结构(while for)二.分支结构2.1 什么是分…

Android日志[进阶篇]四-获取错误报告

Android日志[进阶篇]一-使用 Logcat 写入和查看日志 Android日志[进阶篇]二-分析堆栈轨迹(调试和外部堆栈) Android日志[进阶篇]三-Logcat命令行工具 Android日志[进阶篇]四-获取错误报告 Android日志[进阶篇]五-阅读错误报告 目录前言从设备上获取错误报告从 Android 模拟器上…

下列哪个适合做链栈_朋友圈人格图鉴:三天可见 vs 全部可见,哪个更适合做恋人?...

你们的朋友圈里有没有这样几种人&#xff1f;<< 朋友圈大赏 >>你可能已经对这些朋友圈的风格习以为常&#xff0c;其实&#xff0c;每个人在朋友圈展示的语言、行为&#xff0c;可能默默揭示着一个人自己原本是怎样的人、想成为什么样的人&#xff0c;以及与他人的…

python玫瑰花数量的含义_玫瑰花数量代表的含义

1朵玫瑰代表——我的心中只有你 ONLY YOU&#xff01;2朵玫瑰代表——这世界只有我俩&#xff01;3朵玫瑰代表——我爱你 I LOVE YOU&#xff01;4朵玫瑰代表——至死不渝&#xff01;5朵玫瑰代表——由衷欣赏&#xff01;6朵玫瑰代表——互敬 互爱 互谅&#xff01;7朵玫瑰代表…

Android日志[进阶篇]五-阅读错误报告

Android日志[进阶篇]一-使用 Logcat 写入和查看日志 Android日志[进阶篇]二-分析堆栈轨迹(调试和外部堆栈) Android日志[进阶篇]三-Logcat命令行工具 Android日志[进阶篇]四-获取错误报告 Android日志[进阶篇]五-阅读错误报告 目录Logcat查看事件日志ANR 和死锁找出无响应的应用…

iatf16949内审员_申请IATF16949认证有什么要求

1、证件要求必须要提供三证合一的营业执照&#xff08;在有效期内&#xff09;&#xff0c;营业执照的范围必须与申请IATF16949认证范围一致。2、处于汽车供应链的证明因为IATF16949认证要求厂家必须是直接与生产汽车有关的&#xff0c;具有加工制造能力&#xff0c;并通过这种…

GenseeSDK DocView(OpenGL)引起的TextView显示黑块

现象 先上图&#xff1a; 正常的图&#xff1a; 来到这的大侠是否也出现了同样的问题。 操作与描述 退出直播播放器后&#xff0c;整个app界面所有的TextView(EditText/Button)都显示为黑块。 快速解决 退出直播或点播后不要调用DocView的closeDoc函数即可&#xff0c;当…

python医疗发票 信息抽取_PYTHON网络爬虫与信息提取[信息的组织与提取](单元五)...

1 三种信息类型的简介xml : extensible markup language与html非常相似现有html后有xmlxml是html发展来的 扩展 通用json 类型javascript object notation有类型的键值对 表达的方式一个key对应多个值"key1":["asas",asas]嵌套使用"name":{&quo…

Android WebView https白屏、Http和Https混合问题、证书配置和使用

目录前言启用https后白屏&#xff08;证书错误&#xff09;修改处理WebView中Http和Https混合问题处理办法Webview的几种内容加载模式证书配置或处理https请求的证书okhttp进行请求&#xff1a;HttpsURLConnection忽略证书前言 原有项目中有部分界面是用webview展现的h5页面&am…

Kotlin AAPT: error: resource android:attr/lStar not found.

这是使用kotlin之后发生的错误。 打开 android/app 工程全局搜索androidx.core:core-ktx: 全局搜索快捷键 ctrlshift f将搜索到的内容修改为androidx.core:core-ktx:1.6.0 也就是说将androidx.core:core-ktx: 修改为androidx.core:core-ktx:1.6.0,一般情况下是在module的中的b…

python selenium iframe怎么定位_python+selenium四:iframe查看、定位、切换

iframe是HTML里面嵌套HTML的一种框架1.查看iframe1.Top Window&#xff1a;可直接定位2.iframe#i&#xff1a;说明此元素在iframe上3.iframe显示为空&#xff1a;(id或name为空)4.右边这个看到是空的(2层iframe)以126邮箱为例from selenium import webdriverdriver webdriver.…

Kotlin plugin should be enabled before ‘kotlin-android-extensions‘

问题一 、Kotlin plugin should be enabled before ‘kotlin-android-extensions‘ 在java项目中添加kotlin的类之后&#xff0c;根据提示进行各种配置和下载&#xff0c;一顿操作后出现了Kotlin plugin should be enabled before kotlin-android-extensions’ 处理办法&…

python增加工作日列_将工作日添加到日期字段

我试图在Django的日期字段中添加一些工作日。这是针对产品订购&#xff0c;我们对不同的产品有不同的交付周期&#xff0c;我们希望为每个产品生成一个目标日期。在例如&#xff0c;产品X可能需要10个工作日才能交付&#xff0c;如果此产品是在2013年3月1日星期五订购的&#x…

tensorrt轻松部署高性能dnn推理_基于TensorRT车辆实时推理优化

基于TensorRT车辆实时推理优化Optimizing NVIDIA TensorRT Conversion for Real-time Inference on Autonomous Vehicles自动驾驶系统使用各种神经网络模型&#xff0c;这些模型要求在GPU上进行极其精确和高效的计算。Zoox是一家全新开发robotaxis的初创公司&#xff0c;充分利…

问卷调查试卷的数据设计

目录前言数据定义数据说明1、第一层{}2、question 一个题目{}3、answer一个答题回复{}4、option 一个选项{}5、selectItems {}具体数据1、发题&#xff08;终端请求&#xff09;示例2、答题(图片答题&#xff0c;终端请求)互动或静态3、停止答题(终端请求&#xff0c;一般是互动…