初学大数据之Python中5个最佳的数据科学库的学习

在下载了pycharm软件以及通过前两篇文章,配置了相应的模块包之后,那就开始对常用的模块的学习,以便后期利用这些模块对数据做模型化处理。

 

如果你已经决定把Python作为你的编程语言,那么,你脑海中的下一个问题会是:“进行数据分析有哪些Python库可用?”

Python有很多库可用来进行数据分析。但不必担心,你不需要学习所有那些可用库。你只须了解5个Python库,就可以完成绝大多数数据分析任务。下面逐一简单介绍这5个库,并提供你一些最好的教程来学习它们。

1.Numpy
对于科学计算,它是Python创建的所有更高层工具的基础。以下是它提供的一些功能:
1. N维数组,一种快速、高效使用内存的多维数组,它提供矢量化数学运算 。
2. 你可以不需要使用循环,就对整个数组内的数据行标准数学运算。
3. 非常便于传送数据到用低级语言(如C或C++)编写的外部库,也便于外部库以Numpy数组形式返回数据。
NumPy不提供高级数据分析功能,但有了对NumPy数组和面向数组的计算的理解,能帮助你更有效地使用像Pandas之类的工具。
教程:
1. Scipy.org提供了Numpy库的简要说明


http://scipy.org/

 

2. 这个教程棒极了,完全注重于Numpy的可用性

 

2.Scipy
Scipy库依赖于NumPy,它提供便捷和快速的N维向量数组操作。SciPy库的建立就是和NumPy数组一起工作,并提供许多对用户友好的和有效的数值例程,如:数值积分和优化。SciPy提供模块用于优化、线性代数、积分以及其它数据科学中的通用任务。
教程:
我找不到比Scipy.org更好的教程了,它学习Scipy的最佳教程


3.Pandas
Pandas包含高级数据结构,以及和让数据分析变得快速、简单的工具。它建立在NumPy之上,使以NumPy为中心的应用变得简单。
1. 带有坐标轴的数据结构,支持自动或明确的数据对齐。这能防止由于数据没有对齐,以及处理不同来源的、采用不同索引的数据而产生的常见错误。
2. 使用Pandas更容易处理缺失数据。
3. 合并流行数据库(如:基于SQL的数据库)中能找到 的关系操作。
Pandas是进行数据清洗/整理(data munging)的最好工具。


教程:
1. Pandas快速入门
2. Alfred Essa有一系列关于Pandas的视频,这些视频应该会让你很好地了解基本概念。
http://alfredessa.com/data-analysis-tutorial/2-pandas-library/

3. 还有,不可错过Shane Neeley提供的教程视频,它全面介绍了Numpy, Scipy和Matplotlib

 

Matplotlib
Matlplotlib是Python的一个可视化模块。它让你方便地制作线条图、饼图、柱状图以及其它专业图形。使用Matplotlib,你可以定制所做图表的任一方面。在IPython中使用时,Matplotlib有一些互动功能,如:缩放和平移。它支持所有的操作系统下不同的GUI后端(back ends),并且可以将图形输出为常见地矢量图和图形格式,如:PDF、SVG、JPG、PNG、BMP和GIF等。
教程:


1. ShowMeDo网站上有一个关于很好地教程


2. 推荐这本书Packt出版社的操作宝典,对于初学者来说,这本书真是极棒的~

 

5.Scikit-learn
Scikit-learn是一个用于机器学习的Python模块。它建立在Scipy之上,提供了一套常用机器学习算法,让使用者通过一个统一的接口来使用。Scikit-learn有助于你迅速地在你的数据集上实现流行的算法。
看一下Scikit-learn中提供的算法列表,你就会马上意识到它包含了许多用于标准机器学习任务的工具,如:聚类、分类和回归等。

教程:
1. Scikit-learn入门

 

2. 来自于Scikit-learn.org的教程

结束语:还有其它一些库,如:用于自然语言处理的Nltk,用于网站数据抓取的Scrappy ,用于网络挖掘的Pattern ,用于深度学习的Theano等。

但是,如果你正开始学习Python,我建议你首先熟悉这5个库。
我说过,这些教程都非常适合初学者。不过,在学习这些教程前,先要熟悉Python语言的基本编程知识。

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/456951.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

配置mq

mq的实现可以是apache的&#xff0c;也可以是ibm的&#xff0c;配置不同的地方是connectionFactory和queue和topic应用的包不同 <!-- 配置链接器&#xff0c;注入apache的实现 --><bean id"connectionFactory"class"org.springframework.jms.connectio…

模拟银行自动提款系统python

列出对象及属性名称行为...py 人 类名&#xff1a;Person 属性&#xff1a;姓名 身份证号 电话 卡 行为&#xff1a;卡 类名&#xff1a;Card 属性&#xff1a;卡号 密码 余额 行为&#xff1a;银行 类名&#xff1a;Bank 属性&#xff1a;用户列表 提款机提款机 类名&#xf…

帮助文件html打不开,chm帮助文件打不开全是代码?这几种解决方法了解一下

win10系统chm帮助文件打不开怎么办?近期使用win10 版本 1809 (OS 内部版本 17763.864)系统的用户反应电脑打不开这个chm帮助文件的情况&#xff0c;打开后显示不正常&#xff0c;针对这样的问题如何解决呢?针对chm文件打开异常的现象大家可以参考本文中飞飞系统介绍的方法来修…

关于四种语言中substring()方法参数值的解析

1.关于substring(a,b)Jsvar str"bdqn";var resultstr.substring(1,2);alert(result);第一个参数&#xff1a;开始的位置&#xff0c;从0开始数第二个参数&#xff0c;结束的索引&#xff0c;从1开始数&#xff0c;而不是获取几个长度SQLselect substring(bdqn,2,1)第…

python中tkinter的使用-上

00基础代码 import tkinterwin tkinter.Tk() win.title("Liuwang") win.geometry("400x40020020")win.mainloop() 01简单示例 #创建主窗口 win tkinter.Tk() #设置标题 win.title("Liuwang") #设置大小和位置 win.geometry("400x40020…

滚动条样式修改

/*滚动条*/ ::-webkit-scrollbar { width: 4px; height: 4px; background-color: #F5F5F5; } /*定义滚动条轨道 内阴影圆角*/ ::-webkit-scrollbar-track { -webkit-box-shadow: inset 0 0 6px rgba(0,0,0,0.…

sklearn中常用的数据预处理方法

常见的数据预处理方法&#xff0c;以下通过sklearn的preprocessing模块来介绍; 1. 标准化&#xff08;Standardization or Mean Removal and Variance Scaling) 变换后各维特征有0均值&#xff0c;单位方差。也叫z-score规范化&#xff08;零均值规范化&#xff09;。计算方式是…

儿童学计算机编程好处,儿童学习编程有什么好处

原标题&#xff1a;儿童学习编程有什么好处前几年中国家长可能对少儿编程教育感到陌生。但随着这两年美国STEM教育在中国的流行&#xff0c;以及今年国务院普及中小学阶段人工智能、编程教育规划的发布&#xff0c;现在国内也渐渐掀起少儿学习编程的风潮。孩子学电脑编程&#…

python中tkinter的使用-中

00Listbox控件 import tkinterwin tkinter.Tk() win.title("Liuwang") win.geometry("400x40020020") 列表框控件&#xff0c;可以包含一个或者多个文本框 作用&#xff1a;在listbox控件的小窗口显示一个字符串 #1、创建一个listbox,添加几个元素&#…

SharePoint Server 2016 PWA(Project web app) 被变为只读模式

今天有同事反应了一个状况&#xff0c;我们SharePoint 2016里面集成的Project Web App(以下简称PWA)变成 read-only 只读模式了&#xff01;今天就给大家分享一下我的排查过程&#xff0c;供大家参考。 整个过程我一共使用了五种办法&#xff0c;结果最后一种才生效&#xff0c…

HDU 5741 Helter Skelter(构造法)

【题目链接】 http://acm.hdu.edu.cn/showproblem.php?pid5741 【题目大意】 一个01相间的串&#xff0c;以0开头&#xff0c;给出的序列每个数字表示连续的0的个数或者1的个数&#xff0c;现在有m个询问&#xff0c;求0的个数为a且1的个数为b的串是否存在。 【题解】 我们发现…

集成学习之参数调整策略

1 Random Forest和Gradient Tree Boosting参数详解 在sklearn.ensemble库中&#xff0c;我们可以找到Random Forest分类和回归的实现&#xff1a;RandomForestClassifier和RandomForestRegression&#xff0c;Gradient Tree Boosting分类和回归的实现&#xff1a;GradientBoost…

python中tkinter的使用-下

00表格数据 import tkinter from tkinter import ttkwin tkinter.Tk() win.title("Liuwang") win.geometry("400x40020020")#表格 tree ttk.Treeview(win) tree.pack() #列 tree["columns"] ("姓名","年龄","身高&…

计算机科学和建筑设计结合,智能化建筑中计算机科学与技术的应用

4494 科技创新 建筑工程技术与设计2018年5月上【摘要】随着我国经济的发展&#xff0c;计算机科学技术已经逐渐应用到各个领域。将计算机科学与建筑相结合&#xff0c;为建筑业的发展提供了契机。本文介绍了计算机科学技术在智能化建筑中的应用&#xff0c;以期其为加快我国智能…

符号

符号&#xff1a;; 多个命令的分隔符/ 根或者路径的分隔符> 或1>标准输出重定向&#xff08;数据流朝着箭头的方向流动&#xff09;&#xff0c;覆盖原来的文件>>或1>>追加重定向&#xff08;数据流朝着箭头的方向流动&#xff09;&#xff0c;再原来的文件…

Random Forest算法中的参数详解

本篇不是介绍RF的&#xff0c;关于RF网上有很多通俗易懂的解释 西瓜书与统计学习方法等很多教材中的解释也都足够 本篇仅针对如何使用sklearn中的RandomForestClassifier作记录 一、代码怎么写 [python] view plaincopy print?class sklearn.ensemble.RandomForestClassifier(…

python中自动化办公 【笔记】

00读取csv文件 import csv def readCsv(path):infolist []with open (path,"r") as f:allFileInfo csv.reader(f)print(allFileInfo)for row in allFileInfo:infolist.append(row)return infolistpath r"D:\xiazaipan\第1章 Python语言基础\15、自动化办公与…

Python爬虫:一些常用的爬虫技巧总结

1、基本抓取网页 get方法 import urllib2 url "http://www.baidu.com" respons urllib2.urlopen(url) print response.read() post方法 import urllib import urllib2url "http://abcde.com" form {name:abc,password:1234} form_data urllib.urlenco…

微型计算机选用要点,微型计算机原理以及应用考试_new要点分析.doc

微型计算机原理以及应用第一章&#xff1a;1&#xff0e;微机的主要的特点是&#xff1a;(1)体积小、重量轻&#xff1b;(2)价格低廉&#xff1b;(3)可靠性高、结构灵活(4)应用面广2&#xff0e;微型机的分类&#xff1a;按微处理器规模分类&#xff1a;单片机 、个人计算机、 …

到底什么是API经济

编者按&#xff1a;这是一篇两年前的文章&#xff0c;作者为原CA TECH的中国区技术总监。他在文章中阐述的问题&#xff0c;今天读来依旧让人振聋发聩。但遗憾的是&#xff0c;国人在API成为一种服务的概念上似乎还停留在遥远的PC时代&#xff0c;说白了还都只是一些低端的数据…