MYSQL从入门到精通

SQL是数据库的查询语言,语法结构简单,相信本文会让你从入门到熟练。

掌握SQL后,不论你是产品经理、运营人员或者数据分析师,都会让你分析的能力边界无限拓展。别犹豫了,赶快上车吧!

SQL最小化的查询结构如下:

select column from table

table是我们的表名,column是我们想要查询的字段/列,column可以用*代替,指代全部字段,意为从table表查询所有数据。

注意:标点符号必须为英文,这是新人很容易犯的错误。

1 条件判断:where,and,or

where是基础查询语法,用于条件判断。

SELECT * FROM DataAnalyst WHERE city = '北京'

上图是最简化的查询语句,将所有城市为北京的职位数据过滤出来。我们也可以用and进行多条件判断。

SELECT * FROM DataAnalyst 
WHERE city = '北京' AND positionName = '数据分析师'

or语句则是或的关系

SELECT * FROM DataAnalyst 
WHERE city = '北京' OR positionName = '数据分析师'

查找城市为北京,或者职位名称是数据分析师的数据,它们是并集。

当我们涉及到非常复杂的与或逻辑判断,应该怎么办?比如即满足条件AB,又要满足条件C,或者是满足条件DE。此时需要用括号明确逻辑判断的优先级。

SELECT * FROM DataAnalyst 
WHERE (city='北京' AND positionName='数据分析师') OR (city = '北京' AND positionName = '数据产品经理')

这条语句的含义是查找出北京的数据分析师或者是北京的产品经理。当有括号时,会优先进行括号内的判断,当有多个括号时,对最内层括号先进行判断,然后依次往外。

接下来的问题来了,当我们要查询多个条件,比如北京、上海、广州、深圳这些城市,难道一个个用and关联起来?这太麻烦了,我们可以使用 in

SELECT * FROM DataAnalyst
WHERE city IN('北京','上海','广州','深圳')

当我们遇到字段数据类型是数值时,也可以使用符号> 、>=<<=!=进行逻辑判断,!=指的是不等于,等价于<>

SELECT * FROM DataAnalyst WHERE companyId > 10000

上例是筛选出公司ID >= 10000的职位,为数值时,不需要像字符串一样加引号。

当我们需要取区间数值时,使用between and

SELECT * FROM DataAnalyst 
WHERE companyId BETWEEN 10000 AND 10500

between and包括数值两端的边界,等同于companyId >=10000 and companyId <= 10500。

如果要模糊查找,能用like

SELECT * FROM DataAnalyst 
WHERE positionName LIKE '%分析师%'

语句的含义是在positionName列查找包含「数据分析」字段的数据,%代表的是通配符,含义是无所谓「数据分析」前面后面是什么内容。如果是 '数据分析%' ,则代表字段必须以数据分析开头,无所谓后面是什么。

除了上面所讲,还有一个常用的语法是not,代表逻辑的逆转,常见not innot likenot null等。

2 分组:group by

接下来我们学习group by,它是数据分析中常见的语法,目的是将数据按组/维度划分,我们以city为例:

SELECT * FROM DataAnalyst 
GROUP BY city

它将城市划分成几组,通过group by可以快速的浏览数据有哪些城市。我们看一下它的高阶用法。

SELECT city,COUNT(1) FROM DataAnalyst 
GROUP BY city

上述语句,使用count函数,统计计数了每个城市拥有的职位数量。括号里面的1代表以第一列为计数标准。这里出现新的问题,当我们遇到重复数据怎么办?在DataAnalyst这张表中,北京职位包含重复的职位ID,我们需要去重。

SELECT city,count(DISTINCT positionId) FROM DataAnalyst
GROUP BY city

北京的数据一下子少了2000,多余的重复值被排除在外。distinct是去重函数,distinct positionId会只计算唯一的positionId个数。日常工作中,活跃用户数、文章UV都是用distinct计算获得,这是唯一标示符ID的重要作用。

除了count,还有maxminsumavg等函数,也叫做聚合函数。

当我们在group by添加多个字段,它将以多维的形式进行数据聚合。

SELECT city,workYear,count(DISTINCT positionId) FROM DataAnalyst 
GROUP BY city,workYear

这就是数据分析师常用的多维分析法,通过group by切分不同的维度进行对比,在不利用BI的情况下,通过SQL进行快速数据分析。

3 逻辑判断

接下来学习逻辑判断,SQL也有if函数,通过它我们能进行复杂的运算。比如我想统计各个城市中有多少数据分析职位,其中,电商领域的职位有多少,在其中的占比?

industryField是公司的行业领域,虽然我们能用where like计算出有几个电商的数据分析师,但是占比的计算会比较麻烦,此时可以用if

SELECT IF(industryField like '%电子商务%',1,0) 
FROM DataAnalyst

上面的公式利用if判断出哪些是电商行业的数据分析师,哪些不是。if函数中间的字段代表为true时返回的值,不过因为包含重复数据,我们需要将其改成positionId。之后,用它与group by组合就能达成目的了。

SELECT city,COUNT(DISTINCT positionId),COUNT(IF(industryField like '%电子商务%',positionId,NULL))
FROM DataAnalyst
GROUP BY city

第一列数字是职位总数,第二列是电商领域的职位数,相除就是占比。记住,count是不论0还是1都会纳入计数,所以第三个参数需要写成NULL,代表不是电商的职位就排除在计算之外。

Q:如果我想找出各个城市,数据分析师岗位数量在500以上的城市有哪些,应该怎么计算?

有两种方法:

第一种,是使用having语句,它对聚合后的数据结果进行过滤。

SELECT city,COUNT(DISTINCT positionId) AS counts
FROM DataAnalyst
GROUP BY city HAVING counts >= 500

第二种,是利用嵌套子查询。

SELECT * FROM(SELECT city,COUNT(DISTINCT positionId) as counts FROM DataAnalyst GROUP BY city
) as t1
WHERE t1.counts >= 500

我们将第一次查询获得的城市职位数的结果,看作一张新的表,利用as将它命名为t1,将职位数命名为一个新的字段counts。然后外面再套一层select过滤出counts >=500

这种查询方式就叫嵌套子查询,使用场景比较广泛,where后面也能跟子查询。

4 order by

很多时候,数据是凌乱的,我们希望结果能够呈现一定的顺序,这时候就用到order by语句。

SELECT city,COUNT(DISTINCT positionId) as counts
FROM DataAnalyst 
GROUP BY city 
ORDER BY counts

看,数据就按照统计结果升序排列,如果需要降序,则是order by counts desc,后面加一个desc就好了。如果是多个字段,按逗号分隔即可。

5 SQL常用函数

我们再来熟悉SQL的常用函数,首先是时间。因为我们的练习数据中没有时间,首先用now创建出一个时间字段。

select now()

直接执行它,就能获得当前的系统时间,精确到秒。其实select不一定后面要跟from。

select date(now())

它代表的是获得当前日期,week函数获得当前第几周,month函数获得当前第几个月。其余还包括quarter、year、day、hour、minute。

时间函数也包含各种参数,比如week,因为中西方计算第几天是不一样的,西方把周日算作一周中的第一天,而我们习惯周一。

select week(now(),0)

除了以上的日期表达,也可以使用dayofyear、weekofyear的形式计算。它和上面的部分函数等价。

怎么对时间进行加减法呢?这时候靠date_add函数出马。

select date_add(date(now()) ,interval 1 day)

我们可以改变1为负数,达到减法的目的,也能更改day为week、year等,进行其他时间间隔的运算。如果是求两个时间的间隔,则是datediff(date1,date2)或者timediff(time1,time2)

时间函数的运用比较灵活,没有特殊限定,网络上的文档和教程也不少,可以深入学习。

6 清洗类函数

最后是数据清洗类的函数。

select left(salary,1from DataAnalyst

MySQL支持leftrightmid等函数。

我们通过salary计算数据分析师的工资吧,首先利用locate函数查找第一个k所在的位置。

SELECT LOCATE('k',salary),salary FROM DataAnalyst

然后使用left函数截取薪水的下限。

SELECT LEFT(salary,LOCATE('k',salary)-1),salary 
FROM DataAnalyst

为了获得薪水的上限,要用substr或者mid,两者等价。

SUBSTR(str,pos,len)

薪水上限的开始位置是「-」位置往后推一位。截取长度是整个字符串减去「-」所在位置,刚好是后半段我们需要的内容,不过这个内容是包含「K」的,所以最后结果还得再减去1。

SELECT LEFT(salary,LOCATE('k', salary)-1) as bottomSalary,SUBSTR(salary, LOCATE('-', salary) + 1, LENGTH(salary) - LOCATE('-', salary) - 1) as topSalary,salary
FROM DataAnalyst
WHERE salary NOT LIKE '%以上%'

这里不了解不要紧,可以将计算过程分步骤运行。基本上,了解了上面写法的含义,文本清洗这块就没有问题了。再然后计算不同城市不同工作年限的平均薪资。

SELECT city,workYear,AVG((bottomSalary + topSalary) / 2) as avgSalary 
FROM(SELECT LEFT(salary,LOCATE('k', salary)-1) as bottomSalary,SUBSTR(salary, LOCATE('-', salary) + 1, LENGTH(salary) - LOCATE('-', salary) - 1) as topSalary,city,positionId,workYearFROM DataAnalystWHERE salary NOT LIKE '%以上%'
) as t1
GROUP BY city,workYear
ORDER BY city,avgSalary

上面语句,我们用了文本清洗、子查询嵌套、分组聚合、排序等多种用法,属于较复杂的查询。重复数据的问题,因为我是复制了一份北京数据,数量刚好乘二,对平均数没有影响,感兴趣的朋友可以再加一步清洗掉它。

最后,有三道思考题:

  • 查询出哪家公司招聘的岗位数最多
  • 查询出O2O、电子商务、互联网金融这三个行业,哪个行业的平均薪资最高
  • 查询出各城市的最高薪水Top3是哪家公司哪个岗位

做完上面的题目,你已经神功初成,数据分析的SQL意见没有大问题了。更复杂的查询,也无非是嵌套更多的内容,本质思路是一样的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/473523.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 1653. 使字符串平衡的最少删除次数(DP)

文章目录1. 题目2. 解题1. 题目 给你一个字符串 s &#xff0c;它仅包含字符 a 和 b​​​​ 。 你可以删除 s 中任意数目的字符&#xff0c;使得 s 平衡 。 我们称 s 平衡的 当不存在下标对 (i,j) 满足 i < j 且 s[i] b 同时 s[j] a 。 请你返回使 s 平衡 的 最少 删除…

LeetCode 1654. 到家的最少跳跃次数(BFS)

文章目录1. 题目2. 解题1. 题目 有一只跳蚤的家在数轴上的位置 x 处。请你帮助它从位置 0 出发&#xff0c;到达它的家。 跳蚤跳跃的规则如下&#xff1a; 它可以 往前 跳恰好 a 个位置&#xff08;即往右跳&#xff09;。它可以 往后 跳恰好 b 个位置&#xff08;即往左跳&…

Maven详解及实例

1 什么是Maven Maven对项目进行模型抽象&#xff0c;充分运用的面向对象的思想&#xff0c;Maven可以通过一小段描述信息来管理项目的构建&#xff0c;报告和文档的软件项目管理工具。Maven 除了以程序构建能力为特色之外&#xff0c;还提供高级项目管理工具。简单的来说Maven是…

Python多线程详解

1、多线程的理解 多进程和多线程都可以执行多个任务&#xff0c;线程是进程的一部分。线程的特点是线程之间可以共享内存和变量&#xff0c;资源消耗少&#xff08;不过在Unix环境中&#xff0c;多进程和多线程资源调度消耗差距不明显&#xff0c;Unix调度较快&#xff09;&…

LeetCode 1655. 分配重复整数(回溯)

文章目录1. 题目2. 解题2.1 回溯1. 题目 给你一个长度为 n 的整数数组 nums &#xff0c;这个数组中至多有 50 个不同的值。 同时你有 m 个顾客的订单 quantity &#xff0c;其中&#xff0c;整数 quantity[i] 是第 i 位顾客订单的数目。请你判断是否能将 nums 中的整数分配给…

Flink的异步I/O及Future和CompletableFuture

1 概述 Flink在做流数据计算时&#xff0c;经常要外部系统进行交互&#xff0c;如Redis、Hive、HBase等等存储系统。系统间通信延迟是否会拖慢整个Flink作业&#xff0c;影响整体吞吐量和实时性。 如需要查询外部数据库以关联上用户的额外信息&#xff0c;通常的实现方式是向数…

LeetCode 1656. 设计有序流(数组)

文章目录1. 题目2. 解题1. 题目 有 n 个 (id, value) 对&#xff0c;其中 id 是 1 到 n 之间的一个整数&#xff0c;value 是一个字符串。不存在 id 相同的两个 (id, value) 对。 设计一个流&#xff0c;以 任意 顺序获取 n 个 (id, value) 对&#xff0c;并在多次调用时 按 …

flask框架+mysql数据库并与前台数据交互

在Flask使用数据库 我们将使用Flask-SQLAlchemy 的扩展来管理数据库。由SQLAlchemy项目提供的&#xff0c;已封装了关系对象映射&#xff08;ORM&#xff09;的一个插件。 ORMs允许数据库程序用对象的方式替代表和SQL语句。面向对象的操作被ORM转化为数据库命令。这样就意味着&…

Canal原理及其使用

1 什么是canal canal是用java开发的基于数据库增量日志解析&#xff0c;提供增量数据订阅&消费的中间件。目前&#xff0c;canal主要支持了MySQL的binlog解析&#xff0c;解析完成后才利用canal client 用来处理获得的相关数据。&#xff08;数据库同步需要阿里的otter中间…

LeetCode 1657. 确定两个字符串是否接近

文章目录1. 题目2. 解题1. 题目 如果可以使用以下操作从一个字符串得到另一个字符串&#xff0c;则认为两个字符串 接近 &#xff1a; 操作 1&#xff1a;交换任意两个 现有 字符。 例如&#xff0c;abcde -> aecdb操作 2&#xff1a;将一个 现有 字符的每次出现转换为另一…

机器学习简介及学习思维导图

什么是机器学习机器学习是人工智能的一个分支。人工智能的研究是从以“推理”为重点到以“知识”为重点&#xff0c;再到以“学习”为重点&#xff0c;一条自然、清晰的脉络。机器学习是实现人工智能的一个途径&#xff0c;即以机器学习为手段解决人工智能中的问题。机器学习算…

LeetCode 1658. 将 x 减到 0 的最小操作数(哈希)

文章目录1. 题目2. 解题1. 题目 给你一个整数数组 nums 和一个整数 x 。每一次操作时&#xff0c;你应当移除数组 nums 最左边或最右边的元素&#xff0c;然后从 x 中减去该元素的值。请注意&#xff0c;需要 修改 数组以供接下来的操作使用。 如果可以将 x 恰好 减到 0 &…

1057: [ZJOI2007]棋盘制作 - BZOJ

Description国际象棋是世界上最古老的博弈游戏之一&#xff0c;和中国的围棋、象棋以及日本的将棋同享盛名。据说国际象棋起源于易经的思想&#xff0c;棋盘是一个8*8大小的黑白相间的方阵&#xff0c;对应八八六十四卦&#xff0c;黑白对应阴阳。而我们的主人公小Q&#xff0c…

机器学习:Scikit-learn与特征工程

“数据决定了机器学习的上限&#xff0c;而算法只是尽可能逼近这个上限”&#xff0c;这句话很好的阐述了数据在机器学习中的重要性。大部分直接拿过来的数据都是特征不明显的、没有经过处理的或者说是存在很多无用的数据&#xff0c;那么需要进行一些特征处理&#xff0c;特征…

Mvc系统学习9——Areas学习

在Mvc2.0中&#xff0c;新增加了一个特性就是Areas。在没有有使用Areas的情况下&#xff0c;我们的Mvc项目组织是下面这样的。当项目庞大的时候&#xff0c;Controllers,Model,View文件下下面势必会有很多文件。项目将难以管理。 通过使用Areas使我们可以很好的组织项目&#x…

天池 在线编程 数组游戏

文章目录1. 题目2. 解题1. 题目 样例 1 输入: [3, 4, 6, 6, 3] 输出: 7 说明: [3, 4, 6, 6, 3] -> [4, 5, 7, 6, 4] -> [5, 6, 7, 7, 5] -> [6, 7, 8, 7, 6] -> [7, 8, 8, 8, 7] -> [8, 9, 9, 8, 8] -> [9, 9, 10, 9, 9] -> [10, 10, 10, 10, 10] 来源&a…

机器学习:sklearn数据集与机器学习组成

机器学习组成&#xff1a;模型、策略、优化 《统计机器学习》中指出&#xff1a;机器学习模型策略算法。其实机器学习可以表示为&#xff1a;Learning RepresentationEvalutionOptimization。我们就可以将这样的表示和李航老师的说法对应起来。机器学习主要是由三部分组成&…

天池 在线编程 分割数组

文章目录1. 题目2. 解题1. 题目 来源&#xff1a;https://tianchi.aliyun.com/oj/164426199705086870/193936950952137407 2. 解题 class Solution { public:/*** param arr: an inter array * return: return the min sum*/int splitArray(vector<int> &arr) {// …

C++ 添加程序图标到我的电脑

&#xff23;&#xff0b;&#xff0b; 像我的电脑中 百度网盘的 那图标快捷方式。如何生成的呢&#xff1f;设置程序图标到我的电脑 请看下边代码 就ok了(*^__^*) 嘻嘻…… 类似下图&#xff1a; 大家如果看我下边的不是很清楚&#xff0c;可以下载这个具体工程&#xff1b…

LeetCode 1663. 具有给定数值的最小字符串(贪心)

文章目录1. 题目2. 解题1. 题目 小写字符 的 数值 是它在字母表中的位置&#xff08;从 1 开始&#xff09;&#xff0c;因此 a 的数值为 1 &#xff0c;b 的数值为 2 &#xff0c;c 的数值为 3 &#xff0c;以此类推。 字符串由若干小写字符组成&#xff0c;字符串的数值 为…