标准结构化查询语言(Structured Query Language)简称SQL,sql是我们日常工作中使用最多一项技能,写sql可以说是一个可以干到退休的技能。看似简单,但要精通却很难。 sql包括增、删、改、查,创建表、删除表、修改表等等内容,我们今天所讲的sql是一种狭义上select语句,这个使用最频繁,也是最复杂的。写一篇关于技术类的文章,既要深刻,又要通俗易懂,的确要耗费我不少精力,如果大家觉得此文对你或者有需要的人有所帮助,整理不易,记得关注小编 欢迎您转发!
一、sql会不会淘汰?
大家满怀热情点进来学习一下sql,首先要搞清楚一个问题,sql会淘汰吗?要回答这个问题,首先有必要了解sql发展背景,它是关系型数据库诞生的产物,有时候不得不佩服这些先辈,当关系型数据库起步发展的时候,就制定了一个统一的操作标准,就是SQL标准,所有关系型数据库(mysql/mssql/oracle)都会实现这个标准,这也是为什么sql会长盛不衰的原因,所以sql会不会淘汰,要看关系型数据库会不会淘汰?到目前为止没有看到任何关系型数据库淘汰的迹象,传统关系型数据库过渡到分布式关系型数据库,这是未来极有可能发生的事。
你可能会问市面不是有一个nosql的东西?首先nosql翻译成中文,不是”没有sql“的意思,而是”不仅仅有sql,还有其它“,nosql是not only sql的简称。nosql说的一种补充,什么意思,sql主要处理结构化的数据,nosql主要处理非结构化的数据。目前来说nosql没有一个统一的标准,都是按照用途来发展,比如键值(Key-Value)存储数据库, Redis;列存储数据库,Cassandra;文档型数据库, MongoDb;图形(Graph)数据库,Neo4J。
二、什么是IT高手
扎实理论基础知识,这是决定一个人水平飞得有多高。灵活运用这个基础知识(非常难),才决定一个人水平有多牛。为什么我会说经常出现”卡壳“现象,有些看上去很难的问题,其实运用一些基础知识就可以解决,但是要做这一点非常困难。
我们通常对高手定义都是可以处理日常工作中一些难题,注意我说的是一些难题,不要期望解决所有的难题,什么是日常工作的难题?特点一:问题偶然出现,无法重现问题;特点二,没有明显的逻辑错误,没有解决问题思路;特点三:问题本身就很难(比如数据结构与算法)。比如,我们HIS里面医技系统就有这样一个难题一直无法解决,护士录入A代码记录,后台偶然间会保存B代码记录,半年时间偶然出现1,2次,但是我们在HIS程序里面各种极端操作测试,始终无法重现问题,实在令人不解!
在这里我分享一下曾经处理过难题,你会惊讶的发现,解决问题的方法很简单,都是用的最基本的基础知识解决的,但是你想到这种解决方法,非常不易!
第一个问题:使用netbeans开发环境,在书写js函数queryStr的时候,按ctrl+shift+F格式化代码的时候,偶然会出现结构混乱,有时候发现导航器js未出现这个函数,如下图所示:
问题原因: 原来js代码与html在同一个文件来写的,原来在queryStr函数是包含动态生成html代码的片断,虽然这个代码放变量赋值里面,在格式化的时候,netbeans依然会检测这个html是否合法,导致缩进混乱,和导航器分析不出这个函数。我个人猜测格式化的底层实现,将整个文档解析,解析html标签,即便html标签写在js字符串变量里面,如果没有完整配对,依然会出问题。
解决方法:保证queryStr涉及的html字符完整,并且里面提及的函数必须声明出来。
第二个问题:下面来分享mysql bug。通过mysqldump导出来sql脚本,测试还原过程中,出现[Err] 1064错误,跟踪到是以下语句出错,百思不得其解,当时写进数据库没有任何问题,为什么导出来,再导进去的时候就报错。
[Err] 1064 - You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near ''
质控科刘成章要求统计2018.04.01---2018-06-30门诊医生的收' at line 9
可能存在的原因:
UPDATE `info`.`fh_comm_detail` set `cl_proc` = ‘.....’ WHERE (`mxid` = '100005')
cl_proc后面的值当中包含/*,*/注释符号,mysql去解析的时候,触发bug,原本包含在‘’中字符串含义发生变化,导致语句报错。(但是我在mysql查询分析器,怎么样都模拟不出来这种错误,就是偶然发生)。
解决方法:将/*注释符号替换为其他字符即可,比如”--”,让其不触发解析注释串。
问题三:联网医保金额与本地程序计算,有少数患者偶尔会存在金额不一致问题。翻看程序代码左看右看,都没有问题,如下所示。
lc_jine_sum = round(tab_1.tabpage_1.dw_1.getitemnumber(1,"jine_total"),2)
问题原因:我突然想起一个基础知识,计算机浮点数本身是不准确的,每次运算都有可能得出不同的结果,既然不准确,为什么我们还会大规模使用计算机来解决问题,解决方法就是提高计算机处理精度,让它无限逼近准确。什么意思,我们大部分现实当中,大部分都是计算到2位小数,最多也是4位小数,但是计算机就无所谓,10-20位都可以处理,10-20位小数精度再截取2-4位小数,当然就可以做到准确无误。大家是否遇到过这种问题,明明只有一位小数,把这些数字加起来的时候,你会看到一长串小数,这就是计算机内部使用高精度计算的问题,如下图所示。
计算机内部使用高精度的小数(一般是10几位以上),来解决小数不准确的问题。所以我当时就把代码改了一下,果然改完以后,问题从此没有出现过。这就是利用基础知识去解决实际当中的难题,你看得我写的很简单,其实想到这个方法是非常困难的。
lc_jine_sum =round(tab_1.tabpage_1.dw_1.getitemnumber(1,"jine_total"),4) //先取出 4 位小数
lc_jine_sum = round(lc_jine_sum,2) //再进行 2 位小数四舍五入
三、解决一个sql问题基本思路
日常工作sql语句主要用途,临时统计数据、后台查数找问题原因、制作报表。拿到一个sql语句的问题首先我们先从业务角度分析,后台是否存在数据,它们是否存在相应关联?没有数据,没有关联,后继工作毫无意义。
举例说明,患者用药追踪,统计患者用了哪个厂家哪个批次的药品。统计的意义,如果发药哪个批次有问题,可以精准找到相关患者。第一个问题,后台有数据吗,有的。his里面基本上都有药品出入库、患者用药数据,但是药品管理的厂家、批次,与患者用药之间没有关联。这也是his系统里面的一个难题,目前我还没有看到靠谱的解决方案。由上述可以得知,患者用药追踪,这个问题无法用sql解决。
其次,通常你拿到一个稍微复杂sql问题一般不能一步到位写出来。别操之过急,学会化解问题。举例说明,统计历史连续某段时间内每日在院人数,假设his系统中没有生成数据(每天将在院人数数据拷贝生成一个中间表数据)。
第一步分解:假设你现在统计历史某日(2020-03-01)的在院人数,在院人数 = (入院日期 <= 在院人数 <= 出院日期) + 一直未出院的在院人数。
第二步分解:模拟生成连续某段时间,比如2020-03月份,再关联生成每日在院人数
最后,需要验证统计出来的数据是否正确,经过验证,统计出来的历史在院数据是完全正确的,发现有个别出现1,2个人的误差,是因为人为修改了”入院日期“,”出院日期“所致,如果你想检验sql水平怎么样,我给你一个判断标准,是否使用了中间表。严格来说,只要数据库存在数据,存在关联,就可以用sql语句查出来,如果你精通sql是不会用到中间表的。
四、SQL基础理论知识
掌握基础理论知识是成为SQL高手第一步,我不会照搬教科书式的讲课,我只会讲解我认为你最应该的掌握的3个知识点。
1、集合(Set)。我给大家一个简单的概念,sql里面一切皆集合。SQL 以关系代数为基础发展出来的一门语言,关系代数主要是“集合”。
sql语句形式:select .... from ....
集合在sql当中的表现形式:每一个select语句都是一个集合,写在from后面的每个表、子查询、视图可以算作一个集合。
2、笛卡尔积
select * from table1,table2,table1存在a列m行,table12存在b列n行,最后形成的集合是(a+b)列,(m*n)行记录。我们学计算机你会发现一个现象,越往前追溯,都会一个简单模型,如果你把所有sql问题往前推,最后都会看到 “笛卡尔积”的身影。
我举一个简单的例子,SQL理论中会把选取字段这个操作叫作“投影(project) ”。我不知道大家有无想过这个问题,为什么叫“投影"这个概念,而不是叫其他名称,因为任何sql语句其实到最后都是回归一个“笛卡尔积”,你在选取字段操作,好似对“笛卡尔积”做了一次“投影"。
3、集合之间的关系
集合之间的关系 一对一、一对多(最频繁)、多对多(几乎不用),在数据库表中通常用FOREIGN KEY表示一对多的关系 。为什么要关注它们之间的关系,主要写sql的语句发现记录重复现象,你一定要检查是不是一对多,多对多之间的关系。但是当sql语句复杂以后了,即便你分析清楚集合之间的关系,很可能出现记录重复的现象,当与你的预期不符,我们可以distinct去重。
五、SQL中实战技巧
这次我不再分析如何去书写一个sql语句,我相信大家多多少少会写sql。我只是跟大家分享一下我掌握的技巧。
1、能少写,就不要多写(write less,do more)。为什么要这样,第一个提高效率;第二个减少出错几率。举例说明:假设我们写内连接语句。其实是有2种写法,我推荐大家使用第一种写法。
特别注意在oracle数据库当中,左连接、右连接有一种简写的方式。
2、为什么有时候别名需要增加双引号。当你的别名,包含特殊符号的时候,就要增加双引号,比如+、-、*、/、(、)。
3、使用null注意事项。null指的是理论意义上的绝对的空,不指任何含义。所以空字串、空数组、空对象表示含义的空,不是null。所以null一般使用身份运算符 is,以示区分,is null或者is not null。像python是用is判断,但是java,js中用==来判断,有些编程语言对这个问题并没有严格区分。
4、union 和union all之间的区别。union将两个集合去掉重复记录合并在一起,union all只是简单合并在一起。
5、group by使用问题。有时候会发现聚合函数,感觉数值明显错误,先去掉group by 查看原始记录,看where条件是否写错。
6、充分利用数据库提供函数,简化sql书写难度。举例说明:同时统计采购物品A、B、C、D分类的小计
同时统计某个科室的出库给中心药房的基数、节约的小计。
当然我不可能穷举所有的技巧,我只是把我使用最多一些技巧分享给大家,精通sql需要大家长期实践。
六、案例分析
我曾经收到来自基层医疗机构的多位小伙伴的求助,他们在写sql的时候出现“卡壳”问题。其实不管使用oracle、mssql、mysql解决问题的原理思路都是一样,只不过表现形式不同。以下分享协助小伙伴处理问题2个案例。
案例一:某小伙伴遇到数据上报问题,某个药品入库与出库数据需要在同一行展示,因为“入库与出库”来源于不同的表,小伙伴用了一种最原始的方法来处理。小伙伴的解决方案,把“入库数据”统计出来放入一个中间表,把“出库数据”统计出来放入一个中间表,再将两个中间表关联查询。
小伙伴感觉这样处理比较麻烦,期望能用一条sql语句解决问题。我帮小伙伴分析是否可以用一条sql搞定的可能性,第一,对于来自于不同来源数据“入库”和“出库”,相当于不同的集合,可以使用union连起来;第二,union合并有个特点,要求两个集合是相同字段类型,相同的字段的个数,缺少的字段可以使用虚拟列来解决;第三,将union结果当作子查询(相当于得到一个新的集合),再进行group by处理,可以完成整个操作。 最终sql语句部分截图如下所示:
案例二:某小伙伴,制作检验视图给第三方调用,当某个检验结果,超过了正常范围,显示↑,↓,否则为空,如下图所示。
小伙伴在百度搜寻很多资料或许也是看了我的文章,想到了可以用case when来解决这个问题,但是执行过程中报“sql server 从数据类型varchar 转换为 float时出错”。
因为我对mssql不熟悉这个问题对于我来说还是有一定的难度。我的思考过程如下,既然是数据类型出错,ISNUMERIC(b.lac13) > 0,这个条件嫌疑就很大,isnumeric没有真正把“数字值”过滤干净,我百度一下isnumeric返回值,只有两个返回值1,0。我当时敏锐感觉到问题就在这里,ISNUMERIC(b.lac13) > 0这种写法本身就是一个“坑”,假设判断ISNUMERIC(‘阴性’) 返回0,0>0就成立,convert去转换的时候就会报“sql server 从数据类型varchar 转换为 float时出错”。
我叫小伙伴改成ISNUMERIC(b.lac13) and CONVERT(float, b.LAC10) < CONVERT(float, b.lac13),再测试,果然问题就解决了。1代表true,0代表false这个习惯是从C语言那里继承过来的。不过小伙伴有点担心,如果ISNUMERIC(‘阴性’) and CONVERT(float, ‘阴性’) 这样判断不是一样有问题吗?我了解小伙伴这个担心,如果他掌握一个基础知识,这种担心是完全是多余的。什么意思,一般编程语言都会有一个if条件熔断机制。举例说明:条件1 and 条件2 and 条件3,假设条件1是false,就可以决定整个表达式的值,意味着条件2 , 条件3不会再去做判断处理,就好像发生了“熔断”。再比如:条件1 or 条件2 or 条件3,假设条件1是true,就可以决定整个表达式的值,意味着条件2 , 条件3不会再去做判断处理。
如果小伙伴还是不放心,可以将条件改成ISNUMERIC(b.lac13) == 1,就不会存在理解不了这个问题了。
七、总结
俗说“光说不练假把式”。多写sql才能掌握真技术,同时也要不停的跳出自己的“舒适区”。为什么有人干了10年,水平还是很菜,因为他只不过把有些事情重复干了10年而己,并没有真的成长。每次写sql的时候,能不能不用中间表、能不能再简单一点,每次挑战一下自己,完成同样的效果。所谓的高手,大部分都在挑战自己能力边界。最后祝大家都从文中有所收获,成为sql高手!