「数据ETL」从数据民工到数据白领蜕变之旅(五)-使用dotNET脚本实现SSIS无限扩展...

在前面一文中,正式引出了SSIS专业数据ETL工具,笔者仅能作引路作用,未能使用文章的方式给大家写出更多的入门级的文章,希望读者们可以自行根据分享的学习资源自行完成入门及进阶的学习。
同时也想给大家分享到SSIS的能力边界性,让大家可以先打开思路,见识到其能力的所在,日后在学习过程中,可以有更清晰的进步方向。

dotNET遇上SSIS

在笔者过往的文章里已经反复提到过,学习dotNET的性价比是比较高的,不止于可以做任何专业程序员做的领域,更是可以让我们这些业余的人员大有作为,例如可以开发OFFICE插件,可以使用PowerShell来做运维(会dotNET的很快上手,都是广义的dotNET体系),同时在微软的产品系里开放了各产品的对象模型,使我们可以轻松地和各大产品作交互如Windows的WMI模型,Sqlserver的SMO、AMO模型,当然还有我们熟悉的OFFICE对象模型等。

今天来到SSIS中,我们可以有另外一层能力,让dotNET和SSIS集成,在SSIS中,提供了VSTA的开放接口(Visual Studio Tools For Application),相对于VSTO(Visual Studio Tools For Office)来说,一个是对OFFICE产品,一个是对程序,这里的程序就是SSIS。

所以我们可以在SSIS环境下使用dotNET语言,这个极大地增强了我们的数据ETL能力,大凡dotNET能够做的部分,SSIS也可以加上这些能力,并且起点是SSIS给我们做好了模板,自动化写了许多设计代码,就如Winform开发拖拉控件一样的体验,我们在SSIS中,VSTA已经为我们做了非常棒的框架,可以让我们在数据流中轻松访问我们的数据对象。

实际演示

本篇只是导读类,并非要手把手教会大家,读者们仅需了解下SSIS的功能扩展边界,评估此工具能够给自己的数据方案做到何种程度,真正要学习时,建议仍然需要按步就班,从低到高地不断地进步。

在dotNET的自带的类库中,已经提供了非常强大的数据处理能力,特别是linq查询和我们很常用到的文件类操作,字符串处理特别是正则处理等,这里不展开,此篇给大家一个开放的思路,怎样从外界寻获更多的资源来武装自己的数据处理方案,给大家带来在SSIS环境下调用百度AI接口,让非结构化的数据转换为可分析的结构化数据供下游Excel、PowerBI等分析工具使用。

在Excel催化剂上同样实现了此功能,详见以下文章。
第15波-接入AI人工智能NLP自然语言处理

准备工作

获取百度AI的SDK,可以在百度AI后台有跳转链接到github,下载整个项目再编译。

因SSIS需要签名的dll类库,在Nuget上的百度AI类库,没有进行签名操作,故不能直接在Nuget上下载。

同样地SSIS对外部dll引用的要求是需要注册到GAC容器中。所以需要对下载编译好的dll使用gacutil工具注册到GAC中,具体自行查阅相关文档。

使用脚本组件实现百度AI的调用

在本篇的SSIS包任务中,加上了一个脚本组件,从源Excel文件中抽取数据,经过脚本组件的转换,将内容发送到百度AI上,让其帮忙返回结果,最终转换后的结果写入到目标表中。

640?wx_fmt=png

脚本组件中,我们通过评论内容,经过百度AI的接口调用后,返回多列结构化定量的数据。

640?wx_fmt=png

使用的百度AI接口如下:

640?wx_fmt=png
640?wx_fmt=png

经过简单几句代码的调用,即可完成了我们所需的功能,能够有这样的能力,是基于百度已经给我们做好了SDK,直接调用即可,同时SSIS也根据我们需要的功能帮我们自动生成了强类型的类库供简单调用。

640?wx_fmt=png

SSIS中的VSTA框架已经帮我们做了大量的工作,根据我们界面的配置信息自动生成了代码Wrapper包装器。

640?wx_fmt=png

最后我们回到数据库中可发现,已经从我们Excel的两列数据,经过转换后,生成了其他四列的数据。此时我们已经完成了从非结构化的文本评论数据,转变为可分析的情感倾向的分析。整个过程无需我们懂什么高深的人工智能、机器学习之类的算法,只需懂自己想要什么,让BAT们帮我们做成即中。

640?wx_fmt=png

看到上图中有许多默认的0和结果为空的记录行,相信已经开始有读者想表达下意见,SSIS生成的数据不靠谱,调用20条,只有7条数据返回。

本次的测试恰恰让大家可以见识到企业级ETL的工具之威力,笔者完全不需懂多线程、并发性之类的高深知识,简单几句的业务转换代码,SSIS已经帮我们完成了并发性调用,并且调用的速度实在太快,连百度AI都不接受,直接返回错误告诉并发量超标了。

当然此仅演示示例,实际中因为外部接口的并发性限制等原因,需要限制速度等操作,需要根据实际情况再对代码进行优化,使其真正能够满足我们预期的需求。

结语

本篇带领读者们一窥SSIS的能力边界,让我们心中有数,具体使用SSIS有何不能做到的事情。

在我们中小企业的数据场景里,笔者这里可以很有把握地告之,实在没有什么是不能做到的,若有恐怕也仅仅是我们对其的认知水平和掌握水平的高低差异而已。

将程序员的广阔轮子世界接入SSIS中,并将各大厂商提供的SAAS消费级服务一并接入,恐怕只差我们的想像力而已,在SSIS的世界中,数据将如期地按我们想要的形式完成ETL的过程。

笔者未来聚焦在数据领域的分享,不限于Excel,会分享更多Sqlserver、dotNET、Azure、PowerBI等话题,升级数据分析的能力,欢迎继续关注。*

系列文章

从数据民工到数据白领蜕变之旅(一)-工具总览 https://www.jianshu.com/p/2bd3f90206ec
从数据民工到数据白领蜕变之旅(二)-重温Excel催化剂经典 https://www.jianshu.com/p/cb89929bb8ae
「数据ETL」从数据民工到数据白领蜕变之旅(三)-除了Excel催化剂之外PowerQuery值得期待 https://www.jianshu.com/p/d154b09c881d
「数据ETL」从数据民工到数据白领蜕变之旅(四)-有了PowerQuery还需要SSIS吗?https://www.jianshu.com/p/7ca5a3785bd0

关于Excel催化剂

Excel催化剂先是一微信公众号的名称,后来顺其名称,正式推出了Excel插件,插件将持续性地更新,更新的周期视本人的时间而定争取一周能够上线一个大功能模块。Excel催化剂插件承诺个人用户永久性免费使用!

Excel催化剂插件使用最新的布署技术,实现一次安装,日后所有更新自动更新完成,无需重复关注更新动态,手动下载安装包重新安装,只需一次安装即可随时保持最新版本!

Excel催化剂插件下载链接:https://pan.baidu.com/s/1Iz2_NZJ8v7C9eqhNjdnP3Q

640?wx_fmt=png
联系作者
640?wx_fmt=png
公众号

取名催化剂,因Excel本身的强大,并非所有人能够立马享受到,大部分人还是在被Excel软件所虐的阶段,就是头脑里很清晰想达到的效果,而且高手们也已经实现出来,就是自己怎么弄都弄不出来,或者更糟的是还不知道Excel能够做什么而停留在不断地重复、机械、手工地在做着数据,耗费着无数的青春年华岁月。所以催生了是否可以作为一种媒介,让广大的Excel用户们可以瞬间点燃Excel的爆点,无需苦苦地挣扎地没日没夜的技巧学习、高级复杂函数的烧脑,最终走向了从入门到放弃的道路。

最后Excel功能强大,其实还需树立一个观点,不是所有事情都要交给Excel去完成,也不是所有事情Excel都是十分胜任的,外面的世界仍然是一个广阔的世界,Excel只是其中一枚耀眼的明星,还有其他更多同样精彩强大的技术、工具等。*Excel催化剂也将借力这些其他技术,让Excel能够发挥更强大的爆发!

关于Excel催化剂作者

姓名:李伟坚,从事数据分析工作多年(BI方向),一名同样在路上的学习者。
服务过行业:零售特别是鞋服类的零售行业,电商(淘宝、天猫、京东、唯品会)

技术路线从一名普通用户,通过Excel软件的学习,从此走向数据世界,非科班IT专业人士。
历经重重难关,终于在数据的道路上达到技术平原期,学习众多的知识不再太吃力,同时也形成了自己的一套数据解决方案(数据采集、数据加工清洗、数据多维建模、数据报表展示等)。

擅长技术领域:Excel等Office家族软件、VBA&VSTO的二次开发、Sqlserver数据库技术、Sqlserver的商业智能BI技术、Powerbi技术、云服务器布署技术等等。

2018年开始职业生涯作了重大调整,从原来的正职工作,转为自由职业者,暂无固定收入,暂对前面道路不太明朗,苦重新回到正职工作,对Excel催化剂的运营和开发必定受到很大的影响(正职工作时间内不可能维护也不可能随便把工作时间内的成果公布于外,工作外的时间也十分有限,因已而立之年,家庭责任重大)。

和广大拥护者一同期盼:Excel催化剂一直能运行下去,我所惠及的群体们能够给予支持(多留言鼓励下、转发下朋友圈推荐、小额打赏下和最重点的可以和所在公司及同行推荐推荐,让我的技术可以在贵司发挥价值,实现双赢(初步设想可以数据顾问的方式或一些小型项目开发的方式合作)。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/314472.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构为什么那么难?

来源 | 异步 | 文末赠书2017年8月,本着让更多的人轻松学习算法的初心,我写作了第一本书《趣学算法》,该书在出版后受到广大读者一致好评,在一年内重印了10次,并输出了繁体版的版权。一位读者对我说,读这本书…

书籍推荐:《C#7.0本质论》

在dotNet平台中有多种开发语言可以使用,C#无疑是其中应用得最为广泛的。学习一门编程语言最好的方式就是找一本好书系统地学习,我读过的关于C#的书籍中,我认为下面三本最为经典:《C#本质论》:入门类,目前最…

gRPC的简单使用

前言八月初的时候,在公司内部做了一个主题为《gRPC的简单使用》的分享,其实就是和小伙伴们扯扯淡,现在抽空回忆一下,也算是一个小小的总结吧。现在市面上耳熟能详的RPC框架也很多,下面列举几个遇到比较多的。谷歌的gRP…

生命周期结束,Spring Boot 1.x退役

一年前 Spring 官方宣布 Spring Boot 1.x 生命周期将于今年 8 月 1 日结束,如今时间已到,在发布 Spring Boot 1.5.22 的同时,Spring 确认将不再为 1.x 系列发布维护版本。官方希望用户尽快迁移到 Spring Boot 2.x 上,为此还制作了…

Apollo 配置中心:分布式部署

Apollo(阿波罗)是携程框架部门研发的分布式配置中心,能够集中化管理应用不同环境、不同集群的配置,配置修改后能够实时推送到应用端,并且具备规范的权限、流程治理等特性,适用于微服务配置管理场景。服务端…

使用Redis实现最近N条数据的决策

前言很多时候,我们会根据用户最近一段时间的行为,做出一些相应的策略,从而改变系统的运动轨迹。举个简单的例子来说明一下:假设A公司现在有两个合作伙伴(B和C),B和C都是提供天气数据的,现在A公司做了一个聚…

为什么我不喜欢数据库三范式

插曲最近,一个远房亲戚的小表弟准备选修专业找到我问:"哥,现在学数据库有没有前途阿?""当然有啊,前途大大的呢""那我现在开始学数据库,需要先从什么开始呢?""学课程的话&#xf…

硬货 - 技术人也能轻松玩转公众号?正确姿势竟然是...

最近在知乎上看到关于「公众号是否有“前”途」的相关问题... 问题下面有些精华回答~微信公众号还有“前”途吗? - 知乎https://www.zhihu.com/question/324575670很好的问题!作为一个技术人,我决定将此问题和自身情况结合起来,于…

你必须知道的Dockerfile

本篇已加入《.NET Core on K8S学习实践系列文章索引》,可以点击查看更多容器化技术相关系列文章。本文预计阅读时间为5分钟。01—关于Dockerfile在Docker中创建镜像最常用的方式,就是使用Dockerfile。Dockerfile是一个Docker镜像的描述文件,我…

RabbitMQ 死信/死信队列

一、RabbitMQ 死信/死信队列1、DLXDead Letter Exchange 的缩写DLX(Dead Letter Exchanges)死信交换,死信队列本身也是一个普通的消息队列,在创建队列的时候,通过设置一些关键参数,可以将一个普通的消息队列…

centos7 rabbitmq安装/配置

一、RabbitMQ简单介绍RabbitMQ就是当前最主流的消息中间件之一。RabbitMQ是一个开源的AMQP实现,服务器端用Erlang语言编写,支持多种客户端,如:Python、Ruby、.NET、Java、JMS、C、PHP、ActionScript、XMPP、STOMP等,支…

Hyper-V + CentOS7 安装视频教程

一、前言本文使用图文视频的方式展示安装Centos7,【喜欢看视频学习的童靴请拖至文尾观看视频】二、虚拟机配置指定虚拟机名称&安装位置选择虚拟机代数 第一代虚拟机(例如Server 2008等平台技术,支持Vista、Win7) 第二代虚拟机…

程序员修神之路--用NOSql给高并发系统加速

领取福利记得长按,领取技术书籍哦随着互联网大潮的到来,越来越多网站,应用系统需要海量数据的支撑,高并发、低延迟、高可用、高扩展等要求在传统的关系型数据库中已经得不到满足,或者说关系型数据库应对这些需求已经显…

限时团购,6.5折:《C# 7.0 核心技术指南》

大家好,经过近两年的翻译,《C# 7.0 核心技术指南》终于和大家见面了。全书由 ThoughtWorks 高级咨询师,资深 .NET 专家刘夏翻译。作为一本第七次再版的图书,此次翻译对书中的字句进行了重新整理。期间和图书的原作者 Joe Albahari…

Azure 命令行工具大混战,都是什么,该选哪个?

点击上方蓝字关注“汪宇杰博客”导语最近在学习 Azure 的命令行玩法,发现官方有不止一种命令行工具,容易对新手产生混淆,本文将介绍各种工具都是干啥的,以及如何选择。目前,微软官方有3个Azure命令行工具,分…

揭秘鸿蒙生态背后的DevOps实践

(图片来源于网络)8月9日,华为发布了鸿蒙操作系统,在发布会上我们看到了鸿蒙系统的研发历程:2017年,鸿蒙内核1.0完成技术验证;2018年,鸿蒙内核2.0用于终端TEE;2019年&…

AT3557 Four Coloring 切比雪夫距离 + 四色构造

传送门 由于曼哈顿距离在图上显示的是一个棱形,并不是很好看,所以我们将其旋转454545,转换成切比雪夫距离,这样就变成了一个正方形,正方形内部的点距离都不超过ddd,此时可以将正方形内部的点看成一个整体&a…

SonarQube系列一、Linux安装与部署

来源:https://www.cnblogs.com/7tiny/p/11269774.html【前言】随着项目团队规模日益壮大,项目代码量也越来越多。且不说团队成员编码水平层次不齐,即便是老手,也难免因为代码量的增加和任务的繁重而忽略代码的质量,最终…

P2906 [USACO08OPEN]Cow Neighborhoods G 切比雪夫距离 + 并查集 + set

传送门 考虑将曼哈顿距离转换成切比雪夫距离,这样问题就变成了max(∣x1−x2∣,∣y1−y2∣)≤dmax(|x_1-x_2|,|y_1-y_2|)\le dmax(∣x1​−x2​∣,∣y1​−y2​∣)≤d,这个式子就很好看了,我们首先按照(x,y)(x,y)(x,y)排序,让后我…

2018-2019 ACM-ICPC, Asia Shenyang Regional Contest E. The Kouga Ninja Scrolls 切比雪夫距离 +线段树

传送门 将曼哈顿距离转换成切比雪夫距离,现在就是求max(∣x1−x2∣,∣y1−y2∣)max(|x_1-x_2|,|y_1-y_2|)max(∣x1​−x2​∣,∣y1​−y2​∣),显然我们可以将x,yx,yx,y分开考虑,下面以xxx为例。 考虑一段区间内不同门派的最大值和最小值&am…