「数据ETL」从数据民工到数据白领蜕变之旅(五)-使用dotNET脚本实现SSIS无限扩展...

在前面一文中,正式引出了SSIS专业数据ETL工具,笔者仅能作引路作用,未能使用文章的方式给大家写出更多的入门级的文章,希望读者们可以自行根据分享的学习资源自行完成入门及进阶的学习。
同时也想给大家分享到SSIS的能力边界性,让大家可以先打开思路,见识到其能力的所在,日后在学习过程中,可以有更清晰的进步方向。

dotNET遇上SSIS

在笔者过往的文章里已经反复提到过,学习dotNET的性价比是比较高的,不止于可以做任何专业程序员做的领域,更是可以让我们这些业余的人员大有作为,例如可以开发OFFICE插件,可以使用PowerShell来做运维(会dotNET的很快上手,都是广义的dotNET体系),同时在微软的产品系里开放了各产品的对象模型,使我们可以轻松地和各大产品作交互如Windows的WMI模型,Sqlserver的SMO、AMO模型,当然还有我们熟悉的OFFICE对象模型等。

今天来到SSIS中,我们可以有另外一层能力,让dotNET和SSIS集成,在SSIS中,提供了VSTA的开放接口(Visual Studio Tools For Application),相对于VSTO(Visual Studio Tools For Office)来说,一个是对OFFICE产品,一个是对程序,这里的程序就是SSIS。

所以我们可以在SSIS环境下使用dotNET语言,这个极大地增强了我们的数据ETL能力,大凡dotNET能够做的部分,SSIS也可以加上这些能力,并且起点是SSIS给我们做好了模板,自动化写了许多设计代码,就如Winform开发拖拉控件一样的体验,我们在SSIS中,VSTA已经为我们做了非常棒的框架,可以让我们在数据流中轻松访问我们的数据对象。

实际演示

本篇只是导读类,并非要手把手教会大家,读者们仅需了解下SSIS的功能扩展边界,评估此工具能够给自己的数据方案做到何种程度,真正要学习时,建议仍然需要按步就班,从低到高地不断地进步。

在dotNET的自带的类库中,已经提供了非常强大的数据处理能力,特别是linq查询和我们很常用到的文件类操作,字符串处理特别是正则处理等,这里不展开,此篇给大家一个开放的思路,怎样从外界寻获更多的资源来武装自己的数据处理方案,给大家带来在SSIS环境下调用百度AI接口,让非结构化的数据转换为可分析的结构化数据供下游Excel、PowerBI等分析工具使用。

在Excel催化剂上同样实现了此功能,详见以下文章。
第15波-接入AI人工智能NLP自然语言处理

准备工作

获取百度AI的SDK,可以在百度AI后台有跳转链接到github,下载整个项目再编译。

因SSIS需要签名的dll类库,在Nuget上的百度AI类库,没有进行签名操作,故不能直接在Nuget上下载。

同样地SSIS对外部dll引用的要求是需要注册到GAC容器中。所以需要对下载编译好的dll使用gacutil工具注册到GAC中,具体自行查阅相关文档。

使用脚本组件实现百度AI的调用

在本篇的SSIS包任务中,加上了一个脚本组件,从源Excel文件中抽取数据,经过脚本组件的转换,将内容发送到百度AI上,让其帮忙返回结果,最终转换后的结果写入到目标表中。

640?wx_fmt=png

脚本组件中,我们通过评论内容,经过百度AI的接口调用后,返回多列结构化定量的数据。

640?wx_fmt=png

使用的百度AI接口如下:

640?wx_fmt=png
640?wx_fmt=png

经过简单几句代码的调用,即可完成了我们所需的功能,能够有这样的能力,是基于百度已经给我们做好了SDK,直接调用即可,同时SSIS也根据我们需要的功能帮我们自动生成了强类型的类库供简单调用。

640?wx_fmt=png

SSIS中的VSTA框架已经帮我们做了大量的工作,根据我们界面的配置信息自动生成了代码Wrapper包装器。

640?wx_fmt=png

最后我们回到数据库中可发现,已经从我们Excel的两列数据,经过转换后,生成了其他四列的数据。此时我们已经完成了从非结构化的文本评论数据,转变为可分析的情感倾向的分析。整个过程无需我们懂什么高深的人工智能、机器学习之类的算法,只需懂自己想要什么,让BAT们帮我们做成即中。

640?wx_fmt=png

看到上图中有许多默认的0和结果为空的记录行,相信已经开始有读者想表达下意见,SSIS生成的数据不靠谱,调用20条,只有7条数据返回。

本次的测试恰恰让大家可以见识到企业级ETL的工具之威力,笔者完全不需懂多线程、并发性之类的高深知识,简单几句的业务转换代码,SSIS已经帮我们完成了并发性调用,并且调用的速度实在太快,连百度AI都不接受,直接返回错误告诉并发量超标了。

当然此仅演示示例,实际中因为外部接口的并发性限制等原因,需要限制速度等操作,需要根据实际情况再对代码进行优化,使其真正能够满足我们预期的需求。

结语

本篇带领读者们一窥SSIS的能力边界,让我们心中有数,具体使用SSIS有何不能做到的事情。

在我们中小企业的数据场景里,笔者这里可以很有把握地告之,实在没有什么是不能做到的,若有恐怕也仅仅是我们对其的认知水平和掌握水平的高低差异而已。

将程序员的广阔轮子世界接入SSIS中,并将各大厂商提供的SAAS消费级服务一并接入,恐怕只差我们的想像力而已,在SSIS的世界中,数据将如期地按我们想要的形式完成ETL的过程。

笔者未来聚焦在数据领域的分享,不限于Excel,会分享更多Sqlserver、dotNET、Azure、PowerBI等话题,升级数据分析的能力,欢迎继续关注。*

系列文章

从数据民工到数据白领蜕变之旅(一)-工具总览 https://www.jianshu.com/p/2bd3f90206ec
从数据民工到数据白领蜕变之旅(二)-重温Excel催化剂经典 https://www.jianshu.com/p/cb89929bb8ae
「数据ETL」从数据民工到数据白领蜕变之旅(三)-除了Excel催化剂之外PowerQuery值得期待 https://www.jianshu.com/p/d154b09c881d
「数据ETL」从数据民工到数据白领蜕变之旅(四)-有了PowerQuery还需要SSIS吗?https://www.jianshu.com/p/7ca5a3785bd0

关于Excel催化剂

Excel催化剂先是一微信公众号的名称,后来顺其名称,正式推出了Excel插件,插件将持续性地更新,更新的周期视本人的时间而定争取一周能够上线一个大功能模块。Excel催化剂插件承诺个人用户永久性免费使用!

Excel催化剂插件使用最新的布署技术,实现一次安装,日后所有更新自动更新完成,无需重复关注更新动态,手动下载安装包重新安装,只需一次安装即可随时保持最新版本!

Excel催化剂插件下载链接:https://pan.baidu.com/s/1Iz2_NZJ8v7C9eqhNjdnP3Q

640?wx_fmt=png
联系作者
640?wx_fmt=png
公众号

取名催化剂,因Excel本身的强大,并非所有人能够立马享受到,大部分人还是在被Excel软件所虐的阶段,就是头脑里很清晰想达到的效果,而且高手们也已经实现出来,就是自己怎么弄都弄不出来,或者更糟的是还不知道Excel能够做什么而停留在不断地重复、机械、手工地在做着数据,耗费着无数的青春年华岁月。所以催生了是否可以作为一种媒介,让广大的Excel用户们可以瞬间点燃Excel的爆点,无需苦苦地挣扎地没日没夜的技巧学习、高级复杂函数的烧脑,最终走向了从入门到放弃的道路。

最后Excel功能强大,其实还需树立一个观点,不是所有事情都要交给Excel去完成,也不是所有事情Excel都是十分胜任的,外面的世界仍然是一个广阔的世界,Excel只是其中一枚耀眼的明星,还有其他更多同样精彩强大的技术、工具等。*Excel催化剂也将借力这些其他技术,让Excel能够发挥更强大的爆发!

关于Excel催化剂作者

姓名:李伟坚,从事数据分析工作多年(BI方向),一名同样在路上的学习者。
服务过行业:零售特别是鞋服类的零售行业,电商(淘宝、天猫、京东、唯品会)

技术路线从一名普通用户,通过Excel软件的学习,从此走向数据世界,非科班IT专业人士。
历经重重难关,终于在数据的道路上达到技术平原期,学习众多的知识不再太吃力,同时也形成了自己的一套数据解决方案(数据采集、数据加工清洗、数据多维建模、数据报表展示等)。

擅长技术领域:Excel等Office家族软件、VBA&VSTO的二次开发、Sqlserver数据库技术、Sqlserver的商业智能BI技术、Powerbi技术、云服务器布署技术等等。

2018年开始职业生涯作了重大调整,从原来的正职工作,转为自由职业者,暂无固定收入,暂对前面道路不太明朗,苦重新回到正职工作,对Excel催化剂的运营和开发必定受到很大的影响(正职工作时间内不可能维护也不可能随便把工作时间内的成果公布于外,工作外的时间也十分有限,因已而立之年,家庭责任重大)。

和广大拥护者一同期盼:Excel催化剂一直能运行下去,我所惠及的群体们能够给予支持(多留言鼓励下、转发下朋友圈推荐、小额打赏下和最重点的可以和所在公司及同行推荐推荐,让我的技术可以在贵司发挥价值,实现双赢(初步设想可以数据顾问的方式或一些小型项目开发的方式合作)。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/314472.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

P3067 [USACO12OPEN]Balanced Cow Subsets G 折半搜索

传送门 文章目录目录题意:思路:目录 题意: 给你nnn个数,从中任意选出一组数,使这些数能分成和相等的两组,问有多少种选数方案。 2≤n≤20,1≤ai≤1e92\le n\le 20,1\le a_i\le 1e92≤n≤20,1≤ai​≤1e9 …

poj 2191 Mersenne Composite Numbers

思路 用pollard_rho miller_rabin来拆分数字&#xff0c;如果得到的质因子大于等于2的话就按照格式输出&#xff0c;否则就不是我们想要的梅森素数。 代码 /*Author : lifehappy */ // #pragma GCC optimize(2) // #pragma GCC optimize(3) // #include <bits/stdc.h>…

数据结构为什么那么难?

来源 | 异步 | 文末赠书2017年8月&#xff0c;本着让更多的人轻松学习算法的初心&#xff0c;我写作了第一本书《趣学算法》&#xff0c;该书在出版后受到广大读者一致好评&#xff0c;在一年内重印了10次&#xff0c;并输出了繁体版的版权。一位读者对我说&#xff0c;读这本书…

书籍推荐:《C#7.0本质论》

在dotNet平台中有多种开发语言可以使用&#xff0c;C#无疑是其中应用得最为广泛的。学习一门编程语言最好的方式就是找一本好书系统地学习&#xff0c;我读过的关于C#的书籍中&#xff0c;我认为下面三本最为经典&#xff1a;《C#本质论》&#xff1a;入门类&#xff0c;目前最…

乌龟棋(dp)

乌龟棋 思路 最优值问题&#xff0c;显然可以通过dpdpdp解决&#xff0c;我们定义dp[i][j][k][l]dp[i][j][k][l]dp[i][j][k][l]表示到达1i∗2∗j3∗k4∗l1 i * 2 * j 3 * k 4 * l1i∗2∗j3∗k4∗l这个点之前已经走过的价值最大的值(i,j,k,li, j, k, li,j,k,l分别是走一步&…

CF 1631 D. Range and Partition 尺取 + 前缀和

传送门 文章目录目录&#xff1a;题意&#xff1a;思路&#xff1a;目录&#xff1a; 题意&#xff1a; 给你一个长度为nnn的数组aaa以及kkk&#xff0c;让你选择一个值域[x,y][x,y][x,y]&#xff0c;满足能将该数组分成连续的kkk段并且每段中值域在[x,y][x,y][x,y]内的个数严…

gRPC的简单使用

前言八月初的时候&#xff0c;在公司内部做了一个主题为《gRPC的简单使用》的分享&#xff0c;其实就是和小伙伴们扯扯淡&#xff0c;现在抽空回忆一下&#xff0c;也算是一个小小的总结吧。现在市面上耳熟能详的RPC框架也很多&#xff0c;下面列举几个遇到比较多的。谷歌的gRP…

P6282 [USACO20OPEN] Cereal S 思维

传送门 文章目录目录&#xff1a;题意&#xff1a;思路&#xff1a;目录&#xff1a; 题意&#xff1a; 你有nnn头奶牛&#xff0c;mmm中不同种类的麦片&#xff0c;每个麦片只有一箱&#xff0c;给你每个奶牛第一和第二喜欢的麦片&#xff0c;奶牛会先看第一喜欢的是否有&am…

HDU 4417 Super Mario(莫队 + 树状数组 + 离散化)

Super Mario 思路 区间查找问题&#xff0c;容易想到离线莫队&#xff0c;确实这题就是莫队&#xff0c;接下来我们考虑如何维护区间高度值问题。 既然是离线嘛&#xff0c;我们容易想到离散化和他挂钩&#xff0c;想想这题是否需要离散化&#xff0c;高度的最大值是1000000…

生命周期结束,Spring Boot 1.x退役

一年前 Spring 官方宣布 Spring Boot 1.x 生命周期将于今年 8 月 1 日结束&#xff0c;如今时间已到&#xff0c;在发布 Spring Boot 1.5.22 的同时&#xff0c;Spring 确认将不再为 1.x 系列发布维护版本。官方希望用户尽快迁移到 Spring Boot 2.x 上&#xff0c;为此还制作了…

P3085 [USACO13OPEN]Yin and Yang G 点分治

文章目录题意&#xff1a;思路&#xff1a;传送门 题意&#xff1a; 给你一颗nnn个点的树&#xff0c;每条边为黑色或者白色&#xff0c;问满足以下条件的路径条数&#xff1a;路径上存在一个不是端点的点&#xff0c;使得两端点到该点的两条路径上两种颜色的边数相等。 1≤n…

G. Xor-MST(异或最小生成树)

G. Xor-MST 思路 异或最小生成树&#xff0c;这里采用了一种分治的方法来贪心求解最值&#xff1a; 首先我们对所有的点权值从小到大排个序&#xff0c;从高位开始在中间找到一个这个位置上的0&#xff0c;10&#xff0c;10&#xff0c;1分界点分成两个集合&#xff0c;然后…

CF 1638 E. Colorful Operations set 区间平推

文章目录题意&#xff1a;思路&#xff1a;传送门 题意&#xff1a; 给你一个数组aaa&#xff0c;初始价值全为000&#xff0c;颜色全为111&#xff0c;让后让你实现以下三个操作&#xff1a; 将[l,r][l,r][l,r]区间内的颜色都染成ccc。将所有颜色为ccc的位置价值都加上xxx。…

B Graph(异或最小生成树)

Graph 思路 图是联通的&#xff0c;并且加边的时候要保证环一定是异或值为0&#xff0c;所以我们可以保证从一个点到另一个点的路径异或值是不变的&#xff0c;这个时候就简单了&#xff0c;不就是一个异或最小生成树了嘛。 我们只要预处理一下&#xff0c;任选一个点作为根…

Apollo 配置中心:分布式部署

Apollo&#xff08;阿波罗&#xff09;是携程框架部门研发的分布式配置中心&#xff0c;能够集中化管理应用不同环境、不同集群的配置&#xff0c;配置修改后能够实时推送到应用端&#xff0c;并且具备规范的权限、流程治理等特性&#xff0c;适用于微服务配置管理场景。服务端…

CF 1637 D. Yet Another Minimization Problem dp + 思维

文章目录题意&#xff1a;思路&#xff1a;传送门 题意&#xff1a; 给你两个长度为nnn的数组a,ba,ba,b&#xff0c;每次交换可以选择一个iii&#xff0c;交换ai,bia_i,b_iai​,bi​&#xff0c;最小化∑i1n∑ji1n(aiaj)2∑i1n∑ji1n(bibj)2\sum_{i1}^n \sum_{ji1}^n(a_ia_j)…

各种逆元推导

逆元 求解一&#xff08;费马小定理&#xff09; ppp是一个质数&#xff0c;并且a%p̸0a \% p \not 0a%p​0&#xff0c;则有ap−1≡1(modp)a ^ {p - 1} \equiv 1 \pmod pap−1≡1(modp)&#xff0c;ap−2≡a−1a ^ {p - 2} \equiv a ^ {-1}ap−2≡a−1&#xff0c;即可得到…

使用Redis实现最近N条数据的决策

前言很多时候&#xff0c;我们会根据用户最近一段时间的行为&#xff0c;做出一些相应的策略&#xff0c;从而改变系统的运动轨迹。举个简单的例子来说明一下&#xff1a;假设A公司现在有两个合作伙伴(B和C)&#xff0c;B和C都是提供天气数据的&#xff0c;现在A公司做了一个聚…

CF 1635 D. Infinite Set 思维 + 二进制

文章目录题意思路传送门 题意 给你一个集合SSS&#xff0c;初始集合内含有nnn个数&#xff0c;让后按照一下三个规则无限的向集合中添加数&#xff1a; 对于所有的1≤i≤n,xai1\le i\le n,xa_i1≤i≤n,xai​都在集合中。对于所有的x2y1,y∈Sx2y1,y\in Sx2y1,y∈S&#xff0c…

2020杭电多校(二) New Equipments(最小费用最大流)

New Equipments 思路 数据已经有提示了b∗b<4∗a∗cb * b < 4 * a * cb∗b<4∗a∗c&#xff0c;这意味着&#xff0c;每一个a,b,ca, b, ca,b,c构成的二元一次方程只与xxx坐标最多相交一次&#xff0c;所以我们对每一个a∗i∗ib∗icya * i * i b * i c ya∗i∗ib∗…