知识管理系统Data Solution研发日记之十二 网页数据抓取Fetch,呈现Render,导出Export...

这篇文章是对第四篇文章《知识管理系统Data Solution研发日记之四 片段式数据解决方案》的补充,提供一套完整的解决方案。请先阅读那一篇文章来了解它的原理。

Rule Editor抓取数据

image

这里,主要的工作是设定目标地址,正则表达式规则。我生活在深圳,对深圳的IT行业比较关注,所以经常看下面的地址,http://www.iteer.net/modules/xdirectory/viewcat.php?cid=217来了解深圳的IT公司现状。

经常想到把这些数据抓取到自己的电脑中,这也是制作Data Loader的一个原因。请设定一个测试的页面地址为http://www.iteer.net/modules/xdirectory/singlelink.php?cid=217&lid=2558,然后应用下面的正则表达式来抓取数据。

公司名称: <div\sclass="*company_title"*>(?<title>\w*)\s?<?

地址:</STRONG>(?<address>.*)\s*

规模:</STRONG>(?<count>.*)人

联系电话.* </STRONG>(?<tel>.*)\s*<br>?

传真.* </STRONG>(?<fax>.*)\s*<br>?

邮件 :Email.*</strong>.*mailto:(?<mail>\w*@.*)"

网站.*\s*</STRONG><A\s*href="(?<website>.*)"\s*target

评分:id=xspace-rates-tip>(?<rating>.*)</SPAN>

评论时间: class=comDateCaption>.*(?<time>\d{4}-\d{2}-\d{2})

这一步做好了,保存规则。再打开Segment Run来选择你需要运行的规则,后台启动分析下载程序。

 

Form Designer 设计数据呈现界面

这一节的内容,可以参考窗体设计器一章的主题,效果如下图所示

image

之后,打开Segment Explorer,浏览运行这个窗体。可以轻松的实现以自定义的方式浏览数据。

 

Data Explorer 数据导出

当您对数据的内容感兴趣后,您可能会想到把这些数据导出系统,以做进一步的加工处理。Data Explorer则可以达到这个目的,实现在数据的导出功能。导出格式为Excel和Xml。请看下图

image

在Setting中配置连接字符串,第一行的右边则显示这个连接字符串下面的表,选择你需要的表数据,显示数据。

最右下角有两个按钮,Export Xls和Export Xml用于实现导出数据。

在这里,还有一个复杂的功能正在开发中。当您在Grid中点击一笔数据时,它应该可以弹出一个窗体,这个窗体就是前面的Form Designer中设计的窗体,并且把数据传递到这个新窗体中,以Detail明细的方式显示数据,像这样的效果

image

在前面显示的窗体,以自定义窗体的方式显示出来。这样做出来,即可以用Data Explorer以网格形式显示数据,如果对明细感兴趣,又可以以单一窗体的形式显示数据。这两者的结合,我以为是数据呈现的最佳方式。

通过对这几个应用程序组的学习,您应该对数据的抓取,呈现,导出有了完整的认识。这就是我设计片断式数据的处理流程。它达到的效果,可以很轻松的对数据进行再加工,再处理,而不仅仅是限于下载。

 

请到epn.codeplex.com(http://epn.codeplex.com/releases/view/68647)中下载最新版的Data Loader。

转载于:https://www.cnblogs.com/JamesLi2015/archive/2011/11/18/2254216.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/422672.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【算法设计与分析】15 分治策略:芯片测试

上一篇文章学习了【算法设计与分析】14 分治算法的一般描述和分析方法 文章目录1. 芯片测试1.1 一次测试的过程1.2 如何测试一块芯片的好坏1.3 蛮力算法1.4 分治算法设计思想1.41 分治算法的正确性证明1.42 时间复杂度分析2. 总结本篇文章借助具体的例子来学习分治策略。这个例…

批量 材质 调整_游戏图形批量渲染及优化:Unity静态合批技术

作者&#xff1a;枸杞忧天(本文首发于公众号“偶尔学学Unity”&#xff0c;文章仅为作者观点&#xff0c;不代表GWB立场)最近在准备公司的技术分享&#xff0c;主题是入门批量渲染&#xff0c;想着反正也总结了&#xff0c;不如充几篇博客吧&#xff0c;也算显得没有那么半途而…

【算法设计与分析】16 分治策略:快速排序(快速排序的时间复杂度计算)

上一篇文章学习了&#xff1a;【算法设计与分析】15 分治策略&#xff1a;芯片测试 文章目录1. 快速排序的基本思想1.2 时间复杂度的计算1.21 最坏情况时间复杂度计算1.22 最好情况时间复杂度1.23 平均时间复杂度计算2 总结1. 快速排序的基本思想 用首元素 x 作划分标准&#…

的run窗口不显示_「玩转deepin」如何安装VirtualBox增强功能使得deepin全屏显示?...

在Windows上通过Virtualbox安装deepin深度操作系统&#xff0c;安装完成后&#xff0c;为了让deepin可以在virtualbox中全屏显示&#xff0c;需要安装增强工具&#xff0c;但是不少同学点击安装增强工具后会出现无法安装的情况。在【设备】中点击【安装增强功能】时&#xff0c…

掘金浏览器插件安装图文教程

本文介绍如何安装掘金chrome插件&#xff1a; Chrome插件推荐 2018-02-27 21:53 chrome插件网近日推荐一款设计师开发人员人手必备的一款插件&#xff1a;掘金插件。有网友留言给笔者说希望整理出一套掘金插件详细的安装步骤。于是就有了今天的图文详解掘金插件安装步骤。第一…

【mysql技术内幕1】mysql基础架构-一条SQL查询语句是如何执行的

文章目录1 一条SQL查询语句是如何执行的2 mysql体系结构3 InnoDB存储引擎4 总结1 一条SQL查询语句是如何执行的 ​ 通常我们使用数据库&#xff0c;都是将数据库看成一个整体&#xff0c;我们的应用与数据库完全就是通过SQL语句进行交互。大多数开发者很少去了解数据库的内部实…

session实现机制_如何理解php session运行机制

php session运行机制就是客户端将session id传入到服务器中&#xff0c;服务器再根据session id找到对应的文件并将其反序列化得到session值&#xff0c;然后保存的时候先序列化再写入今天将要分享的知识点是PHP中的会话运行机制&#xff0c;对于熟悉PHP的开发者来说并不陌生&a…

【MySQL原理解析】01. 一条SQL查询语句是如何执行的

这是【MySQL原理解析】的第一篇文章&#xff0c;MySQL我看了很多的书与教程&#xff0c;对其原理有一定的理解&#xff0c;一直想写一系列的文章来把MySQL的原理给讲清楚&#xff0c;一直没有时间写&#xff0c;今天算是个开头吧。万事开头难&#xff0c;咱们先破了这个开头&am…

【转载】MOS开关(verilog)

MOS开关 一. MOS开关 1. NMOS 源极(d)接Gnd 一般情况下&#xff0c;可认为晶体管受栅极(g)电平VG的控制(control). 1). VGH&#xff0c;源极(s)与漏极(d)接通; 2). VGL&#xff0c;源极(s)与漏极(d)断开. 源极(s)与漏极(d)接通, 则漏极(d)被下拉到Gnd. 2. PMOS 源极(d)接VDD 1)…

【Linux进程、线程、任务调度】二 fork/vfork与写时拷贝 线程的本质 托孤 进程睡眠和等待队列

学习交流加&#xff08;可免费帮忙下载CSDN资源&#xff09;&#xff1a;个人微信&#xff1a; liu1126137994学习交流资源分享qq群1&#xff08;已满&#xff09;&#xff1a; 962535112学习交流资源分享qq群2&#xff08;已满&#xff09;&#xff1a; 780902027学习交流资源…

用Log4Net来记录系统的日志信息

[http://www.cnblogs.com/xhwy/archive/2011/11/25/2263495.html] 几乎所有的大型应用都会有自己的用于跟踪调试的API。因为一旦程序被部署以后&#xff0c;就不太可能再利用专门的调试工具了。然而一个管理员可能需要有一套强大的日志系统来诊断和修复配置上的问题。 经验表明…

扩展插件_Adobe扩展工具插件系列

Adobe系列软件相信大家都已了解到其功能的强大&#xff0c;除了软件之外Adobe系列的插件的功能也是不可忽略的。今天给大家分享的几款Adobe系列超强PS扩展工具&#xff0c;都是一些摄影师、设计师经常用的到的&#xff0c;可以提升不少工作效率&#xff0c;大家千万别错过哦&am…

【Linux进程、线程、任务调度】三 CPU/IO消耗型进程 吞吐率/响应 SCHED_FIFO算法与SCHED_RR算法 SCHED_NORMAL算法和CFS算法 nice与renic chrt

学习交流加&#xff08;可免费帮忙下载CSDN资源&#xff09;&#xff1a;个人微信&#xff1a; liu1126137994学习交流资源分享qq群1&#xff08;已满&#xff09;&#xff1a; 962535112学习交流资源分享qq群2&#xff08;已满&#xff09;&#xff1a; 780902027学习交流资源…

Java学习之路整理-技术书从入门到进阶最全50+本(珍藏版 )

学习交流加 个人微信&#xff1a;LyyCoder学习交流资源分享qq群1&#xff08;已满&#xff09;&#xff1a; 962535112学习交流资源分享qq群2&#xff1a; 780902027一.速读一遍&#xff08;最好在1~2天内完成&#xff09; 人的大脑记忆力有限&#xff0c;在一天内快速看完一本…

问题 seata_架构设计 | 基于Seata中间件,微服务模式下事务管理

一、Seata简介1、Seata组件Seata是一款开源的分布式事务解决方案&#xff0c;致力于提供高性能和简单易用的分布式事务服务。Seata将为用户提供了AT、TCC、SAGA、XA事务模式&#xff0c;为用户打造一站式的分布式解决方案。2、支持模式AT 模式基于支持本地 ACID 事务的关系型数…

程序员史诗级必读书单吐血整理四个维度系列80+本书(珍藏版)

互联网行业的特点是变化。若要提高互联网开发的技能&#xff0c;就必须跟上技术发展的步伐。埋首醉心于项目开发与实战&#xff0c;固然能够锤炼自己的开发技巧&#xff0c;却难免受限于经验与学识。 世界上并不存在速成的终南捷径&#xff0c;但阅读好的技术书籍&#xff0c;尤…

Quartus 中快速分配器件管脚

在quartus中分配器件管脚最笨的方法是对于器件手册一个一个的敲进去&#xff0c;这样做如果用到的管脚很好还没有发觉什么不好&#xff0c;但是当用到的器件管脚很多的时候就会发现很麻烦&#xff0c;而且容易出错。接下来我来介绍一种很方便的方法。 首先在txt文档中建立管脚和…

Web前端书单从HTML到JS到AJAX到HTTP从框架到全栈

前言&#xff1a;技术书阅读方法论 一.速读一遍&#xff08;最好在1~2天内完成&#xff09; 人的大脑记忆力有限&#xff0c;在一天内快速看完一本书会在大脑里留下深刻印象&#xff0c;对于之后复习以及总结都会有特别好的作用。 对于每一章的知识&#xff0c;先阅读标题&…

自定义背景_新版快绘精选:自定义背景墙 | 吊顶 | 云渲染滤镜升级

New自定义背景墙没有合适的背景墙样板&#xff1f;你需要一个全世界独一无二&#xff0c;独属于你monent的背景墙&#xff1f;没问题&#xff01;无论是要这样↓还是这样↓快绘都能帮到你&#xff01;-- 请观看视频 --New自定义吊顶除了可以自定义背景墙&#xff0c;新版快绘也…

cdn加载vue很慢_Vue.js 项目打包优化实践

首先上结果&#xff1a;把常用的 Vue&#xff0c;router&#xff0c;vuex&#xff0c;axios 的 runtime 包拆分了出来&#xff0c;改为 cdn&#xff1b;另外就是对于自己编写的业务代码进行分包&#xff0c;根据路由进行懒加载&#xff0c;可以较好的提高首屏加载速度。添加了全…