转载地址http://www.3q2008.com/soft/search.asp?keyword=139
前言:
为何口出狂言,作任何VB和ASP的系统, 这个就是很好的一个证明 :) 又有些狂了...
数据库操作谁都会,接触的多了也没什么难的,VB编程难在哪?算法上,这个是一个算法题的毕业设计
哈哈忙活了足足有一○小时, 大多数毕业设计都是 数据库编程... 你这个是个算法很累脑子哈哈,不过也摆平了.
样子有些像外挂, 跟句您的设定检查每个字段的 数据类型,或是EXCEL的每个列 下面有截图 请查看 条件设置写在程序里了,当然若写程序动态的 ,这个就真正成为了一个数据质量分析的工具了,没去研究他, 因为不知道写出来是否 会有人去用他, 这里只是一个毕业设计 下面有源码的截图
本系统不单单是个毕业设计,而且是一个产品,当然您若有兴趣将他继续新增功能, 可以跟我联系,我可以按您的要求去修改,或是专门给您定做, 您获得代码后也可以自己改, 没有什么版权 :) 既然放上来了, 就当他是毕业设计出售了 :) 联系方式在网页的最下方 |
要求
数据质量诊断软件设计要求
目标:该软件主要是为了帮助企业对其拥有的数据库中的数据质量做一个诊断。可以很直观地告诉诊断出数据质量状态。
软件功能设定:
1. 数据读取: 读取不同的数据库中的数据:
数据格式:DELIMITED(包括TABLE,COMMA,SPACE。。。)
EXCEL/ACCESS,DBF,MS SQL/SYBASE/ORACLE/IBM DB2
操作系统:Windows为主,如果能够兼容别的操作系统更好Unix,LINUX
2. 数据转换:读取的数据会存在数据的字段名称不统一的问题。如zip code,不同的公司有不同命名方法,可以是ZIP,zip_code,yzbm,yb,postal_code。需要把这些字段匹配到软件中的标准字段中
3. 数据字段:软件只关注比较重要的字段的诊断。这些关键的字段包括:
a) 直邮相关联的字段:
Zip:- 邮政编码(6位数字以文本存储)
State::省份(至少2个中文)
City: 城市(至少2个中文)
Address_1: 地址1(至少6个中文或10个单字节)
Address_2: 地址2(没有限制)
Address_3: 地址3 (没有限制)
b) 电子邮件相关联字段:
Email: 电子邮件(主要做格式的有效性检查,可以用正则表达式)
c) 手机相关联的字段:
Mobile: 手机号码或者小灵通
d) 电话相关联的字段:
Area_code: 电话区号 (3位数字以文本形式存在)
Phone:电话号码 (7位数字或8位数字以文本形式存在)
Phone_Extention: 分机号码 (没有限定)
e) 传真相关联的字段:
FAX:传真号码(7位数字或8位数字以文本形式存在)
FAX_Extention: 分机号码 (没有限定)
f) 其他字段:
反映其他重要意义的字段,比如:
性别,年龄,职业,收入,
行业,所有制,开业年限,员工人数,销售额,
4. 完整性诊断:软件主要要实现对以上字段的完整性检验,然后反馈回一个结果。
5. 完整性诊断规则:如何检验数据的完整性,规则如下
1. 如果字段的值为空,那结果是Missing,输出结果有个空和非空的比例
2. 如果字段的值为非空,那么检查完整性,结果可以是非空并且完整和非空不完整2个结果:
Zip:- 邮政编码(6位数字以文本形式存在)
State::省份(至少2个中文 – 可以有31个省的名称列表来判断,它们是:北京 上海 江苏 浙江 安徽 湖北
江西 黑龙江 吉林 辽宁 天津 内蒙古
河北 山东 山西 河南 广东 广西
海南 福建 湖南 新疆 西藏 青海
四川 重庆 云南 贵州 陕西 甘肃
宁夏)
City: 城市(至少2个中文 – 或者把中国的城市和省以及电话区号的对照表,这样可以做相关性检查)
Address_1: 地址1(至少6个中文或10个单字节)
Address_2: 地址2(没有限制)
Address_3: 地址3 (没有限制)
Email: 电子邮件(主要做格式的有效性检查,可以用正则表达式:
'/\w[-.\w]*\@[-\w]+(\.[-\w]+)*\.(com|edu|gov|int|mil|net|org|biz|info|name|museum|coop|aero|[a-z][a-z])/ '),如果正则表达式算法不容易实现,可以是:
必须有@, @的位置不能在前3个字节,前三个字节是字母或者下划线
Mobile: 手机号码或者小灵通(手机号码是11位,小灵通是7位或8位)
Area_code: 电话区号 (3位或4位数字以文本形式存在,但是有的公司的数据对电话的格式并没要求,并不一定是区号+电话号码+分机,这个在数据倒入需要考虑解决,或者在对这个字段的判定上需要有所改变,比如: 最少7位,最多17位(包括区号,电话和分机))
Phone:电话号码 (7位数字或8位数字以文本形式存在)
Phone_Extention: 分机号码 (没有限定)
FAX:传真号码(7位数字或8位数字以文本形式存在)
FAX_Extention: 分机号码 (没有限定)
******************************
报告生成日期:2006-5-28 22:12:34
数据表名称为: Sheet$
数据表总记录数为:6062
统计信息如下************************
******************************
字段名: [ZIPCODE]
邮件检查
合法邮件记录数为:0
占总数:0%
电话小灵通传真号检查
合法记录数为:6057
占总数:99.92%
区号检查
合法记录数为:0
占总数:0%
性别检查
合法记录数为:591
占总数:9.75%
空字符检查
合法记录数为:591
占总数:9.75%
字符长度检查
合法记录数为:0
占总数:0%
******************************
**************************..
转载地址http://www.3q2008.com/soft/search.asp?keyword=139