《SAS编程与数据挖掘商业案例》学习笔记之十九

继续《SAS编程与数据挖掘商业案例》学习笔记,本文侧重数据处理实践,包括:HASH对象、自定义format、以及功能强大的正则表达式

一:HASH对象

Hash对象又称散列表,是根据关键码值而直接进行访问的数据结构,是根据关键码值而直接进行访问的数据结构,

sas提供了两个类来处理哈希表,用于存储数据的hash和用于遍历的hiter,hash类提供了查找、添加、修改、删除等方法,hiter提供了用于定位和遍历的firstnext等方法。

优点:键值的查找是在内存中进行的,有利于提高性能;

              hash表可以在数据步运行时,动态的添加更新或删除观测;

              hash表中可以很快的定位数据,减少查找次数;

常用方法:

definekey:定义键

Definedata:定义值

definedone:定义完成,可以载入数据

add:添加键值,如在hash表中已存在,则忽略;

replace:如果健在hash表中存在,则替换,如果不存在则添加键值

remove:清除键值对

find:查找健值,如果存在则将值写入对应变量

check:查找键值,如果存在则返回rc=0,不修改当前变量的值;

output:将hash表输出到数据集

clear:清空hash表,但并不删除对象

equal:判断两个hash类是否相等

 

find方法的示例:

libname chapt12 'f:\data_model\book_data\chapt12';

data results;

 if _n_=0 then set chapt12.participants;                  

   if _n_ = 1 then do;

    declare hash h(dataset:'chapt12.participants');    

    h.definekey('name');

    h.definedata('gender', 'treatment');

    h.definedone();

  end;

   set chapt12.weight;

  if h.find() = 0 then

    output;

run;

 

hiter对象的引例:

data patients;

  length patient_id $ 16 discharge 8;

  input patient_id discharge:date9.;

datalines;

smith-4123 15mar2004

hagen-2834 23apr2004

smith-2437 15jan2004

flinn-2940 12feb2004

;

data _null_;

  if _n_=0 then set patients;

  declare hash ht(dataset:"patients",ordered:"ascending");

  ht.definekey("patient_id");

  ht.definedata("patient_id", "discharge");

  ht.definedone();

  declare hiter iter("ht");

  rc = iter.first();

  do while (rc=0);

    put patient_id discharge:date9.;

    rc = iter.next();

  end;

run;

declare hiter iter("ht");hashht定义了一个遍历器iter,之后调用first方法将遍历器定位到hash表的第一条观测,然后使用next方法遍历hash表中的所有记录并输出。

 

商业实战-两个数据集的合并:

    data both1(drop=rc);    

      declare hash plan ();   

   rc = plan.definekey ('plan_id'); 

   rc = plan.definedata ('plan_desc'); 

   rc = plan.definedone ();  

   do until (eof1) ;     

     set chapt12.plans end = eof1;

     rc = plan.add ();    

  end;

  do until (eof2) ; 

     set chapt12.members end = eof2;

     call missing(plan_desc);

     rc = plan.find (); 

     output;   

  end;

  stop;

run;

上述程序可以简化为:

data both2;

   length plan_id $3 plan_desc $20;

   if _n_ = 1 then do;

         declare hash h(dataset:'chapt12.plans');

         h.definekey('plan_id');

         h.definedata('plan_desc');

         h.definedone();

         call missing(plan_desc);

      end;

   set chapt12.members;

   rc=h.find();

run;

二:format

自定义format

Proc Format;

    Value $ Sex_Fmt

    'F'=''

    'M'=''

    Other = '未知';

    Value Age_Dur

    Low-10="10岁以下"            

    11-13="11-13"

    14-<15="14-15"

    15-High="15岁以上";

Run;

应用:

Data  test;

Set  sashelp.class(keep=sex age);

x=put(sex,$sex_fmt);y=put(age,age_dur.);

Run;

三:正则表达式:

/.../  一个正则表达式的起止;

|  数项之间的选择,“或”运算;

()   匹配组,标记一个子表达式的开始和结束位置;

   除换行符以外的任意字符;

\w  任一单词字符,数字大小写字母以及下划线

\W  任一非单词字符

\s   任一空白字符,包括空格、制表符、换行符、回车符、中文全角空格等;

\S   任一非空白字符,

\d   0-9任一数字

\D  任一非数字字符

[...]

[^...]

[a-z]  az

[^a-z]  不在从az范围内的任意字符

 匹配输入字符串的开始位置

 匹配输入字符串的结尾位置

\b  描述单词的前或后边界

\B  表示非单词边界

 匹配0次或多次

+ 匹配一次或多次

 匹配零次或 一次

{n}  匹配n

{n,}  匹配n次以上

{n,m}  匹配nm

 

常用函数:

Prxparse     定义一个正则表达式

Prxmatch  返回匹配模式的首次匹配位置

Call prxsubstr   返回匹配模式在目标字符串的开始位置和长度

Prxposn    返回正则表达式子表达式对应的匹配模式值

Call  prxposn    返回正则表达式子表达式对应的匹配模式和长度

Cal l  prxnext  返回匹配模式在目标字符串中的多个匹配位置和长度

Prxchange    替代匹配模式的值

Call prxchange   替代匹配模式的值

 

eg1

data _null_;

   if _n_ = 1 then pattern_num = rxparse("/cat/");

  

   retain pattern_num;

   input string $30.;

   position = rxmatch(pattern_num,string);

   file print;

   put pattern_num= string= position=;

datalines;

there is a cat in this line.

does not match cat

cat in the beginning

at the end, a cat

cat

;

run;

eg2:数据验证

data match_phone;

   set chapt12.phone_numbers;

   if _n_ = 1 then pattern = prxparse("/\(\d\d\d\) ?\d\d\d-\d{4}/");

   retain pattern;

   if prxmatch(pattern,phone) gt 0 then output;

run;

找出不匹配的手机号码

data unmatch_phone;

   set chapt12.phone_numbers;

   where not prxmatch("/\(\d\d\d\) ?\d\d\d-\d{4}/",phone);

run;

Eg3:提取匹配某种模式的字符串

data extract;

   if _n_ = 1 then do;

      pattern = prxparse("/\(\d\d\d\) ?\d\d\d-\d{4}/");

      if missing(pattern) then do;

         put "error in compiling regular expression";

         stop;

      end;

   end;

   retain pattern;

   length number $ 15;

   input string $char80.;

   call prxsubstr(pattern,string,start,length);

      if start gt 0 then do;

      number = substr (string,start,length); 

      number = compress(number," ");

      output;

   end;

   keep number;

datalines;

this line does not have any phone numbers on it

this line does: (123)345-4567 la di la di la

also valid (123) 999-9999

two numbers here (333)444-5555 and (800)123-4567

;

run;

eg4:提取名字

data ReversedNames;

   input name & $32.;

   datalines;

Jones, Fred

Kavich, Kate

Turley, Ron

Dulix, Yolanda

;

data FirstLastNames;

   length first last $ 16;

   keep first last;

   retain re;

   if _N_ = 1 then

      re = prxparse('/(\w+), (\w+)/');

   set ReversedNames;

   if prxmatch(re, name) then

      do;

         last = prxposn(re, 1, name);

         first = prxposn(re, 2, name);

      end;

run;

注:1,2分别代表正则表达式中的两个组

eg5:提取符合规定的名字

data old;

   input name $60.;

   datalines;

Judith S Reaveley

Ralph F. Morgan

Jess Ennis

Carol Echols

Kelly Hansen Huff

Judith

Nick

Jones

;

data new;

   length first middle last $ 40;

   re1 = prxparse('/(\S+)\s+([^\s]+\s+)?(\S+)/o');

   re2 = prxparse('/(\S+)(\s+)([^\s]+\s+)(?)(\S+)/o');

   set old;

   id1=prxmatch(re1, name);

   id2=prxmatch(re2, name);

   if id1 then

      do;

         first = prxposn(re1, 1, name);

         middle = prxposn(re1, 2, name);

         last = prxposn(re1, 3, name);

      end;

   if id2 then test=prxposn(re1, 4, name);

   put test=;

run;

Eg6:返回匹配模式的多个位置

data _null_;

   expressionid = prxparse('/[crb]at/');

   text = 'the woods have a bat, cat, and a rat!';

   start = 1;

   stop = length(text);

   call prxnext(expressionid, start, stop, text, position, length);

      do while (position > 0);

         found = substr(text, position, length);

         put found= position= length=;

         call prxnext(expressionid, start, stop, text, position, length);

      end;

run;

注:首次执行call prxnext返回一个position,然后进入循环,在抽取满足条件的子串中,再次执行all prxnext,此时会返回下一个匹配的position

Eg7:替换文本

data cat_and_mouse;

   input text $char40.;

   length new_text $ 80;

   if _n_ = 1 then match = prxparse("s/[Cc]at/mouse/");

   retain match;

   call prxchange(match,-1,text,new_text,len,trunc,num);   

   if trunc then put "note: new_text was truncated";

datalines;

the Cat in the hat

there are two cat cats in this line

here is no replacement

;

run;

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/293434.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

do { ....} while(0) 在宏里冗余的意义

do { ....} while(0) 在宏里冗余的意义 cocos2d-x提供了许多宏模板&#xff0c;如&#xff1a;CC_SAFE_RETAIN(p),CC_SAFE_DELETE(p) 等等 查看一下CC_SAFE_RETAIN的源码&#xff1a; #define CC_SAFE_RETAIN(p) do { if(p) { (p)->retain(); } } while(0) 为什么…

iphone换机数据迁移_iPhone迁移数据到Android(相册与短信)

2020年09月20日前言&#xff1a;卖掉iPhone7暂时回到Android手机&#xff0c;然后需要将iPhone内的资料迁移到新手机中。我尽量不使用第三方工具实现迁移工作。一般新手机都会有迁移助手&#xff0c;但是都不完美&#xff0c;毕竟是两个不同手机系统&#xff0c;很多东西还是需…

网关和路由的区别

网关&#xff1a;网关实质上是一个网络通向其他网络的IP地址。比如有网络A和网络B&#xff0c;网络A的IP地址范围为“192.168.1.1~192. 168.1.254”&#xff0c;子网掩码为255.255.255.0&#xff1b;网络B的IP地址范围为“192.168.2.1~192.168.2.254”&#xff0c;子网掩码为25…

Java里阻塞线程的三种实现方法

在日常开发中&#xff0c;我们有时会遇到遇到多线程处理任务的情况&#xff0c;JDK里提供了便利的 ThreadPoolExecutor以及其包装的工具类Executors。但是我们知道 ExecutorService.excute(Runnable r)是异步的&#xff0c;超过线程池处理能力的线程会被加入到执行队列里。有时…

使用 dotnet-outdated 维护项目 nuget 包版本

使用 dotnet-outdated 维护项目 nuget 包版本Intro我们项目中或多或少都会有一些 NuGet 包&#xff0c;使用到 NuGet 包时&#xff0c;如何保证我们的 NuGet 包不会太旧呢&#xff1f;我们可以借助 dotnet-outdated 来检查项目中的 NuGet 包是否有更新Sample首先我们需要执行 d…

mysql-5.5.31主从复制

给数据库用户配置groupadd mysqluseradd -g mysql mysql -s /sbin/nologinrm -rf /home/mysqlmkdir -p /opt/mysqlchmod -R 755 /opt/mysqlchown -R mysql:mysql /opt/mysql准备工作&#xff1a;安装基本依赖包&#xff0c;先用yum安装cmake、automake 、autoconf &#xff0c;…

被一帮小姐姐围着是什么感觉?

1 阿姨&#xff1a;我靠灵魂呼吸...▼2 医学院护理班男生的日常▼3 嫌自己活太久了&#xff1f;▼4 看来还是作业太少了▼5 小孟老师&#xff0c;您妈&#xff01;▼6 哈哈哈哈哈&#xff0c;不行了...▼7 他今天是不会跟你走的&#xff01;&#xff01;&#xff01;▼8 …

OSI各层相关的协议

<pre id"best-content-639348667" class"best-text mb-10" name"code" style"white-space: pre-wrap; word-wrap: break-word;">一、<strong>OSI各层</strong> 物理层&#xff1a;EIA/TIA-232, EIA/TIA-499, V.35, …

仓库处理中 无法修改_上海电商仓储物流公司,冷链仓库-上海玖日仓储

首页 > 新闻列表 > 浏览文章发布时间&#xff1a;2020-10-21 15:03:33 浏览量&#xff1a; 4导读&#xff1a;上海玖日仓储为您提供上海电商仓储物流公司,冷链仓库的相关知识与详情&#xff1a; 货物出入库扫描功能&#xff0c;同时记录扫描时间&#xff1b;完善订单与仓…

java轻量级Http Server

lighttpd 官方主页&#xff1a;www.lighttpd.netLighttpd是一个德国人领导的开源软件&#xff0c;其根本的目的是提供一个专门针对高性能网站&#xff0c;安全、快速、兼容性好并且灵活的web server环境。具有非常低的内存开销&#xff0c;cpu占用率低&#xff0c;效能好&#…

使用CDN引用jQuery

CDN (Content Delivery Network) 内容分发网络。 Google 为一系列 JavaScript 库提供了免费的 CDN&#xff0c;包括&#xff1a; jQueryPrototypeMooToolsDojoYahoo! YUI如需在您的网页中使用 JavaScript 框架库&#xff0c;只需在 <script> 标签中引用该库即可&#xff…

13 个 C# 10 特性

常量的内插字符串C# 10 允许使用在常量字符串初始化中使用插值, 如下const string name "Oleg"; const string greeting $"Hello, {name}.";Console.WriteLine(greeting); // Output: Hello, Oleg.扩展属性模式从 C# 10 开始&#xff0c;您可以在适当的模…

nodejs安装express框架

安装express框架npm install express -gd-g代表安装到NODE_PATH的lib里面&#xff0c;而-d代表把相依性套件也一起安装。如果沒有-g的话会安装目前所在的目录(会建立一个node_modules的文件夹)&#xff0c;express –help 查看帮助cd /data/wwwroot/express –ejs –sessions m…

学习总结之数据挖掘三大类六分项

Data Mining可分为三大类六分项来说明&#xff1a; Classification和Clustering属于分类区隔类&#xff1b; Regression和Time-series属于推算预测类&#xff1b; Association和Sequence则属于序列规则类。 Classification是根据一些变量的数值做计算&#xff0c;再依照结果作分…

android studio button位置_免费的Android开发环境

Android Studio for mac是一个全面的Android开发环境&#xff0c;Android Studio帮助您设计&#xff0c;构建&#xff0c;测试和调试Android应用程序&#xff0c;利用Android Studio所有特色工具并开发出令人惊叹的应用程序。Android Studio是一个为Android平台开发程序的集成开…

TCP握手/挥手的过程分析

TCP连接建立 在TCP/IP协议中&#xff0c;TCP协议提供可靠的连接服务&#xff0c;采用三次握手建立一个连接。 服务器必须准备好接受外来的连接。这通过调用socket、 bind和listen函数来完成&#xff0c;称为被动打开(passive open)。 第一次握手&#xff1a;客户通过调用connec…

Android数据库Realm实践

Android开发中常用的数据库有5个&#xff1a; 1. OrmLite OrmLite 不是 Android 平台专用的ORM框架&#xff0c;它是Java ORM。支持JDBC连接&#xff0c;Spring以及Android平台。语法中广泛使用了注解&#xff08;Annotation&#xff09;。 2. SugarORM SugarORM 是 Android …

Dotnet 6.0 深度探索(一)

Dotnet 6.0 已来。Dotnet 6.0 大家都装了没&#xff1f;我打算开个专题&#xff0c;系统地写一写 Dotnet 6.0 在各个方面的特性&#xff0c;以及全新的开发方式。也是因为最近讨论 6.0 比较多&#xff0c;看到很多人的畏难情绪&#xff0c;所以打算写写相关的内容。了解了&…