目录
1.字符型向量
2. paste() 函数
3.转换大小写
4.字符串长度
5.取子串
6. 类型转换
7. 字符串拆分
8.字符串替换功能
9.正则表达式
1.字符型向量
字符型向量是元素为字符串的向量。如
s <- c('abc', '', 'a cat', NA, ' 李明')
s
返回:
2. paste() 函数
针对字符型数据最常用的 R 函数是 paste() 函数。
paste() 用来连接两个字符型向量,元素 一一 对应连接,默认用空格连接。如
paste(c("ab", "cd"),c("ef", "gh"))
返回:
上面还等于
c("ab ef", "cd gh")
paste() 在连接两个字符型向量时采用 R 的一般向量间运算规则,而且可以自动把数值型向量转换为字符型向量。可以作一对多连接,如
paste("x", 1:3)
返回:
我们还可以用 sep= 指定分隔符,如
paste("x", 1:3, sep="")
返回:
还可以使用 collapse= 参数可以把字符型向量的各个元素连接成一个单一的字符串,如
paste(c("a", "b", "c"), collapse="")
返回:
3.转换大小写
toupper() 函数把字符型向量内容转为大写,如
toupper('aB cd')
返回:
tolower() 函数把字符型向量内容转为小写,如
tolower(c('aB', 'cd'))
返回:
4.字符串长度
用 nchar(x, type='bytes') 计算字符型向量 x 中每个字符串的以字节为单位的长度,这一点对中英文是有差别的,中文通常一个汉字占两个字节,英文、字母、数字、标点占一个字节。如
x1 <- "i love you"
nchar(x1, type='bytes')
x2 <- "我爱你"
nchar(x2, type='bytes')
返回:
从结果可以看到,空格也算一个长度
用 nchar(x, type='chars') 计算字符型向量 x 中每个字符串的以字符个数为单位的长度,这时一个汉字算一个单位。
x1 <- "i love you"
nchar(x1, type='chars')
x2 <- "我爱你"
nchar(x2, type='chars')
返回:
5.取子串
R语言中,序号从1开始。
substr(x, start, stop) 从字符串 x 中取出从第 start 个到第 stop 个的子串,如
substr('JAN07', 1, 3)
返回:
如果 x 是一个字符型向量,substr 将对每个元素取子串。如
substr(c('JAN07', 'MAR66'), 1, 3)
返回:
用 substring(x, start) 可以从字符串 x 中取出从第 start 个到末尾的子串。如
substring(c('JAN07', 'MAR66'), 4)
返回:
6. 类型转换
用 as.numeric() 把内容是数字的字符型值转换为数值,也可以转换一个向量的每个元素为数值型,如
substr('JAN07', 4, 5)substr('JAN07', 4, 5) + 2000as.numeric(substr('JAN07', 4, 5)) + 2000as.numeric(substr(c('JAN07', 'MAR66'), 4, 5))
返回:
用 as.character() 函数把数值型转换为字符型,如果自变量本来已经是字符型则结果不变,如
as.character((1:5)*5)
返回:
为了用指定的格式数值型转换成字符型,可以使用 sprintf() 函数,其用法与 C 语言的 sprintf() 函数相似,只不过是向量化的。例如
sprintf('file%03d.txt', c(1, 99, 100))
返回:
7. 字符串拆分
用 strsplit() 函数可以把一个字符串按照某种分隔符拆分开,例如
x <- '10,8,7'
strsplit(x, ',', fixed=TRUE)[[1]]
返回:
然后,我们还可以把上述字符串转化成数值型,并且求和,如
sum(as.numeric(strsplit(x, ',', fixed=TRUE)[[1]]))
返回:
8.字符串替换功能
用 gsub() 可以替换字符串中的子串,这样的功能经常用在数据清理中。比如,把数据中的中文标点改为英文标点,去掉空格,等等。如
x <- '1, 3; 5'
gsub(';', ',', x, fixed=TRUE)
返回:
然后,我们再进行一下字符串拆分,如
strsplit(gsub(';', ',', x, fixed=TRUE), ',')
返回:
我们可以从上述结果中,看到多了 [[1]] ,于是我们可以用下列方式去掉
strsplit(gsub(';', ',', x, fixed=TRUE), ',')[[1]]
返回:
9.正则表达式
正则表达式 (regular expression) 是一种匹配某种字符串模式的方法。用这样的方法,可以从字符串中查找某种模式的出现位置,替换某种模式,等等。这样的技术可以用于文本数据的预处理,比如用网络爬虫下载的大量网页文本数据。R 中支持 perl 语言格式的正则表达式,grep() 和 grepl() 函数从字符串中查询某个模式,sub() 和 gsub() 替换某模式。比如,下面的程序把多于一个空格替换成一个空格
gsub('[[:space:]]+', ' ', 'a cat in a box', perl=TRUE)
返回:
正则表达式,我们就在这介绍这么多,后续会出一个更全更详细的。