文章目录
- 7 串
- 7.1 基本知识
- 7.1.1 串的定义
- :rose:定义
- :rose:各种概念
- :rose:字符串和线性表的区别
- 7.1.2 串的抽象类型数据定义
- 7.1.3 串的比较
- :rose:原理
- 7.2 串的存储结构
- :rose:7.2.1串的顺序存储
- :rose:7.2.2 串的链式存储
- 7.3 基本操作
- :rose:7.3.1 返回子串操作
- :rose:7.3.2 比较操作
- :rose:7.3.3 定位操作
7 串
7.1 基本知识
7.1.1 串的定义
🌹定义
串,即
字符串(String)
。字符串是由零个或多个字符组成有限序列,一般即为S = ‘a1a2...ana_1a_2...a_na1a2...an’(n>=0)对定义的补充
在上面这个定义的叙述中,S是串名,单引号括起来的字符序列是串的值;aia_iai可以是字母、数字或其他字符;串中字符的个数n称为串的长度。n = 0时串被称为
空串
(用∅表示)。字符串不一定是要用单引号括起,在Java和C中用的是双引号,而在python中双引号和单引号皆可。
🌹各种概念
我们用T = "I love you everyday"来举例。
概念 说明 示例 子串 串中任意个连续的字符组成的子序列 'love’是T的子串 主串 包含子串的串 T是’love’的主串 字符在主串的位置 字符在串中的序号 I在T中的位置是1 子串在主串中的位置 子串的第一个字符在主串中的位置 'love’在T中的位置是3 空串 字符串没有东西 ‘’ 空格串 字符串全是空格 ’ '为含有三个空格的空格串 需要注意的点:
- 空串和空格串不一样,空格串的空格也算是串中的元素
- 位置和索引不一样,是从1开始而非0开始
🌹字符串和线性表的区别
串是一种特殊的线性表,数据元素之间呈现线性关系。为何说他特殊?因为对于线性表来说,其数据元素可以是任何数据类型,但是对于串来说,其数据元素只能是字符集(如中文字符、英文字符、数字字符、标点字符等)。
并且,对于串的基本操作,我们都是对子串作为操作对象。
串比较明显的应用例子是网站搜索引擎,通常我们都是要搜索子串才能出现全部的字符串,而不是搜索首字母就能出来整个字符串。
7.1.2 串的抽象类型数据定义
ADT 串(string)
Data
串中元素仅由一个字符组成,相邻元素具有前驱和后继关系
Operation
StrAssign(T,*chars):生成一个其值等于字符串常量chars的串T。
StrCopy(T,S):串S存在,由串S复制得串T。
ClearString(S):串S存在,将串清空。
StringEmpty(S):若串为空,则返回true,否则返回false。
StrLength(S):返回S的元素个数,即串S的长度。
StrCompare(S,T):若S>T,返回>0,S=T,返回=0,S<T,返回<0.
Concat(T,S1,S2):用T返回由S1和S2联接而成的新串。
SubString(Sub,S,pos,len):串S存在,1<=pos<=Strlength(S),且0<=len<=Strlength(S)-pos+1.用Sub返回串S的第pos个字符起长度为len的子串。
Index(S,T,pos):串S和T存在,T是非空串,1<=pos<=Strlength(S).若主串S中存在和串T值相同的字串,则返回它在主串S中第pos个字符之后第一次出现的位置,否则返回0
Replace(S,T,V):串S,T和V存在,T是非空串。用V替换主串S中出现的所有与T相等的不重叠的子串。
StrInsert(S,pos,T):串S和T存在,1<=pos<=Strlength(S)+1.在串S的第pos个字符之前插入串T。
SteDelete(S,pos,len):串S存在,1<=pos<=StrLength(s)-len+1.从串S中删除第pos个字符起长度为len的子串。
7.1.3 串的比较
🌹原理
对于串的比较来说,其先比元素再比大小。
- 如’abandon’和’aboard’。对于前两个字母ab都相同,对于第三个字母abandon为a而aboard为o,又a的ASCII比o小,故’abandon’<‘aborad’
- 如’abstract’和’abstraction’。对于前几个字母来说都一样,但是后者显然更长,故’abstract’<‘abstraction’
- 两个串如果相等,必须内容完全相同。这里指的内容也包括空格
- 当然,比对英文是用ASCII字符集,如果是中文则是用Unicode字符集
- 采用不同的编码方式编码,字节大小不同。对于考研来说,每个字符默认1B
7.2 串的存储结构
回顾前面的链表、栈、队列,关于静态的存储我们都是采用数组,这里我们也不例外。
🌹7.2.1串的顺序存储
静态数组实现(定长顺序存储)
#define MAXLEN 255 typedef struct SString {char ch[MAXLEN];int length; }SString;
动态数组存储(堆分配存储)
#define MAXLEN 255 typedef struct HString {char* ch;//按串场分配存储区,ch指向串的基地址int length;//串的长度 }HString;void StrAssign() {HString S;S.ch = new char[MAXLEN * sizeof(char)];S.length = 0; }
有的书上并不喜欢另外定义length,而是使用数组的0号位索引用于存放length,这样做的好处是length可以不用另外去申请空间,并且还可以使得索引和位序刚好相同,满足代码的自然性。
这种方案也有缺陷。这样方式头位置是char类型,却放了int变量进去,这样就会导致int的取值只能在0-255之间。为此,我们做了以下的改进:
🌹7.2.2 串的链式存储
由于链式存储中,我们需要有一个指针来固定串的起始位置,对于32为计算机来说,指针大小为4个字节,而char字符只占1个字节,这种情况就会导致指针耗费的空间比存储的数据还多,存储密度低。如下所示:
typedef struct StringNode {char ch;struct StringNode* next; }StringNode,*String;
我们可以改进这种情况,即一个结点中存储多个char。
typedef struct StringNode {char ch[4];struct StringNode* next; }StringNode,*String;
7.3 基本操作
🌹7.3.1 返回子串操作
SubString(&Sub,S,pos,len):求子串。用Sub返回串S的第pos个字符起长度为len的子串。
//返回子串操作
bool SubString(SString& Sub, SString S, int pos, int len)
{//子串范围越界if (pos + len - 1 > S.length)return false;for (int i = pos; i < pos + len; i++)Sub.ch[i - pos + 1] = S.ch[i];Sub.length = len;return true;
}
🌹7.3.2 比较操作
StrCompare(S,T):比较操作。若S>T,则返回值>0;若S=T,则返回值=0,若S<T,则返回<0
//比较操作
int StrCompare(SString S, SString T)
{//比较操作for (int i = 1; i < S.length && i <= T.length; i++) {if (S.ch[i] != T.ch[i])return S.ch[i] - T.ch[i];}//扫描过的所有字符都相同,则长度长的串更大return S.length - T.length;
}
🌹7.3.3 定位操作
Index(S,T):定位操作。若主串S中存在于串T值相同的子串,则返回它在主串S中第一次出现的位置,否则函数值为0。
//定位操作
int Index(SString S, SString T)
{int i = 1, n = StrLength(S), m = StrLength(T);SString sub; //由于暂存子串while (i <= n - m + 1) {SubString(sub, S, i, m);if (StrCompare(sub, T) != 0)++i;elsereturn i;}return 0;
}