首页 > 代码库 > 深入学习系列--Data Structure--02字符串
深入学习系列--Data Structure--02字符串
字符串可以说是我们实际工作中使用最多的数据类型了,常见的字符串操作包括链接、取子串、格式化等。这部分内容总体来说比较容易理解,最难的部分要数字符串的模式匹配方法了,尤其是KMP算法,需要通过实践加以记忆。
串的定义:是由零个或者多个字符组成的有限序列,又叫字符串。串的比较是通过其编码的顺序进行的(对于ASCII码来说,其通过7个二进制表示一个字符,共可以表示128个字符),通常来说,对于给定的两个字符串s=a1a2…an,t=b1b2…bm来说,如果n<m且ai=bi(i=1,2…n),那么有s<t;如果存在某个k<=min(m,n),使得ai=bi(i=1,2…k-1),ak<bk,则s<t。接下来通过一个表格来了解串的常见操作(用C#自定义字符串类实现)。
操作 | 诠释 |
StrAssign(T, *chars) | 生成一个其值等于字符串常量chars的串T |
StrCopy(T,S) | 串S存在,由串S复制得到T |
ClearString(S) | 若S存在,将串清空 |
StringEmpty(S) | 若S存在,返回true,否则返回false |
StrLength(S) | 返回串S的元素个数,即串的长度 |
StrCompare(S,T) | 若S>T返回值>0,若相等返回0,若S<T的返回值<0 |
Concat(T,S1,S2) | 用T返回由S1和S2联结成的新串 |
SubString(Sub,S,pos,len) | 若串存在,1<=pos<=StrLength(S),且0<=lenStrLength(S)-pos+1, 用Sub返回串S的第pos个字符起长度为len的子串。 |
Index(S,T,pos) | 串S和T存在,T是非空串,1<=pos<=StrLength(S) 若主串S中存在和串T相同的子串,则返回它在主串S中第pos个字符之后第一次出现的位置,否则返回0。 |
Replace(S,T,V) | 串S,T,V存在,T是非空串,用V替换主串S中出现的所有与T相等的不重叠的子串 |
StrInsert(S,pos,T) | 串S和T存在,1<=pos<=StrLength(S)+1 在串S的第pos个字符前插入串T |
StrDelete(S,pos,len) | 串S存在,1<=pos<=StrLength(S)-len+1 从串S中删除第pos个字符起长度为len的子串 |
串的存储结构:通常来说,串都是使用顺序存储结构来实现的,链式的存储结构不太适合串。串的顺序存储是由一组地址连续的存储单元来存储串中的字符序列的,按照预定义的大小,为每个定义的串变量分配一个固定长度的存储区,一般用定长数组实现,用‘\n‘来表示一个串值得终结。
串的实现,如下所示,使用javascript编写,依赖于数组方法。
1 //////////////////////////////////////基础部分/////////////////////////////////////////////////////////// 2 3 function MyString(strArray) { 4 //均需依赖于数组的操作 5 this.strArray = strArray; 6 this.strCopy = function() { 7 var newString = new MyString(); 8 newString.strArray = this.strArray.slice(); 9 return newString; 10 } 11 this.clearString = function() { 12 this.strArray = []; 13 } 14 15 this.stringEmpty = function() { 16 if (this.strLength() == 0) { 17 return true; 18 } 19 return false; 20 } 21 this.strLength = function() { 22 return this.strArray.length; 23 } 24 25 this.strCompare = function(otherStrArray) { 26 var compareLength = Math.min(this.strLength(), otherStrArray.length); 27 var i; 28 for (i = 0; i < compareLength; i++) { 29 if (this.strArray[i] != otherStrArray[i]) { 30 break; 31 } 32 } 33 34 if (this.strArray[i] > otherStrArray[i]) { 35 return 1; 36 } else if (this.strArray[i] == otherStrArray[i]) { 37 return 0; 38 } else { 39 return -1; 40 } 41 } 42 43 this.concat = function(otherStrArray) { 44 var newString = new MyString(); 45 newString.strArray = this.strArray.concat(otherStrArray); 46 return newString; 47 } 48 this.subString = function(pos, len) { 49 if (pos >= 0 && len >= 0 && pos + len < this.strLength()) { 50 var newString = new MyString(); 51 newString.strArray = this.strArray.slice(pos, pos + len); 52 return newString; 53 } 54 } 55 this.index = function(subStrArray, pos) { 56 if (pos < 0 || subStrArray.length > this.strLength() || pos >= this.strLength() - subStrArray.length) { 57 return -1; 58 } 59 for (var i = pos; i < this.strLength(); i++) { 60 var tempI = i; 61 for (j = 0; j < subStrArray.length; j++) { 62 if (subStrArray[j] != this.strArray[tempI]) { 63 break; 64 } 65 tempI++; 66 } 67 // console.log(tempI); 68 if (tempI == i + subStrArray.length) { 69 return i - pos; 70 } 71 // console.log(i); 72 } 73 return -1; 74 } 75 76 this.replace = function(originalSubStrArray, targetSubStrArray) { 77 //需要依赖于index方法 78 var pos = this.index(originalSubStrArray, 0); 79 this.strDelete(pos, originalSubStrArray.length); 80 this.strInsert(pos, targetSubStrArray); 81 } 82 83 this.strInsert = function(pos, subStrArray) { 84 if (pos >= 0 && pos <= this.strLength()) { 85 var partA = this.strArray.slice(0, pos); 86 var partB = this.strArray.splice(pos, this.strLength()); 87 this.strArray = partA.concat(subStrArray, partB); 88 } 89 } 90 91 this.strDelete = function(pos, len) { 92 if (pos >= 0 && len >= 0 && pos + len <= this.strLength()) { 93 var partA = this.strArray.slice(0, pos); 94 var partB = this.strArray.splice(pos + len, this.strLength()); 95 this.strArray = partA.concat(partB); 96 } 97 } 98 } 99 }100 101 //////////////////////////////////////测试部分///////////////////////////////////////////////////////////102 var strArray = [‘x‘, ‘i‘, ‘o‘, ‘n‘, ‘g‘, ‘e‘, ‘r‘];103 var otherStrArray = [‘x‘, ‘i‘, ‘o‘, ‘n‘, ‘g‘, ‘e‘, ‘r‘];104 var tempStrArray = [‘n‘, ‘g‘];105 var replaceStrArray = [‘t‘, ‘t‘];106 107 var str = new MyString(strArray);108 console.log(str);109 var newStr = str.strCopy();110 console.log(newStr);111 console.log(newStr == str);112 console.log(newStr === str);113 console.log(newStr.strCompare(otherStrArray));114 115 newStr = str.concat(otherStrArray);116 console.log(newStr);117 // var strArray = ‘xionger‘.split(‘‘);118 // console.log(strArray);119 // console.log(strArray.length);120 newStr = str.subString(2, 2);121 console.log(newStr);122 123 // str.strDelete(4, 2);124 // console.log(str);125 // str.strInsert(7, tempStrArray);126 // console.log(str);127 var index = str.index(tempStrArray, 2);128 console.log(index);129 130 // str.replace(tempStrArray, replaceStrArray);131 // console.log(str);
KMP模式匹配算法:可以看到之前的朴素模式匹配算法的时间复杂度为O(n2),效率比较低下,因此更合适的方式是由Knuth,Morris,Pratt三位科学家研究的模式匹配算法,可以大大的减少重复遍历的情况。在之前的朴素模式匹配的算法中存在两个嵌套的循环,外部循环不存在回溯,但存在重复比较,内部循环存在回溯。因此,可以想到的优化点就是内外循环的变量值得设置。这部分用文字表述将非常的复杂且不容易理解,接下来通过代码让我们来熟悉这部分知识,也是本文最难的部分。
借用博文http://www.cnblogs.com/c-cloud/p/3224788.html的解释,非常准确,有空时可以继续深入学习。
参考资料:
- 程杰. 大话数据结构[M]. 北京:清华大学出版社, 2011.
- 严蔚敏, 吴伟民. 数据结构(C语言版)[M]. 北京:清华大学出版社, 2004.
深入学习系列--Data Structure--02字符串