首页 > 代码库 > 后缀数组suffix array

后缀数组suffix array

倍增算法,时间复杂度O(nlogn)

sa从小到大保存相对大小的下标

理解LSD,x数组,sa数组

char s[maxn];
int sa[maxn],t[maxn],t2[maxn],c[maxn],n;

void build_sa(int m)
{
    //LSD基数排序
    int *x=t,*y=t2;//x数组保存rank
    //字串长度为1,即对每个元素的大小排序
    for(int i=0;i<m;++i) c[i]=0;//计数数组清空
    for(int i=0;i<n;++i) c[x[i]=s[i]]++;//统计出现次数
    for(int i=1;i<m;++i) c[i]+=c[i-1];//计算前缀和
    for(int i=n-1;i>=0;--i) sa[--c[x[i]]]=i;//sa从小到大保存每个元素的下标
    
    for(int k=1;k<=n;k<<=1){//k为要排序的子串长
        
        //排序第二关键字
        int p=0;               //y[]从小到大保存第二关键字的下标
        for(int i=n-k;i<n;++i) y[p++]=i;//从第n-k位开始的字串,第二关键字为0
        for(int i=0;i<n;++i) if(sa[i]>=k) y[p++]=sa[i]-k;
                                //只有下标大于k的第sa[i]个字符串的rank才能作为下一行的第sa[i]-k个字符串的第二关键字
        
        //排序第一关键字
                //x[y[i]]是引用第一关键字,根据LSD第二次排序要在第一次的基础上
        for(int i=0;i<m;++i) c[i]=0;//计数数组清空
        for(int i=0;i<n;++i) c[x[y[i]]]++;//统计rank出现次数
        for(int i=1;i<m;++i) c[i]+=c[i-1];//求前缀和
        for(int i=n-1;i>=0;--i) sa[--c[x[y[i]]]]=y[i];//sa[]从小到大保存双关键字的下标
        
        p=1;swap(x,y);x[sa[0]]=0;//交换x,y数组 x[]数组从0到n-1保存rank值(0到p)
        for(int i=1;i<n;++i){
            x[sa[i]]=y[sa[i]]==y[sa[i-1]]&&y[sa[i]+k]==y[sa[i-1]+k] ? p-1:p++;//注意p-1
            //由于p是计数rank值不同的字符串的数量,因此双关键字相同的串视为一样的rank
        }
        
        if(p>=n) break; //p个字符串的rank值都不同 ,p>=n时说明大小确立,以后即使倍增,sa也不会改变
        m=p;//用来下次基数排序的最大值
    }
}