首页 > 代码库 > [spoj DISUBSTR]后缀数组统计不同子串个数

[spoj DISUBSTR]后缀数组统计不同子串个数

题目链接:https://vjudge.net/contest/70655#problem/C

后缀数组的又一神奇应用。不同子串的个数,实际上就是所有后缀的不同前缀的个数。

考虑所有的后缀按照rank排好了,我们现在已知height,也就是相邻的两个的最长公共前缀是多少。那么不同的子串个数怎么统计呢?

从第一个串开始考虑,ans+=L1。再看第二个串,会加进来几个不同的前缀呢?就是ans+=L2-height[2]。第三个类似,会加进来ans+=L3-height[3]……

因此最后的结果就是ans=L*(L+1)/2-sigma(height[2..n])。L是整个字符串的长度。

不过看这个题的数据范围是可以hash搞过去的,但是这个题就不行了:https://vjudge.net/contest/70655#problem/D,而且这个题会爆long long......

#include<cstdio>
#include<algorithm>
#include<cstring>
#include<queue>
using namespace std;

const int maxn=1005;

#define F(x) ((x)/3+((x)%3==1?0:tb))
#define G(x) ((x)<tb?(x)*3+1:((x)-tb)*3+2)
int wa[maxn*3],wb[maxn*3],wv[maxn*3],wss[maxn*3];
int c0(int *r,int a,int b)
{
    return r[a]==r[b] && r[a+1]==r[b+1] && r[a+2]==r[b+2];
}
int c12(int k,int *r,int a,int b)
{
    if (k==2) return r[a]<r[b] || (r[a]==r[b]&&c12(1,r,a+1,b+1));
    else return r[a]<r[b] || (r[a]==r[b]&&wv[a+1]<wv[b+1]);
}
void sort(int *r,int *a,int *b,int n,int m)
{
    int i;
    for (i=0;i<n;i++) wv[i]=r[a[i]];
    for (i=0;i<m;i++) wss[i]=0;
    for (i=0;i<n;i++) wss[wv[i]]++;
    for (i=1;i<m;i++) wss[i]+=wss[i-1];
    for (i=n-1;i>=0;i--) b[--wss[wv[i]]]=a[i];
}
void dc3(int *r,int *sa,int n,int m)
{
    int i,j,*rn=r+n;
    int *san=sa+n,ta=0,tb=(n+1)/3,tbc=0,p;
    r[n]=r[n+1]=0;
    for (i=0;i<n;i++) if (i%3!=0) wa[tbc++]=i;
    sort(r+2,wa,wb,tbc,m);
    sort(r+1,wb,wa,tbc,m);
    sort(r,wa,wb,tbc,m);
    for (p=1,rn[F(wb[0])]=0,i=1;i<tbc;i++)
        rn[F(wb[i])]=c0(r,wb[i-1],wb[i])?p-1:p++;
    if (p<tbc) dc3(rn,san,tbc,p);
    else for (i=0;i<tbc;i++) san[rn[i]]=i;
    for (i=0;i<tbc;i++) if (san[i]<tb) wb[ta++]=san[i]*3;
    if (n%3==1) wb[ta++]=n-1;
    sort(r,wb,wa,ta,m);
    for (i=0;i<tbc;i++) wv[wb[i]=G(san[i])]=i;
    for (i=0,j=0,p=0;i<ta&&j<tbc;p++)
        sa[p]=c12(wb[j]%3,r,wa[i],wb[j])?wa[i++]:wb[j++];
    for (;i<ta;p++) sa[p]=wa[i++];
    for (;j<tbc;p++) sa[p]=wb[j++];
}
void da(int str[],int sa[],int rank[],int height[],int n,int m)
{
    for (int i=n;i<n*3;i++)
        str[i]=0;
    dc3(str,sa,n+1,m);
    int i,j,k=0;
    for (i=0;i<=n;i++) rank[sa[i]]=i;
    for (i=0;i<n;i++)
    {
        if (k) k--;
        j=sa[rank[i]-1];
        while (str[i+k]==str[j+k]) k++;
        height[rank[i]]=k;
    }
}
char s[maxn];
int a[maxn*3];
int ra[maxn*3],height[maxn*3],sa[maxn*3];

int solve(int n)
{
    // height[2..n]
    int ans=n*(n+1)/2;
    for (int i=2;i<=n;i++) ans-=height[i];
    return ans;
}

int main()
{
    int t;
    scanf("%d",&t);
    while (t--)
    {
        scanf("%s",s);
        int l=strlen(s);
        for (int i=0;i<l;i++) a[i]=(int)s[i];
        da(a,sa,ra,height,l,1000);
        printf("%d\n",solve(l));
    }
    return 0;
}

 

[spoj DISUBSTR]后缀数组统计不同子串个数