首页 > 代码库 > 最长公共子序列(LCS)问题

最长公共子序列(LCS)问题

一、什么是最长公共子序列
   
   什么是最长公共子序列呢?举个简单的例子吧,一个数列S,若分别是两个或多个已知序列的子序列,且是所有符合条件序列中最长的,则S称为已知序列的最长公共子序列。

  举例如下,如:有两个随机数列,1 2 3 4 5 6 和 3 4 5 8 9,则它们的最长公共子序列便是:3 4 5。

  一直不明白:最长公共子串和最长公共子序列的区别。
  
   上网查了下,最长公共子串(Longest Common Substirng)和最长公共子序列(Longest Common Subsequence,LCS)的区别为:子串是串的一个连续的部分,子序列则是从不改变序列的顺序,而从序列中去掉任意的元素而获得新的序列;也就是说,子串中字符的位置必须是连续的,子序列则可以不必连续。

二、蛮力法

   蛮力法是解决最长公共子序列问题最容易想到的方法,即对S的每一个子序列,检查是否为T的子序列,从而确定它是否为S和T的公共子序列,并且选出最长的公共子序列。
 
   S和T的所有子序列都检查过后即可求出S和T的最长公共子序列。S的一个子序列相应于下标序列1,2,...,n的一个子序列。因此,S共有2^n个子序列。当然,T也有2^m个子序列。

   因此,蛮力法的时间复杂度为O(2^n * 2^m),这可是指数级别的啊。

三、动态规划方法

   1、序列str1和序列str2
 
  ·长度分别为m和n;
  ·创建1个二维数组L[m.n];
    ·初始化L数组内容为0
    ·m和n分别从0开始,m++,n++循环:
       - 如果str1[m] == str2[n],则L[m,n] = L[m - 1, n -1] + 1;
       - 如果str1[m] != str2[n],则L[m,n] = max{L[m,n - 1],L[m - 1, n]}
    ·最后从L[m,n]中的数字一定是最大的,且这个数字就是最长公共子序列的长度
    ·从数组L中找出一个最长的公共子序列

   2、从数组L中查找一个最长的公共子序列

   i和j分别从m,n开始,递减循环直到i = 0,j = 0。其中,m和n分别为两个串的长度。
  ·如果str1[i] == str2[j],则将str[i]字符插入到子序列内,i--,j--;
  ·如果str1[i] != str[j],则比较L[i,j-1]与L[i-1,j],L[i,j-1]大,则j--,否则i--;(如果相等,则任选一个)

技术分享
图1 效果演示图
   
   根据上图,我们可以得到其中公共子串:B C B A 和 B D A B。

   总感觉,上面这个过程说的不是很清楚,但是不知道怎么才能更加清楚的表述??纠结啊。

问题描述:

最长公共子序列也称作最长公共子串(不要求连续),英文缩写为LCS(Longest Common Subsequence)。其定义是,一个序列 S ,如果分别是两个或多个已知序列的子序列,且是所有符合此条件序列中最长的,则 S 称为已知序列的最长公共子序列。

 

例如:X(A,B,C,B,D,A,B)

        Y(B,D,C,A,B,A)

 

那么最长公共子序列就是:B,C,B,A

算法设计:用动态规划方法解决

最长公共子序列的结构:

设X = { x1 , ... , xm },Y = { y1 , ... , yn }及它们的最长子序列Z = { z1 , ... , zk }则:

1、若 xm = yn , 则 zk = xm = yn,且Z[k-1] 是 X[m-1] 和 Y[n-1] 的最长公共子序列

2、若 xm != yn ,且 zk != xm , 则 Z 是 X[m-1] 和 Y 的最长公共子序列

3、若 xm != yn , 且 zk != yn , 则 Z 是 Y[n-1] 和 X 的最长公共子序列

子问题的递归结构:

当 i = 0 , j = 0 时 , c[i][j] = 0

当 i , j > 0 ; xi = yi 时 , c[i][j] = c[i-1][j-1] + 1

当 i , j > 0 ; xi != yi 时 , c[i][j] = max { c[i][j-1] , c[i-1][j] }

 

还是以:X(A,B,C,B,D,A,B)

          Y(B,D,C,A,B,A)  为例

#include <stdio.h>
#include <string.h>
#define MAX_LEN 1000
char sz1[MAX_LEN];
char sz2[MAX_LEN];
int aMaxLen[MAX_LEN][MAX_LEN];
void main()
{
	while (scanf("%s%s",sz1+1,sz2+1)>0)
	{
		int nLength1 = strlen(sz1 +1) ;
		int nLength2 = strlen(sz2 + 1) ;
		int nTmp ;
		int i,j;
		for (i=0;i<= nLength1;++i)
		{
			aMaxLen[i][0] = 0;
		}
		for (j=0;j<=nLength2; ++j)
		{
			aMaxLen[0][j] = 0;
		}
		for (i=1;i<=nLength1;++i)
		{
			for (j=1;j<=nLength2;++j)
			{
				if (sz1[i] == sz2[j])
				{
					aMaxLen[i][j] =aMaxLen[i-1][j-1] + 1 ;
				}
				else
				{
					int nLen1 = aMaxLen[i][j-1] ;
					int nLen2 = aMaxLen[i-1][j] ;
					if (nLen1 > nLen2)
					{
						aMaxLen[i][j] = nLen1 ;
					}
					else
					{
						aMaxLen[i][j] = nLen2 ;
					}
				}
			}
		}
	/*	for (i=0;i<=nLength1;++i)
		{
			for (j=0;j<=nLength2;++j)
			{
				printf("%d ",aMaxLen[i][j]);
			}
			printf("\n");
		}*/
		printf("%d\n",aMaxLen[nLength1][nLength2]);
	}
}



最长公共子序列(LCS)问题