句法模式识别（一）－串文法

首页 > 代码库 > 句法模式识别（一）－串文法

句法模式识别（一）－串文法

2024-07-04 22:04:17 235人阅读

前面介绍的所有思想都属于统计模式识别，然而统计模式识别存在2个问题：

1.有的模式结构很复杂，不能用一个矢量来表示。

2.有的模式识别任务中，我们更关心如何描述它的结构特征。

因此需要另外一种模式识别：结构模式识别。

这其中，句法模式识别主要使用形式语言来描述模式结构，在理论上完备，表1是句法模式识别与统计模式识别的对应关系，下面做介绍。

表1

串文法就是一种机器能识别的语法，所以先讲讲语法。

字母表V

字母a,b,c的有限集合。

句子x,y,z

V中的符号形成的有限长度的字符串。

这其中是V的闭包，包含了字母表能组成所有句子的集合。

而 ${V^ + }$ 是V的正闭包，就是把闭包里面的那1个空串去掉就好了。

这种区别就像是正数与非负数的关系，非负数去掉0就是非负数了。

文法G = $\left( {{V_N},{V_T},P,S}\right)$

一个文法或者说语法，有4部分组成就好了。

这4个部分依次代表：非终止符、终止符、生成规则、起始符。

这其中有

$\begin{array}{l}{V_N}\cup {V_T} = V\\{V_N}\cap {V_T} = \phi\end{array}$

举个例子：The boy runs.如图1所示。

图1

$\begin{array}{l}G = ({V_N},{V_T},P,S)\\{V_N} = \left\{ {\left\langle S \right\rangle ,\left\langle {NP} \right\rangle ,\left\langle {VP} \right\rangle ,\left\langle A \right\rangle ,\left\langle N \right\rangle ,\left\langle V \right\rangle } \right\}\\{V_T} = \left\{ {\left\langle {The} \right\rangle ,\left\langle {boy} \right\rangle ,\left\langle {runs} \right\rangle } \right\}\\S = \left\langle S \right\rangle \\P:\left\langle S \right\rangle \to \left\langle {NP} \right\rangle \left\langle {VP} \right\rangle \\\left\langle {NP} \right\rangle \to \left\langle A \right\rangle \left\langle N \right\rangle \\\left\langle {VP} \right\rangle \to \left\langle V \right\rangle \\\left\langle A \right\rangle \to The\\\left\langle N \right\rangle \to boy\\\left\langle V \right\rangle \to runs\end{array}$

非终止符就是那些还要继续寻找对应关系的元素，比如说Noun，它与我们想表达的Theboy runs.这个句子相比要进一步寻找对应关系，Noun并不是最终出现在句子里的部分，因此倒了Noun并没有终止，Noun继续链接到boy才OK。所以像Noun这样的元素就叫非终止符。

终止符刚刚介绍了，就是最终要出现在句子里的部分。像The、boy、runs这些都是。

起始符在这个例子中是Sentence，就是句子开始的标志。

P（生成规则）比较复杂，生成规则就是符号的变换规则表。就像是法律一样，在相应的语法环境下，必须按照这个规则来生成句子。

符号习惯

非终止符：大写字母

终止符：小写字母

仅由终止符构成的字符串：用后面小写字母构成的x,y,z

由终止符和非终止符混合构成：用希腊字母 $\alpha ,\beta ,\gamma,\delta$

$\alpha\mathop \Rightarrow \limits_G^* \beta$ 表示一些列地调用P中的规则。

语言L(G)

语言是字符串的集合。由文法G产生。特点是

1.所有的字符串由终止符构成

2.每个字符串都是从S出发调用P中的规则而产生。

串文法的分类

第0类：无限制文法

$\begin{array}{l}\alpha \to \beta \\\alpha \in {V^ + },\beta \in {V^*}\end{array}$

这种对文法不加限制，基本没用。

第1类：上下文有关文法

$\begin{array}{l}{\alpha_1}A{\alpha _2} \to {\alpha _1}\beta {\alpha _2}\\{\alpha_1},{\alpha _2} \in {V^*}\end{array}$

这种规则就是说，仅当上下文是时，中间的非终止符A才能替换成为混串。这就是其名字的由来。

第2类：上下文无关文法

$\begin{array}{l}A\to \alpha \\\alpha \in {V^ + },A \in {V_N}\end{array}$

这种文法是说，不论上下文如何A都可以用 $\alpha$ 来替换。

第3类：正规文法

$\begin{array}{l}A\to aB/A \to a\\a\in {V_T},A,B \in {V_N}\end{array}$

正规文法是最常用的一种文法。

四种文法的关系

如图2.

图2

举个例子:染色体分析

现在要识别2类染色体:中央着丝染色体和顶端着丝染色体。如图3.

图3

作为句法的5种基元a,b,c,d,e分别是5种最简单的形状，如图4.

图4

这些基元能构成6种子模式（就是非终止符）：

S——臂对，B――底， C——边， D——单个臂， E——右臂， F——左臂。

于是这个染色体语法就可以表示出来了：

$\begin{array}{l}G= \left( {{V_N},{V_T},P,S} \right)\\{V_T}= \left\{ {a,b,c,d,e} \right\}\\{V_N}= \left\{ {S,{S_1},{S_2},A,B,C,D,E,F} \right\}\\P:\\S\to {S_1}/S \to {S_2}/{S_1} \to AA/{S_2} \to BA\\\left\{\begin{array}{l}A\to CA\\A\to AC\\A\to DE\\A\to FD\end{array}\right.\left\{ {\begin{array}{*{20}{c}}{F\to Dc}\\{E\to cD}\end{array}}\right.\left\{ \begin{array}{l}B\to e\\B\to Bb\\B\to bB\end{array}\right.\left\{ \begin{array}{l}C\to b\\C\to d\\C\to bC\\C\to Cb\end{array}\right.\left\{ \begin{array}{l}D\to a\\D\to bD\\D\to Db\end{array}\right.\end{array}$

这个P生成规则太多了实在是，而且比如A究竟要用到哪条规则是无法事先知道的，要试试。只要最后试出来一条能走完的路径就认为是符合语法的。否则只有当所有可能的路径都不能从S出发，才可以认为该句子是不符合语法的。

最后按照该文法可以得到2种染色体对应的字符串分别为：

1. abcbabdbabcbabdb

2. ebabcbab

如图5.

图5

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 句法模式识别（一）－串文法

句法模式识别（一）－串文法

看完仍有疑问？有类似问题直接问程序猿