句法模式识别（一）－串文法

首页 > 代码库 > 句法模式识别（一）－串文法

句法模式识别（一）－串文法

2024-07-17 04:49:39 229人阅读

前面介绍的全部思想都属于统计模式识别，然而统计模式识别存在2个问题：

1.有的模式结构非常复杂，不能用一个矢量来表示。

2.有的模式识别任务中，我们更关心怎样描写叙述它的结构特征。

因此须要第二种模式识别：结构模式识别。

这当中，句法模式识别主要使用形式语言来描写叙述模式结构，在理论上完备，表1是句法模式识别与统计模式识别的相应关系，以下做介绍。

表1

串文法就是一种机器能识别的语法，所以先讲讲语法。

字母表V

字母a,b,c的有限集合。

句子x,y,z

V中的符号形成的有限长度的字符串。

这当中是V的闭包，包括了字母表能组成全部句子的集合。

而 ${V^ + }$ 是V的正闭包，就是把闭包里面的那1个空串去掉就好了。

这样的差别就像是正数与非负数的关系，非负数去掉0就是非负数了。

文法G = $\left( {{V_N},{V_T},P,S}\right)$

一个文法或者说语法，有4部分组成就好了。

这4个部分依次代表：非终止符、终止符、生成规则、起始符。

这当中有

$\begin{array}{l}{V_N}\cup {V_T} = V\\{V_N}\cap {V_T} = \phi\end{array}$

举个样例：The boy runs.如图1所看到的。

图1

$\begin{array}{l}G = ({V_N},{V_T},P,S)\\{V_N} = \left\{ {\left\langle S \right\rangle ,\left\langle {NP} \right\rangle ,\left\langle {VP} \right\rangle ,\left\langle A \right\rangle ,\left\langle N \right\rangle ,\left\langle V \right\rangle } \right\}\\{V_T} = \left\{ {\left\langle {The} \right\rangle ,\left\langle {boy} \right\rangle ,\left\langle {runs} \right\rangle } \right\}\\S = \left\langle S \right\rangle \\P:\left\langle S \right\rangle \to \left\langle {NP} \right\rangle \left\langle {VP} \right\rangle \\\left\langle {NP} \right\rangle \to \left\langle A \right\rangle \left\langle N \right\rangle \\\left\langle {VP} \right\rangle \to \left\langle V \right\rangle \\\left\langle A \right\rangle \to The\\\left\langle N \right\rangle \to boy\\\left\langle V \right\rangle \to runs\end{array}$

非终止符就是那些还要继续寻找相应关系的元素，比方说Noun，它与我们想表达的Theboy runs.这个句子相比要进一步寻找相应关系，Noun并非终于出如今句子里的部分，因此倒了Noun并没有终止，Noun继续链接到boy才OK。所以像Noun这种元素就叫非终止符。

终止符刚刚介绍了，就是终于要出如今句子里的部分。像The、boy、runs这些都是。

起始符在这个样例中是Sentence，就是句子開始的标志。

P（生成规则）比較复杂，生成规则就是符号的变换规则表。就像是法律一样，在对应的语法环境下，必须依照这个规则来生成句子。

符号习惯

非终止符：大写字母

终止符：小写字母

仅由终止符构成的字符串：用后面小写字母构成的x,y,z

由终止符和非终止符混合构成：用希腊字母 $\alpha ,\beta ,\gamma,\delta$

$\alpha\mathop \Rightarrow \limits_G^* \beta$ 表示一些列地调用P中的规则。

语言L(G)

语言是字符串的集合。由文法G产生。特点是

1.全部的字符串由终止符构成

2.每一个字符串都是从S出发调用P中的规则而产生。

串文法的分类

第0类：无限制文法

$\begin{array}{l}\alpha \to \beta \\\alpha \in {V^ + },\beta \in {V^*}\end{array}$

这样的对文法不加限制，基本没用。

第1类：上下文有关文法

$\begin{array}{l}{\alpha_1}A{\alpha _2} \to {\alpha _1}\beta {\alpha _2}\\{\alpha_1},{\alpha _2} \in {V^*}\end{array}$

这样的规则就是说，仅当上下文是时，中间的非终止符A才干替换成为混串。这就是其名字的由来。

第2类：上下文无关文法

$\begin{array}{l}A\to \alpha \\\alpha \in {V^ + },A \in {V_N}\end{array}$

这样的文法是说，不论上下文怎样A都能够用 $\alpha$ 来替换。

第3类：正规文法

$\begin{array}{l}A\to aB/A \to a\\a\in {V_T},A,B \in {V_N}\end{array}$

正规文法是最经常使用的一种文法。

四种文法的关系

如图2.

图2

举个样例:染色体分析

如今要识别2类染色体:中央着丝染色体和顶端着丝染色体。如图3.

图3

作为句法的5种基元a,b,c,d,e各自是5种最简单的形状，如图4.

图4

这些基元能构成6种子模式（就是非终止符）：

S——臂对，B――底， C——边， D——单个臂， E——右臂， F——左臂。

于是这个染色体语法就能够表示出来了：

$\begin{array}{l}G= \left( {{V_N},{V_T},P,S} \right)\\{V_T}= \left\{ {a,b,c,d,e} \right\}\\{V_N}= \left\{ {S,{S_1},{S_2},A,B,C,D,E,F} \right\}\\P:\\S\to {S_1}/S \to {S_2}/{S_1} \to AA/{S_2} \to BA\\\left\{\begin{array}{l}A\to CA\\A\to AC\\A\to DE\\A\to FD\end{array}\right.\left\{ {\begin{array}{*{20}{c}}{F\to Dc}\\{E\to cD}\end{array}}\right.\left\{ \begin{array}{l}B\to e\\B\to Bb\\B\to bB\end{array}\right.\left\{ \begin{array}{l}C\to b\\C\to d\\C\to bC\\C\to Cb\end{array}\right.\left\{ \begin{array}{l}D\to a\\D\to bD\\D\to Db\end{array}\right.\end{array}$

这个P生成规则太多了实在是，并且比方A到底要用到哪条规则是无法事先知道的，要试试。仅仅要最后试出来一条能走完的路径就觉得是符合语法的。否则仅仅有当全部可能的路径都不能从S出发，才干够觉得该句子是不符合语法的。

最后依照该文法能够得到2种染色体相应的字符串分别为：

1. abcbabdbabcbabdb

2. ebabcbab

如图5.

图5

欢迎參与讨论并关注本博客和微博以及知乎个人主页兴许内容继续更新哦~

转载请您尊重作者的劳动，完整保留上述文字以及文章链接，谢谢您的支持！

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 句法模式识别（一）－串文法

句法模式识别（一）－串文法

看完仍有疑问？有类似问题直接问程序猿