首页 > 代码库 > 【NLP】十分钟学习自然语言处理

【NLP】十分钟学习自然语言处理

十分钟学习自然语言处理概述

作者:白宁超

2016年9月23日00:24:12

摘要:近来自然语言处理行业发展朝气蓬勃,市场应用广泛。笔者学习以来写了不少文章,文章深度层次不一,今天因为某种需要,将文章全部看了一遍做个整理,也可以称之为概述。关于这些问题,博客里面都有详细的文章去介绍,本文只是对其各个部分高度概括梳理。本文原创,转载注明出处十分钟学习自然语言处理概述  )

1 什么是文本挖掘?

文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现。文本挖掘的准备工作由文本收集、文本分析和特征修剪三个步骤组成。目前研究和应用最多的几种文本挖掘技术有:文档聚类、文档分类和摘要抽取。

2 什么是自然语言处理?

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究人与计算机之间用自然语言进行有效通信的理论和方法。融语言学、计算机科学、数学等于一体的科学。
自然语言处理原理:形式化描述-数学模型算法化-程序化-实用化
语音的自动合成与识别、机器翻译、自然语言理解、人机对话、信息检索、文本分类、自动文摘等。

3 常用中文分词?

中文文本词与词之间没有像英文那样有空格分隔,因此很多时候中文文本操作都涉及切词,这里整理了一些中文分词工具。
Stanford(直接使用CRF 的方法,特征窗口为5。) 

汉语分词工具(个人推荐

哈工大语言云

庖丁解牛分词

盘古分词  ICTCLAS(中科院)汉语词法分析系统 

IKAnalyzer(Luence项目下,基于java的) 

FudanNLP(复旦大学)

4 词性标注方法?句法分析方法?

原理描述:标注一篇文章中的句子,即语句标注,使用标注方法BIO标注。则观察序列X就是一个语料库(此处假设一篇文章,x代表文章中的每一句,X是x的集合),标识序列Y是BIO,即对应X序列的识别,从而可以根据条件概率P(标注|句子),推测出正确的句子标注。  

显然,这里针对的是序列状态,即CRF是用来标注或划分序列结构数据的概率化结构模型,CRF可以看作无向图模型或者马尔科夫随机场。   用过CRF的都知道,CRF是一个序列标注模型,指的是把一个词序列的每个词打上一个标记。一般通过,在词的左右开一个小窗口,根据窗口里面的词,和待标注词语来实现特征模板的提取。最后通过特征的组合决定需要打的tag是什么。

5 命名实体识别?三种主流算法,CRF,字典法和混合方法  

1 CRF:在CRF for Chinese NER这个任务中,提取的特征大多是该词是否为中国人名姓氏用字,该词是否为中国人名名字用字之类的,True or false的特征。所以一个可靠的百家姓的表就十分重要啦~在国内学者做的诸多实验中,效果最好的人名可以F1测度达到90%,最差的机构名达到85%。  

2 字典法:在NER中就是把每个字都当开头的字放到trie-tree中查一遍,查到了就是NE。中文的trie-tree需要进行哈希,因为中文字符太多了,不像英文就26个。  

3 对六类不同的命名实体采取不一样的手段进行处理,例如对于人名,进行字级别的条件概率计算。   中文:哈工大(语言云)上海交大    英文:stanfordNER等

7 基于主动学习的中医文献句法识别研究  

7.1 语料库知识?       

语料库作为一个或者多个应用目标而专门收集的,有一定结构的、有代表的、可被计算机程序检索的、具有一定规模的语料的集合。    

语料库划分:① 时间划分② 加工深度划分:标注语料库和非标注语料库③ 结构划分⑤ 语种划分⑥ 动态更新程度划分:参考语料库和监控语料库    

语料库构建原则:①   代表性②   结构性③   平衡性④   规模性⑤   元数据:元数据对       

语料标注的优缺点

①   优点: 研究方便。可重用、功能多样性、分析清晰。

②   缺点: 语料不客观(手工标注准确率高而一致性差,自动或者半自动标注一致性高而准确率差)、标注不一致、准确率低

 7.2 条件随机场解决标注问题?      

条件随机场用于序列标注,中文分词、中文人名识别和歧义消解等自然语言处理中,表现出很好的效果。原理是:对给定的观察序列和标注序列,建立条件概率模型。条件随机场可用于不同预测问题,其学习方法通常是极大似然估计。      

我爱中国,进行序列标注案例讲解条件随机场。(规则模型和统计模型问题)   

条件随机场模型也需要解决三个基本问题:特征的选择(表示第i个观察值为“爱”时,相对yi,yi-1的标记分别是B,I),参数训练和解码。     

7.3 隐马尔可夫模型      

应用:词类标注、语音识别、局部句法剖析、语块分析、命名实体识别、信息抽取等。应用于自然科学、工程技术、生物科技、公用事业、信道编码等多个领域。   

马尔可夫链:在随机过程中,每个语言符号的出现概率不相互独立,每个随机试验的当前状态依赖于此前状态,这种链就是马尔可夫链。   

多元马尔科夫链:考虑前一个语言符号对后一个语言符号出现概率的影响,这样得出的语言成分的链叫做一重马尔可夫链,也是二元语法。二重马尔可夫链,也是三元语法,三重马尔可夫链,也是四元语法      

隐马尔可夫模型思想的三个问题 

问题1(似然度问题):给一个HMM λ=(A,B) 和一个观察序列O,确定观察序列的似然度问题 P(O|λ) 。(向前算法解决)          

问题2(解码问题):给定一个观察序列O和一个HMM λ=(A,B),找出最好的隐藏状态序列Q。(维特比算法解决)          

问题3(学习问题):给定一个观察序列O和一个HMM中的状态集合,自动学习HMM的参数A和B。(向前向后算法解决)

7.4 Viterbi算法解码      

思路:

1 计算时间步1的维特比概率

2 计算时间步2的维特比概率,在(1) 基础计算

3 计算时间步3的维特比概率,在(2) 基础计算

4 维特比反向追踪路径         

维特比算法与向前算法的区别:     

(1)维特比算法要在前面路径的概率中选择最大值,而向前算法则计算其总和,除此之外,维特比算法和向前算法一样。     

(2)维特比算法有反向指针,寻找隐藏状态路径,而向前算法没有反向指针。      

HMM和维特比算法解决随机词类标注问题,利用Viterbi算法的中文句法标注  

7.5 序列标注方法       参照上面词性标注    

7.6 模型评价方法      

模型:方法=模型+策略+算法   

模型问题涉及:训练误差、测试误差、过拟合等问题。通常将学习方法对未知数据的预测能力称为泛化能力。

模型评价参数:      

准确率P=识别正确的数量/全部识别出的数量   

错误率 =识别错误的数量/全部识别出的数量   

精度=识别正确正的数量/识别正确的数量      

召回率R=识别正确的数量/全部正确的总量(识别出+识别不出的)   

F度量=2PR/(P+R)      

数据正负均衡适合准确率    数据不均适合召回率,精度,F度量   

几种模型评估的方法:

K-折交叉验证、随机二次抽样评估等    ROC曲线评价两个模型好坏  

8 基于文本处理技术的研究生英语等级考试词汇表构建系统  

完成对2002--2010年17套GET真题的核心单词抽取。其中包括数据清洗,停用词处理,分词,词频统计,排序等常用方法。真题算是结构化数据,有一定规则,比较容易处理。此过程其实就是数据清洗过程)最后把所有单词集中汇总,再去除如:a/an/of/on/frist等停用词(中文文本处理也需要对停用词处理,诸如:的,地,是等)。处理好的单词进行去重和词频统计,最后再利用网络工具对英语翻译。然后根据词频排序。    

8.1 Apache Tika?      

Apache Tika内容抽取工具,其强大之处在于可以处理各种文件,另外节约您更多的时间用来做重要的事情。   

Tika是一个内容分析工具,自带全面的parser工具类,能解析基本所有常见格式的文件   

Tika的功能:•文档类型检测   •内容提取  •元数据提取  •语言检测

8.2 文本词频统计?词频排序方法?      

算法思想:

1 历年(2002—2010年)GET考试真题,文档格式不一。网上收集                

2 对所有格式不一的文档进行统计处理成txt文档,格式化(去除汉字/标点/空格等非英文单词)和去除停用词(去除891个停用词)处理。                

3 对清洗后的单词进行去重和词频统计,通过Map统计词频,实体存储:单词-词频。(数组也可以,只是面对特别大的数据,数组存在越界问题)。排序:根据词频或者字母

4 提取核心词汇,大于5的和小于25次的数据,可以自己制定阈值。遍历list<实体>列表时候,通过获取实体的词频属性控制选取词汇表尺寸。                

5 最后一步,中英文翻译。     

9 朴素贝叶斯模型的文本分类器的设计与实现  

9.1 朴素贝叶斯公式  

0:喜悦  1:愤怒 2:厌恶 3:低落  

9.2 朴素贝叶斯原理  

-->训练文本预处理,构造分类器。(即对贝叶斯公式实现文本分类参数值的求解,暂时不理解没关系,下文详解)  

-->构造预测分类函数  

-->对测试数据预处理  

-->使用分类器分类    

对于一个新的训练文档d,究竟属于如上四个类别的哪个类别?我们可以根据贝叶斯公式,只是此刻变化成具体的对象。    

> P( Category | Document):测试文档属于某类的概率    

> P( Category)):从文档空间中随机抽取一个文档d,它属于类别c的概率。(某类文档数目/总文档数目)    

> (P ( Document | Category ):文档d对于给定类c的概率(某类下文档中单词数/某类中总的单词数)    

> P(Document):从文档空间中随机抽取一个文档d的概率(对于每个类别都一样,可以忽略不计算。此时为求最大似然概率)    

>  C(d)=argmax {P(C_i)*P(d|c_i)}:求出近似的贝叶斯每个类别的概率,比较获取最大的概率,此时文档归为最大概率的一类,分类成功。  

综述

1.  事先收集处理数据集(涉及网络爬虫和中文切词,特征选取)      

2.  预处理:(去掉停用词,移除频数过小的词汇【根据具体情况】)      

3.  实验过程:

数据集分两部分(3:7):30%作为测试集,70%作为训练集         

增加置信度:10-折交叉验证(整个数据集分为10等份,9份合并为训练集,余下1份作为测试集。一共运行10遍,取平均值作为分类结果)优缺点对比分析      

4. 评价标准:          

宏评价&微评价          

平滑因子

9.3 生产模型与判别模型区别       

1)生产式模型:直接对联合分布进行建模,如:隐马尔科夫模型、马尔科夫随机场等       

2)判别式模型:对条件分布进行建模,如:条件随机场、支持向量机、逻辑回归等。          

生成模型优点:1)由联合分布2)收敛速度比较快。3)能够应付隐变量。 缺点:为了估算准确,样本量和计算量大,样本数目较多时候不建议使用。          

判别模型优点:1)计算和样本数量少。2)准确率高。缺点:收敛慢,不能针对隐变量。  

9.4 ROC曲线      

ROC曲线又叫接受者操作特征曲线,比较学习器模型好坏可视化工具,横坐标参数假正例率,纵坐标参数是真正例率。曲线越靠近对角线(随机猜测线)模型越不好。      

好的模型,真正比例比较多,曲线应是陡峭的从0开始上升,后来遇到真正比例越来越少,假正比例元组越来越多,曲线平缓变的更加水平。完全正确的模型面积为1

10 统计学知识

信息图形化(饼图,线形图等)

集中趋势度量(平均值 中位数 众数 方差等)

概率

排列组合

分布(几何二项泊松正态卡方)

统计抽样

样本估计

假设检验

回归

11 stanfordNLP

句子理解、自动问答系统、机器翻译、句法分析、标注、情感分析、文本和视觉场景和模型, 以及自然语言处理数字人文社会科学中的应用和计算。

12 APache OpenNLP

Apache的OpenNLP库是自然语言文本的处理基于机器学习的工具包。它支持最常见的NLP任务,如断词,句子切分,部分词性标注,命名实体提取,分块,解析和指代消解。

句子探测器:句子检测器是用于检测句子边界

标记生成器:该OpenNLP断词段输入字符序列为标记。常是这是由空格分隔的单词,但也有例外。

名称搜索:名称查找器可检测文本命名实体和数字。

POS标注器:该OpenNLP POS标注器使用的概率模型来预测正确的POS标记出了标签组。

细节化:文本分块由除以单词句法相关部分,如名词基,动词基的文字,但没有指定其内部结构,也没有其在主句作用。

分析器:尝试解析器最简单的方法是在命令行工具。该工具仅用于演示和测试。请从我们网站上的英文分块

13 Lucene

Lucene是一个基于Java的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta(雅加达) 家族中的一个 开源项目。也是目前最为流行的基于Java开源全文检索工具包。

目前已经有很多应用程序的搜索功能是基于 Lucene ,比如Eclipse 帮助系统的搜索功能。Lucene能够为文本类型的数 据建立索引,所以你只要把你要索引的数据格式转化的文本格式,Lucene 就能对你的文档进行索引和搜索。

14 Apache Solr

Solr它是一种开放源码的、基于 Lucene Java 的搜索服务器。Solr 提供了层面搜索(就是统计)、命中醒目显示并且支持多种输出格式。它易于安装和配置, 而且附带了一个基于HTTP 的管理界面。可以使用 Solr 的表现优异的基本搜索功能,也可以对它进行扩展从而满足企业的需要。

Solr的特性包括:

•高级的全文搜索功能

•专为高通量的网络流量进行的优化

•基于开放接口(XML和HTTP)的标准

•综合的HTML管理界面

•可伸缩性-能够有效地复制到另外一个Solr搜索服务器

•使用XML配置达到灵活性和适配性

•可扩展的插件体系 solr中文分词

15 机器学习降维

主要特征选取、随机森林、主成分分析、线性降维

16 领域本体构建方法   

1 确定领域本体的专业领域和范畴

2 考虑复用现有的本体

3 列出本体涉及领域中的重要术语

4 定义分类概念和概念分类层次

5 定义概念之间的关系

17 构建领域本体的知识工程方法:

主要特点:本体更强调共享、重用,可以为不同系统提供一种统一的语言,因此本体构建的工程性更为明显。

方法:目前为止,本体工程中比较有名的几种方法包括TOVE 法、Methontology方法、骨架法、IDEF-5法和七步法等。(大多是手工构建领域本体)

现状: 由于本体工程到目前为止仍处于相对不成熟的阶段,领域本体的建设还处于探索期,因此构建过程中还存在着很多问题。

方法成熟度: 以上常用方法的依次为:七步法、Methontology方法、IDEF-5法、TOVE法、骨架法。

 

【NLP】十分钟学习自然语言处理