1 分词研究概况
主要方法技术:
- 基于词典匹配
- 基于规则
- 基于统计学方法
- 机器学习方法
1.1 基于词典分词
首先,基于词典的分词方法需要从大量预料中提取出常用的词,以建立一个词典。接着,基于词典的匹配方法通过正向/逆向匹配词典,得到所有在词典中出现过的词,并依照最长/最短词匹配的原则,生成分词文本。
缺点:
-
需要对词典保持更新
-
需要总结大量文本语料库,较为耗费时间
-
对于新词识别以及歧义的问题,该方法并不能很好地解决
所以实际应用中,词典匹配的方法更多是结合其它方法一起使用。复旦大学的张奇等人提出的神经网络结合词典的方法,通过建立Bi-LSTM-CRF模型,并结合领域专用词典,较好地解决了“词表外词”(out-of-vocabulary words, OOV)的问题。
1.2 基于规则分词
旨在总结语言的语法以及语义,模拟人理解文本的过程进行分词。该方法在于判断词性、语义,并按照建立好的规则库匹配得到符合语法语义的分词文本。
缺点:
- 需要大量语义学知识,并以此建立规则库
- 部分文本中语言不规范,不严格遵守语法规则,对于汉语分词效果并不是特别理想
1.3 基于统计学方法分词
指统计词出现的频率以及其他特征,作为依据进行分词。比较著名的方法有隐马尔科夫模型、互信息、信息熵等。统计学方法通过统计词在语料库中的出现频率、字与字之间的共现频率等作为是否能够成词的依据。基于统计学的方法不需要额外的词典,而是仅对语料库中的字组进行统计,因此基于统计学的分词方法也被称作无词典分词。统计学的分词方法能够较好地识别语料中的新词以及专业术语。
缺点:
- 会抽取出一些频次高但是却无语义的词
1.4 机器学习方法分词
关注选择能够表示词有效的特征,对这些特征进行训练,完成分词工作。通常情况下,机器学习的方法首先会利用词嵌入(Word Embedding) 将文本向量化,进而将词向量作为输入进行训练。比较常用的一种词向量化模型是Word2Vec ,由Mikolov等人在2013年提出。该模型将词转换为词向量,具有相似上下文语义的词会在向量空间里有较近的距离。比较常用的有LSTM,CNN,RNN等模型。
2 PageRank
PageRank算法主要用于评估网页相对于搜索引擎索引中其它网页的重要程度。据谷歌称:“PageRank通过计算指向某个网页的链接的数量与质量来估算这个网页的重要程度,其隐含的假设为——越重要的网页越可能受到其它网页的链接。”
PageRank将每一个网页视为一个节点,网页间的链接视为一条边。每个该网页引用其他网页的链接为一个出链,每一个其他网页对该网页的链接视为一个入链。
网页排名高的网站贡献的链接权重大。先假定所有网页的排名是一样的,需要用到矩阵相乘。
3 信息熵
表示信息的不确定性,信息的作用是消除不确定性,而信息熵则表示信息不确定性的多少。可以把原本未分词的文本看作一个黑盒,其中包含了不确定的信息,而分词结果则相当于减少黑盒的不确定性。
4 互信息
信息论中的一个重要概念,用于量化表示两个随机事件的相关性,也可以说是一个随机变量中包含关于另一个随机变量的信息量。
5 条件随机场
深度学习前,应用较多,分词,词性标注,命名实体识别
概率无向图(马尔科夫随机场),是一个可以用无向图表示的联合概率分布。概率无向图的随机变量满足:成对马尔可夫性,局部马尔可夫性,全局马尔可夫性。
概率无向图模型的最大特点就是易于因子分解。
一种特殊的概率图模型,顶点代表一个个随机变量,顶点间的弧代表它们相互的依赖关系,通常采用一种概率分布,p(x,y)表示。
特殊在于:变量之间要遵守马尔科夫假设,即每个状态的转移概率只取决于相邻的状态。与贝叶斯网络类似,特殊性在于,CRF是无向图,贝叶斯网络是有向图。
CRF节点分为状态节点的集合Y, 以及观察变量节点集合X。
X:表示看到的东西
Y:表示需要推导的东西
只能通过边缘分布来找符合这些条件的概率分布函数。根据最大熵原则,希望找到一个符合所有边缘分布并且使得熵最大的模型。这个模型就是指数函数
6 贝叶斯网络
每个状态只与其跟与其直接相连的状态有关,与 它间接相连的状态没有直接关系。
马尔可夫链是贝叶斯网络的特例,贝叶斯网络是马尔科夫链的推广。使用贝叶斯网络
###7 维特比算法
针对有向图最短路径提出,之所以重要是因为凡是使用隐含马尔科夫模型描述的问题都可以用它来进行解码。
转移概率
产生概率
篱笆网络
从起点到终点的路径必定经过第i时刻的某个状态。
8 命名实体识别
其目的是识别语料中人名、地名、组织机构名等命名实体。由于这些命名实体数量不断增加,通常不可能在词典中穷尽列出,且其构成方法具有各自的一些规律性,因而,通常把对这些词的识别从词汇形态处理(如汉语切分)任务中独立处理,称为命名实体识别。
命名实体是命名实体识别的研究主体,一般包括3大类(实体类、时间类和数字类)和7小类(人名、地名、机构名、时间、日期、货币和百分比)命名实体。评判一个命名实体是否被正确识别包括两个方面:实体的边界是否正确;实体的类型是否标注正确。主要错误类型包括文本正确,类型可能错误;反之,文本边界错误,而其包含的主要实体词和词类标记可能正确。
8.1 基于规则和词典的方法
语言学专家手工构造规则模板
选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法
以模式和字符串相匹配为主要手段,这类系统大多依赖于知识库和词典的建立。
8.2 基于统计的方法
HMM
最大熵
支持向量机
条件随机场
> 最大熵最大熵模型结构紧凑,具有较好的通用性,主要缺点是训练时间复杂性非常高,有时甚至导致训练代价难以承受,另外由于需要明确的归一化计算,导致开销比较大。
而条件随机场为命名实体识别提供了一个特征灵活、全局最优的标注框架,但同时存在收敛速度慢、训练时间长的问题。
最大熵和支持向量机在正确率上要比隐马尔可夫模型高一些,但是隐马尔可夫模型在训练和识别时的速度要快一些,主要是由于在利用Viterbi算法求解命名实体类别序列的效率较高。隐马尔可夫模型更适用于一些对实时性有要求以及像信息检索这样需要处理大量文本的应用,如短文本命名实体识别。
基于统计的方法对特征选取的要求较高,需要从文本中选择对该项任务有影响的各种特征,并将这些特征加入到特征向量中。依据特定命名实体识别所面临的主要困难和所表现出的特性,考虑选择能有效反映该类实体特性的特征集合。主要做法是通过对训练语料所包含的语言信息进行统计和分析,从训练语料中挖掘出特征。有关特征可以分为具体的单词特征、上下文特征、词典及词性特征、停用词特征、核心词特征以及语义特征等。
基于统计的方法对语料库的依赖也比较大,而可以用来建设和评估命名实体识别系统的大规模通用语料库又比较少。
8.3 混合方法
自然语言处理并不完全是一个随机过程,单独使用基于统计的方法使状态搜索空间非常庞大,必须借助规则知识提前进行过滤修剪处理。目前几乎没有单纯使用统计模型而不使用规则知识的命名实体识别系统,在很多情况下是使用混合方法:
- 统计学习方法之间或内部层叠融合
- 基于统计的学习方法中引入部分规则,将机器学习和人工知识结合起来
- 将各类模型、算法结合起来,将前一级模型的结果作为下一级的训练数据,并用这些训练数据对模型进行训练,得到下一级模型。