词林

词林

概念

  • 词林是翰林或翰林院的别称,也可以指词坛
  • 可以查找意思解释,语法,示例, 典故
  • 包含中文词语解释

目前词林

哈工大同义词词林

  • 《同义词词林》是梅家驹等人于1983年编纂而成,哈工大实验室基于该词林进行扩展,完成了词林扩展版。

  • 哈工大社会计算与信息检索研究中心为了扩充《同义词词林》,利用已有的汉语词语相关资源并投入大量的人力和物力,完成了一部具有汉语大词表的《哈工大信息检索研究室同义词词林扩展版》(以下简称《同义词词林(扩展版)》),最终的词表包含 77,343 条词语。

  • 下载地址:https://www.ltp-cloud.com/download(下载不了)

  • 分为5层结构

    随着级别的递增,词义刻画越来越细,到了第五层,每个分类里词语数量已经不大,很多只有一个词语,已经不可再分,可以称为原子词群、原子类或原子节点。
    不同级别的分类结果可以为自然语言处理提供不同的服务,例如第四层的分类和第五层的分类在信息检索、文本分类、自动问答等研究领域得到应用。
    对词义进行有效扩展,或者对关键词做同义词替换可以明显改善信息检索、文本分类和自动问答系统的性能。 
    

    这里写图片描述

  • 词典中的结构如下:

    Aa01A01= 人 士 人物 人士 人氏 人选
    Aa01A02= 人类 生人 全人类
    Aa01A03= 人手 人员 人口 人丁 口 食指
    Aa01A04= 劳力 劳动力 工作者
    Aa01A05= 匹夫 个人
    
  • 编码含义如下:

    这里写图片描述

    表中的编码位是按照从左到右的顺序排列。第八位的标记有3 种,分别是“=”、“#”、“@”, “=”代表“相等”、“同义”。末尾的“#”代表“不等”、“同类”,属于相关词语。末尾的“@”代表“自我封闭”、“独立”,它在词典中既没有同义词,也没有相关词。
    

英文的WordNet

汉语的知网( HowNet)

大词林

简介

  • 哈尔滨工业大学社会计算与信息检索研究中心推出
  • 自动构建的大规模开放域中文实体知识库
  • 不需要领域专家的参与
  • 基于多信息源自动获取实体类别,并对可能的多个类别进行层次化,从而达到知识库自动构建的效果
  • 因为可以自动更新,其数据规模,可以随着互联网中实体词的更新而扩大

词林构建:开放域实体

  • 命名的本质:区分事物

  • 兴趣越浓厚,认识越深刻,区分的需求就越强烈,命名的粒度也就越细。
  • NLP领域中,命名性的指称:命名实体(NE, Named Entity), 是承载信息的重要语言单元。
  • 1995 年,命名实体识别( Named Entity Recognition, NER)由第六届消息理解会议( The sixth Message Understanding Conference,简称 MUC-6)第一次引入
  • 主要任务是自动识别出文本中出现的命名性指称和有意义的数量短语并加以归类
  • 三大类(实体类、时间类和数字类)
  • 七小类(人名、地名、机构名、时间、日期、货币和百分比)
  • 传统命名实体:人名、地名、机构名
  • 开放域实体:,一些工作开始在传统命名实体识别之外,进一步研究类别更加广泛的命名实体。这些实体很难由人工预先定义出一个完备的类别体系
  • 开放域实体特点:1)类别更多,且不限定;2)类别更细,且有层次
  • 对于开放域实体,已经无法将其类别标定简单看作分类问题。

背景

  • 传统的知识库,需要依赖领域专家的人工构建,使得构建的过程耗时费力,从而无法大规模化。
  • 《大词林》在此背景下提出,旨在构建一个不需要领域专家参与,自动获取实体类别并对可能的多个类别进行层次化的知识体系。

特点

  • 数据规模可以随着互联网中实体词的更新而扩大,很好地解决以往的人工构建知识库对开放域实体的覆盖程度极为有限的问题。

实体类别(上位词)的获取

  • 开放域命名实体的类别体系不可预先确定,且同一个命名实体可能属于多个不同粒度的类别,比如“高加索牧羊犬”可能属于的类别包括“狗”、“犬科动物”、“动物”等。
  • 命名实体的上位词( Hypernym)指示了其类别,上述的“狗”、“犬科动物”和“动物”都是“高加索牧羊犬”的上位词。
  • 目前被广泛使用的人工构建的语义词典中就有这样的上下位关系,比如英语的 WordNet、汉语的知网和同义词词林(扩展版)。
  • 目前词典资源的规模和覆盖范围有限,而人工构建的过程需要大量的专业知识
  • 很多研究者尝试采用自动的方法抽取上位词
上位词抽取常用方法
  • 基于模式匹配

    基于模式匹配的方法的准确率和召回率都不高,原因是语言表达的灵活性使得模式匹配难免会匹配到错误的上位词,同时模式的覆盖范围也很有限。

  • 基于统计分布相似度

    基于统计分布相似度的方法都基于一个基本假设:下位词的上下文词汇是其上位词上下文词汇的一个真子集。举个例子, “熊猫”的上下文一定也是“动物”的上下文,但反过来,“动物”的上下文不一定都是“熊猫”的上下文,也包括了其他种类动物名称的上下文。但这样的假设太强,并不能够总是成立。

  • 基于在线百科

    基于在线百科的方法是用百科页面中的类别标签和信息框( Infobox)等结构化信息来获取一个词的各种语义关系(包括上位词),因此可以得到较高的准确率,但这种方法会受到百科本身的限制,无法为不在百科中的词找到上位词。

采用方法
  • 提出一种简单有效的弱监督的框架
  • 基于多个来源来挖掘给定实体的上位词表
  • 看到未知实体,1)一般会想到用知识推测;2)询问或查阅资料。
  • 第一种方法,通常是根据命名实体的字面信息猜测其类型和意思,比如看到了“马来西亚航空公司”,容易推测出它是一家公司。
  • 第二种方法,在以往人们通常会问知识渊博的人或者查阅图书资料,随着现在互联网上信息的极大丰富,以及搜索引擎技术的成熟,人们往往借助搜索引擎获取想要的知识,对于我们的问题,通常只需要输入命名实体,即可以从搜索返回结果中得到答案。
  • 另外,如果搜索结果中包含一些关于这个命名实体的权威网页(比如在线百科、专业领域网站),则浏览这些网页即可获得更准确的信息。
  • 《大词林》模拟这个过程,利用来自上述多个来源的证据应用于命名实体类别的挖掘。
所采用步骤
  1. 从多个来源抽取开放域命名实体类别的候选
  2. 对开放域命名实体类别候选进行排序,采用启发式方法自动构建训练语料,训练排序模型来解决此问题

img

基于多信息源的开放域命名实体类别候选抽取

  • 蛮力法, 不现实,给定一个命名实体,要确定其上位词,依次判断词表中所有的词是不是其上位词,但这样做搜索的空间太大。
  • 大词林采取: Web 挖掘的方法来获取命名实体类别候选,通过搜索引擎搜索实体
  • 从搜索结果,在线百科和实体核心词三类来源获取候选
  • Web 挖掘的方法的主要优势在于互联网的覆盖领域广且数据海量从而避免数据稀疏情况。
实体类别排序
  • 每一个实体获取类别候选之后,通过排序模型对这些候选进行排序
  • 排序模型的训练需要大量命名实体及其类别的标注语料
  • 提出一种启发式的策略自动收集训练语料
  • 三种模型:1)基于线性核函数(Linear Kernel) 的支持向量机(Support Vector Machine, SVM) ;2)基于径向基函数(Radial Basis Function, RBF) 核的 SVM;3)以及逻辑回归(Logistic Regression)
获取语料

原则 1: 类别的来源越多越可能是正确的;

原则 2: 类别的先验概率越高,越可能是正确的。

  • 然后,根据这两个原则对候选进行排序,我们选取排在第一位的为正例,最后一位的为反例,如果有并列,则都选作训练语料。
  • 按照这个方法,我们获得了大量的训练实例,当然不可避免数据中包含噪声
  • 然后训练统计机器学习模型,包括基于线性核函数的 SVM、基于径向基函数核的 SVM 和逻辑回归模型。

上位词的补充及其层次化

  • 对于每一个实体, 它的上位词未必是完备的

  • 通过实际观察数据可以发现大部分实体只是拥有少量的几个上位词

  • 平均来讲,每个词的上位词也只有两个

  • 具体思路:将实体看作是用户,上位词看作是商品

  • 开放域实体类别(上位词)补充的内容主要是针对以上现象,使用基于推荐算法的实体上位词补充,来丰富完善实体的上位词

  • 具体思路为: 将实体看做是用户,将上位词看作是商品,现在已知每个用户买过一些商品(对应到我们的上位词自动挖掘系统中也就是每个词有一些上位词), 想要通过其他用户的购买商品情况来推测某些用户还有可能购买什么商品(对应到我们的上位词自动挖掘系统中也就是某些实体还有可能拥有哪些上位词)。

    通过以上转化,我们已经将实体上位词的补充问题转化为了商品推荐问题,下面我们通过例子介绍如何使用推荐算法进行实体上位词的补充。例如,对于一个实体“草莓”来说,它有两个上位词:“农产品”和“水果”,对于另外两个上位词“香蕉”和“橙子”来说,它们的上位词相同,都有三个:“农产品”,“水果”以及“植物”。这时,我们可采用商品推荐算法将上位词“植物”推荐给实体“草莓”。
    
  • 我们从多信息源挖掘获得了开放域命名实体的类别,但这些类别之间仍然可能存在上下位关系。

  • 图显示了一个例子,左侧为抽取获得的上位词列表(即类别列表),“植物”和“毛茛科”都是“ 乌头”的上位词。而事实上,“植物”同时也是“毛茛科”的上位词, 图右侧显示了上位词之间层次关系,这样的结构化信息可以将不同的命名实体组织在一个有向无环图中,对于构建知识库是至关重要的。开放域实体上位关系层次化的任务就是对于给定的一个命名实体及其上位词列表,学习得到上位词之间的层次关系。

    img

  • 基于 Apriori 算法的上位词层次化

  • 将原始挖掘上位词间的上下位关系问题转化为了一个等价的新问题, 即通过挖掘频繁项集关联规则来求解上位词之间的上下位关系问题。

  • 接着,引入了同义词词林来补充上位词层次化关系中的顶端关系。

  • 使用基于词结构的上位词层次化方法;基于分类的上位词层次化方法

  • 都是直接针对上位关系层次化,对问题进行分析之后进行了一系列的合理假设

基于后缀
  • 基于后缀上位词的上位词层次化方法基于的假设为,在众多上位词当中,有一些上位词,当它们作为其他词的后缀时,往往也是那些词的上位词。例如“医院”这个上位词作为另一个词的后缀时,如“哈工大校医院”,那么“医院”是“哈工大校医院”的上位词。
基于分类
  • 基于分类的上位词层次化方法基于的假设为,对于大多数实体来说,都可以分为“人”,“物”,“时间”,“空间”以及“抽象事物”中的一种,这五大类别也是来源于同义词词林顶端的五个上位词。而对于一些上位词,它们的上位词根节点并不在这五大类别之中。
  • 使用基于分类的层次化算法,目的便是将这些根节点并不在五大类别之中的上位词尝试划分到以上的五个基本实体类别当中。对这些上位词进行分类层次化的空间是很大的,该方法理论上可以进一步丰富整个实体关系图谱中的上位关系,尤其会使根节点部分的上位关系进一步完善,使得之前与关系主体未连接的实体及上位词能够和其他的实体以及上位词建立关系。
同义词之间的上位词结构归一
  • 在大词林中输入实体词进行查询, 不仅会返回实体词的上位词, 还会返回实体词的同义词

  • 同义词不一致的问题是由于大词林中的同义词是由网络中自动挖掘得到的。

    同义词不一致的问题是由于大词林中的同义词是由网络中自动挖掘得到的,这样就会出现在针对“哈工大”进行同义词挖掘时,挖掘到“ HIT”,而针对“ HIT”挖掘时,只挖掘到“ 哈尔滨工业大学”、“ Harbin Institute of Technology”,而未发现“ 哈工大”这一不一致现象。针对此问题,我们改变了大词林中对同义词的存储方式,将同义词存储为二元等价对。针对上例,会存在三个二元组“哈工大-HIT”、“ HIT-哈尔滨工业大学” 和“ HIT- Harbin Instituteof Technology”。那么这时再搜索“ HIT”的同义词时,就能得到 HIT->哈工大->哈尔滨工业大学-> Harbin Institute of Technology 这样的一个链条,也就不会出现“ HIT”的同义词没有“哈工大”的问题了。
      
    
  • 旧版

img

  • 新版

    如果在查询一个实体词时, 能把其同义词的上位词结构也一并考虑进来, 那么不同的同义词之间, 就会拥有相同的上位词结构。

    img

数据统计

img

目前, 大词林已拥有 12,081,984(一千万对)优质(置信度>99%) 实体上下位关系对。其中,优质上下位关系覆盖的实体数量为 6,476,934 (六百万)。平均每个实体拥有 1.86 个优质上位词、平均每个上位词拥有 72.74 个实体词。

参考网址

打赏一个呗

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码支持
扫码打赏,你说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦