语义角色标注

概述

语义角色标注 (Semantic Role Labeling, SRL) 是一种浅层的语义分析技术,标注句子中某些短语为给定谓词的论元 (语义角色) ,如施事、受事、时间和地点等。其能够对问答系统、信息抽取和机器翻译等应用产生推动作用。

缺点

  • 对于特定谓词进行标注,多谓词没有提到
  • 不会补出句子所省略的部分语义,信息有所缺失

核心的语义角色

A0-5 六种,A0 通常表示动作的施事,A1通常表示动作的影响等,A2-5 根据谓语动词不同会有不同的语义含义

附加的语义角色

  • ADV adverbial, default tag ( 附加的,默认标记 )

  • BNE beneficiary ( 受益人 )
  • CND condition ( 条件 )
  • DIR direction ( 方向 )
  • DGR degree ( 程度 )
  • EXT extent ( 扩展 )
  • FRQ frequency ( 频率 )
  • LOC locative ( 地点 )
  • MNR manner ( 方式 )
  • PRP purpose or reason ( 目的或原因 )
  • TMP temporal ( 时间 )
  • TPC topic ( 主题 )
  • CRD coordinated arguments ( 并列参数 )
  • PRD predicate ( 谓语动词 )
  • PSR possessor ( 持有者 )
  • PSE possessee ( 被持有 )

传统方法

  • 依赖句法分析的结果进行。因为句法分析包括短语结构分析、浅层句法分析、依存关系分析,所以语义角色标注也可以按照此思路分类。
  • 基于短语结构树的语义角色标注方法
  • 基于浅层句法分析结果的语义角色标注方法
  • 基于依存句法分析结果的语义角色标注方法
  • 基于特征向量的 SRL
  • 基于最大熵分类器的 SRL
  • 基于核函数的 SRL
  • 基于条件随机场的 SRL
  • 各方法的不同,主要集中在他们论元检出的过程有什么不同。

统一标注的过程

句法分析->候选论元剪除->论元识别->论元标注->语义角色标注结果

  • 论元剪除:在较多候选项中去掉肯定不是论元的部分(span)
  • 论元识别:一个二值分类问题,即:是论元和不是论元
  • 论元标注:一个多值分类问题
# 短语结构分析
S——| 
|     | 
NN    VP 
       |——| 
           Vt    NN 
                

分类问题的特征设计

  • 谓词本身、
  • 短语结构树路径、
  • 短语类型、
  • 论元在谓词的位置、
  • 谓词语态、
  • 论元中心词、
  • 从属类别、
  • 论元第一个词和最后一个词、
  • 组合特征。

应用领域

  • 数字图书馆建设
  • 信息检索
  • 信息抽取
  • 科技文献知识抽取

目前弊端

  • 依赖于句法分析的准确性
  • 领域适应能力差
  • 现有的分类算法还有多大潜力可挖掘?同样的,还能设计多少新特征?很难了。
  • end-to-end 就不用依赖于句法分析的结果了
  • 多语平行语料有助于弥补准确性的问题?

打赏一个呗

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码支持
扫码打赏,你说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦