概述
语义角色标注 (Semantic Role Labeling, SRL) 是一种浅层的语义分析技术,标注句子中某些短语为给定谓词的论元 (语义角色) ,如施事、受事、时间和地点等。其能够对问答系统、信息抽取和机器翻译等应用产生推动作用。
缺点
- 对于特定谓词进行标注,多谓词没有提到
- 不会补出句子所省略的部分语义,信息有所缺失
核心的语义角色
A0-5 六种,A0 通常表示动作的施事,A1通常表示动作的影响等,A2-5 根据谓语动词不同会有不同的语义含义
附加的语义角色
-
ADV adverbial, default tag ( 附加的,默认标记 )
- BNE beneficiary ( 受益人 )
- CND condition ( 条件 )
- DIR direction ( 方向 )
- DGR degree ( 程度 )
- EXT extent ( 扩展 )
- FRQ frequency ( 频率 )
- LOC locative ( 地点 )
- MNR manner ( 方式 )
- PRP purpose or reason ( 目的或原因 )
- TMP temporal ( 时间 )
- TPC topic ( 主题 )
- CRD coordinated arguments ( 并列参数 )
- PRD predicate ( 谓语动词 )
- PSR possessor ( 持有者 )
- PSE possessee ( 被持有 )
传统方法
- 依赖句法分析的结果进行。因为句法分析包括短语结构分析、浅层句法分析、依存关系分析,所以语义角色标注也可以按照此思路分类。
- 基于短语结构树的语义角色标注方法
- 基于浅层句法分析结果的语义角色标注方法
- 基于依存句法分析结果的语义角色标注方法
- 基于特征向量的 SRL
- 基于最大熵分类器的 SRL
- 基于核函数的 SRL
- 基于条件随机场的 SRL
- 各方法的不同,主要集中在他们论元检出的过程有什么不同。
统一标注的过程
句法分析->候选论元剪除->论元识别->论元标注->语义角色标注结果
- 论元剪除:在较多候选项中去掉肯定不是论元的部分(span)
- 论元识别:一个二值分类问题,即:是论元和不是论元
- 论元标注:一个多值分类问题
# 短语结构分析
S——|
| |
NN VP
我 |——|
Vt NN
吃 肉
分类问题的特征设计
- 谓词本身、
- 短语结构树路径、
- 短语类型、
- 论元在谓词的位置、
- 谓词语态、
- 论元中心词、
- 从属类别、
- 论元第一个词和最后一个词、
- 组合特征。
应用领域
- 数字图书馆建设
- 信息检索
- 信息抽取
- 科技文献知识抽取
目前弊端
- 依赖于句法分析的准确性
- 领域适应能力差
- 现有的分类算法还有多大潜力可挖掘?同样的,还能设计多少新特征?很难了。
- end-to-end 就不用依赖于句法分析的结果了
- 多语平行语料有助于弥补准确性的问题?