基于ERNIE-BiGRU-CRF-FL,的中文命名实体识别方法

时间:2023-09-11 11:50:09 来源:网友投稿

郭小磊,张吴波

(湖北汽车工业学院电气与信息工程学院,湖北十堰442002)

命名实体识别[1](Named Entity Recognition,NER)是指从海量无规则的文本中提取具有特定意义的实体标签,通常包括识别实体边界和确定实体类别。NER作为自然语言处理(Natural Language Processing,NLP)的基础任务,在知识图谱、机器翻译以及信息检索等众多领域中都十分关键。近年来,以神经网络为主的深度学习模型在NER任务中得到了广泛应用。例如,长短期记忆(Long Short Term Memory,LSTM)网络与门控循环单元(Gated Recurrent Unit,GRU)等在NER 任务中都有良好的表现。目前在中文命名实体识别任务中,存在以下几个方面的问题:第一,中文文本没有明确的分界标识符,导致实体边界模糊;
第二,存在一词多义的现象;
第三,实体标签与非实体标签的分类不均衡。这些都增加了中文命名实体识别的难度,使其更具有研究价值。

针对以上问题,提出一种基于ERNIE-BiGRU-CRFFL 的命名实体识别方法。通过ERNIE 预训练语言模型获取动态词向量,解决一词多义问题;
同时,引入Focal Loss 损失函数进行优化,缓解标签的不均衡问题。最终在MSRA 语料库中与其它模型进行对比实验,验证了该模型的有效性。

命名实体识别的发展经历了3 个阶段:第1 阶段基于词典和规则的发展方法,多采用人工的方式构建词典和规则库,该方式耗时耗力且在不同领域的通用性较低;
第2 阶段采用机器学习的方法,使用概率学和统计学的思想,将NER 任务转变成了序列标注任务,通过模型预测可能出现的序列概率。例如,条件随机场(Conditional Random Field,CRF)以及隐马尔可夫模型(Hidden Markov Model,HMM),其中CRF 与其它模型结合使用,在NER 任务中取得了不错的效果,被广泛应用在金融、医疗以及政务等领域[2];
第3阶段基于深度学习的方法,以神经网络为主的深度学习方法,是目前命名实体识别领域的主流。Hammerton 等[3]首先将LSTM 网络与CRF 结合,应用在命名实体识别之中。随后Lample 等[4]将双向神经网络结构应用在命名实体识别中,提出了BiLSTMCRF 模型,该模型实现了对文本双向信息的语义挖掘,从而成为命名实体识别领域的经典模型。在中文命名实体识别领域,屈丹丹等[5]提出了一种基于字向量的BiGRU-CRF 方法,在中医医案命名实体识别中取得了更好的实体识别效果。

Word2Vec模型是一种广泛应用于深度学习的词嵌入方法,不能解决一词多义问题。在2018年,Devlin 等[6]提出了BERT 模型,该模型采用多头注意力机制从不同角度学习上下文并产生动态词向量,有效解决了一词多义问题并且提升了模型对实体边界的辨识能力。沈同平等[7]提出将BERT和BiLSTM-CRF模型结合,在中文命名实体识别任务中取得了良好的效果。在2019 年,百度实验室在BERT 模型的基础之上进行了改进,提出了一种基于持续学习的语义理解预训练框架ERNIE[8],该模型直接对字、词语和实体等先验语义知识单元进行建模,进一步提高了对于中文文本的语义表示能力。王佳琪等[9]针对电网调度领域中命名实体结构复杂的问题,提出了一种基于ERNIE-IDCNN-CRF的方法,有效识别出了电网调度领域的命名实体。为了减少分类不均衡的影响,郭渊博等[10]提出了一种融合Focal Loss 的CRF层,使模型在解码时可以更加关注文本中的实体标签。Ashrafi 等[11]提出了一种融合加权交叉熵函数的BERT-BiLSTM-CRF-CW 模型在孟加拉语命名实体识别中取得了良好的成绩。

结合上述各类方法的优点,提出了一种基于ERNIE-BiGRU-CRF-FL模型的中文命名实体识别方法。

ERNIE-BiGRU-CRF-FL模型,结构如图1所示。

图1 ERNIE-BiGRU-CRF-FL模型结构图

该模型主要分为4层,分别为输入层、ERNIE层、BiGRU层以及融合Focal Loss的CRF层。首先,输入文本在ERNIE 层进行预训练,生成动态词向量,解决一词多义问题;
然后,将词向量输入到BiGRU层进行双向训练,得到前向语义信息以及后向语义信息,将两者融合后得到的特征向量输入到CRF层;
经过CRF解码得到一个全局最优序列,同时引入Focal Loss 对CRF进行优化,以解决标签分类不均衡的问题。

2.1 ERNIE预训练模型

相对于Word2Vec 等词嵌入模型,BERT 模型能根据上下文信息获取到动态词向量,在很大程度上解决了一词多义问题。BERT 模型采用多层双向的Transformer编码器构建,其结构如图2所示。

图2 Transformer编码器结构图

Transformer 编码器核心是多头注意力机制,采用多个注意力机制,从不同角度学习输入单词与上下文单词的关联并分配相应的权重值,注意力机制的计算方法如式(1)所示。

式中Q、K、V为输入向量矩阵,dk为字向量维度。

多头注意力机制采用多个不同的线性变化对Q、K和V进行投影,并将得到的Attention 值进行拼接,计算方法如式(2)-(3)所示。

式中WiQ、WiK和WiV表示初始化向量矩阵;
Concat表示将各个headi进行拼接;
WO表示权重矩阵;
MultiHead表示多头注意力值。

ERNIE模型在BERT的基础上进行了改进,其建模时充分利用了语料中字与词、实体与实体之间的关系,从而提升了模型对中文文本语义信息的学习能力。ERNIE 同样采用双向多层的Transformer编码器,其结构如图3所示。

图3 ERNIE模型结构图

ERNIE 模型对BERT 模型的mask 策略进行了改进。与BERT 模型仅采用单一的字mask 策略不同,ERNIE 模型在此基础上又增加了词语级别和实体级别的mask 策略,从而增强了对中文文本语义信息的学习能力。ERNIE模型的mask策略如图4所示。

图4 ERNIE模型的mask策略图

ERNIE 模型的mask 策略分为3 个阶段:第1 个阶段基本层次的mask,通过随机mask 文本中的字,得到一个基本的词向量表示,但是此阶段很难完全学习到文本中高层次的语义知识。第2 阶段词语级别的mask,首先随机选择句子中的词语,然后对词语中的所有字mask 并进行预测。经过这个阶段,词语信息可以完整的保留到词向量中。第3 阶段实体级别的掩码,此阶段首先分析句子中的命名实体,然后随机选择句中的实体,对实体中的每个字mask 并预测。

经此3 个阶段ERNIE 模型增强了词向量对中文文本的语义表示能力。

2.2 BiGRU模型

LSTM 解决了RNN 网络中梯度消失和梯度爆炸的问题,使循环网络可以学习到序列中的长期依赖。GRU 作为LSTM 的改进优化模型,拥有更少的参数和更简单的结构。GRU 只包含更新门和重置门2 种门控结构,其中更新门负责对信息的筛选和存储;
重置门负责对上一节点状态选择性遗忘。GRU 结构如图5所示。

图5 GRU结构图

GRU 网络的参数更新计算方法如式(4)-(7)所示。

式中W表示权重矩阵;
xt表示当前节点的输入信息;
ht-1表示上一节点的隐藏状态;
rt表示重置门状态;
zt表示更新门状态;
wt表示候选的隐藏状态;
ht表示传递给下一节点的隐藏状态,t表示第t时刻;
σ表示Sigmoid 激活函数;
tanh 为Tanh 激活函数;
×表示Hadamard乘积。

单向GRU 仅能捕捉一个方向的信息,为了充分提取文本序列中的上下文信息,采用双向的GRU 模型。将ERNIE 层输出的动态词向量,输入到BiGRU网络中学习前向和后向的语义信息,并将两者进行融合以实现对上下文信息的提取,其计算过程如式(8)~(10)所示。

式中Wi为ERNIE 层输入的词向量;
Concat 将前向和后向的隐藏层状态向量拼接;
Vi为BiGRU 层的输出向量。

2.3 CRF层

BiGRU 网络不能限制前后2 个标签之间的依赖关系,在输出结果中可能会出现标签顺序错误的情况。CRF 可以结合上下文相关的约束,校对标签之间的关联性,从而降低错误标签的输出概率。因此,BiGRU 层的基础上加入CRF 层,利用CRF 进行解码可以得到全局最优的标签序列。

CRF 层输入序列x,其标签序列y的概率计算公式,如式(11)-(12)所示。

式中PE为BiGRU 的输出概率;
PT为CRF 的转移概率;
y为真实序列;
p为所有可能的序列集合;
s为综合评估得分。

2.4 Focal Loss损失函数

为了改善标签分类不均衡的问题,使CRF 在解码时可以更关注实体标签,引入Focal Loss 损失函数对CRF 进行优化。Focal Loss 的主要作用是让训练过程更关注实体分类错误的样本,返回一个较大的损失值,进而不断改善模型性能。计算方法如式(13)所示。

式中p表示标签分类的概率;
pt表示非实体标签的概率;
xt为正负样本比例;
y为影响因子。xt越大负样本的比例越大,y越大对模型的影响越小。

3.1 数据集与评估指标

采用命名实体识别领域的公开数据集MSRA 语料库,该数据集约16 M,包括人名、地名和机构名3类实体。测试集与训练集按照1∶4分配,其中测试集共计6181 条数据,训练集共计74703 条数据。使用“BIO”标注体系对MSRA 语料库进行标注,共计7 类实体标签。其中“B”表示实体的开始,“I”表示实体的其余部分,“O”表示非实体内容,具体如表1所示。

表1 实体标注详情表

采用精确率P、召回率R、F1值3 个指标评估模型的性能。计算方法如式(14)-(16)所示。

式中Tp表示成功识别到的正确实体个数;
Fn表示未成功识别到的正确实体个数;
Fp表示非实体的个数。

3.2 实验环境与参数

实验环境采用Windows10 操作系统,GPU 采用NVIDIA GeForce GTX 1660 SUPER,基 于Tensorflow2.3.1搭建。

模型的参数设置:ERNIE模型采用12头模式,隐层维度为768;
GRU 隐层维度为100;
批次大小设置为64;
学习率为1e-3;
输入最大文本长度为200;
使用Adam优化器;
为了防止过拟合Dropout设置为0.2。

Focal Loss 损失函数中xt为0.25、y为2。具体超参数设置如表2所示。

表2 超参数详情表

3.3 对比实验与分析

为了验证ERNIE-BiGRU-CRF-FL 模型的有效性,进行如下对比实验:(1)使用ERNIE-BiGRU-CRFFL模型与传统经典的神经网络模型进行对比;
(2)使用引入Focal Loss 损失函数优化的ERNIE-BiGRUCRF-FL 模型与ERNIE-BiGRU-CRF 模型对比;
(3)使用ERNIE-BiGRU-CRF-FL 模型与现有工作进行对比。

3.3.1 经典模型对比实验

为了验证ERNIE-BiGRU-CRF 模型的有效性,采用控制变量法进行如下模型的对比实验。其中BiGRU 模型采用Word2Vec 模型对输入文本进行词向量转换;
BERT与ERNIE模型的参数保持一致。

ERNIE-BiGRU-CRF-FL 模型与其它模型的命名实体识别情况如表3所示。

表3 不同模型命名实体的识别结果

由表3 可知,传统的CRF 模型性能较差,命名实体的识别效果相对于其它模型较低,在CRF 的基础之上加入BiGRU 网络后,F1值提高了4.78%,这说明双向GRU 网络可以很好的保留上下文信息,从而提升整个模型的性能。BERT-BiGRU-CRF 相较于BiGRU-CRF 模型,F1值提高了7.52%,这说明通过BERT预训练模型获取的动态词向量,拥有更好的语义表示能力,进而提高了模型的实体识别能力。ERNIEBiGRU-CRF-FL 模型的精确率、召回率以及F1值相对于BERT-BiGRU-CRF 模型都有所提高,其中F1值提高了0.80%,ERNIE 模型通过建模时充分提取语料中词语与词语、实体与实体的关系,使词向量可以更好地表示不同语境下的语义信息,从而在中文命名实体识别任务中达到了更好的效果。

为进一步验证ERNIE-BiGRU-CRF-FL 模型的实体识别效果。选取性能较好的BERT-BiGRU-CRF 和ERNIE-BiGRU-CRF-FL 模型进行实体识别对比。以句1“有两个考上北大清华的人”和句2“有个美国法律所接手了案子”为例,实体识别结果如表4所示。

表4 例句实体的识别结果

由表4 可知,BERT-BiGRU-CRF 模型在句1 中出现了将“北大清华”识别成1个机构名实体的错误,在句2中未能正确地识别出“美国法律所”这个机构名实体;
而ERNIE-BiGRU-CRF-FL 模型在2 个例句中表现效果更好,能正确地将实体识别出来。可见ERNIE模型经过3个阶段的mask策略,拥有了更好的语义表示能力,不仅解决了一词多义问题,而且对实体边界模糊和实体类别不清问题有更好的解决能力,使ERNIE-BiGRU-CRF-FL模型具有了更好的命名实体识别效果。

3.3.2 ERNIE-BiGRU-CRF-FL 与ERNIE-BiGRU-CRF模型对比实验

为了验证Focal Loss 损失函数的有效性,引入Focal Loss 对CRF 进行优化,以缓解标签分类不均衡的影响。优化后的ERNIE-BiGRU-CRF-FL 模型与ERNIE-BiGRU-CRF 模型在测试集中进行对比实验。F1值随着训练次数的变化情况如图6所示。

图6 F1值变化图

由图6 可知,采用Focal Loss 损失函数对CRF 优化后,整体模型的实体识别效果得到进一步提升,ERNIE-BiGRU-CRF-FL 模型在第18 个epoch 达到了最大的F1值94.41%。

引入Focal Loss 优化前后模型的命名实体识别结果如表5所示。

表5 优化前后模型的识别结果

综上可知,经过Focal Loss 损失函数优化后的ERNIE-BiGRU-CRF-FL 模型性能得到进一步地提升,在MSRA 语料库中精确率、召回率和F1值分别达到了94.45%、94.37%和94.41%,与优化前的ERNIEBiGRU-CRF 模型相比,精确率、召回率和F1值分别提升了0.24%、0.19%和0.22%。

3.3.3 与现有工作对比实验

为了验证ERNIE-BiGRU-CRF-FL 方法的有效性,与其它现有工作进行对比实验,命名实体识别结果对比如表6所示。

表6 与现有工作的对比结果

由表6 可知,通过CGN-Attention 模型[12]、LACDGLU 模 型[13]、BERT-BiGRU-MHA-CRF 模 型[14]与ERNIE-BiGRU-CRF-FL 模型四种模型,发现经过预训练模型获取动态词向量后,整体模型的实体识别效果更强。其中ERNIE-BiGRU-CRF-FL模型的F1值相对比上述3 种模型分别提高了1.95%、1.37%和0.53。这验证了本文的ERNIE-BiGRU-CRF-FL 模型可以更好地处理实体边界模糊和实体类别不清的问题,在中文命名实体识别任务中达到了最佳的效果。

针对中文命名实体识别任务中存在的一词多义以及标签分类不均衡问题,提出了一种基于ERNIE-BiGRU-CRF-FL模型的实体识别方法。使用ERNIE模型对文本进行预训练,ERNIE模型经过3个阶段的mask策略进行学习,增强了语义表示能力,解决了一词多义问题;
同时为了解决标签中实体分类不均衡的问题,引入Focal Loss 损失函数对CRF 进行优化。经过在MSRA 语料库中进行测试,验证了ERNIE-BiGRUCRF-FL 模型的命名实体识别能力要优于其它模型,精确率、召回率、F1值分别达到了94.45%、94.37%和94.41%。但此模型仍有不足,训练时间较长,仍待优化。

猜你喜欢多义命名语义真实场景水下语义分割方法及数据集北京航空航天大学学报(2022年8期)2022-08-31命名——助力有机化学的学习中学生数理化(高中版.高考理化)(2021年2期)2021-03-19语言与语义开放教育研究(2020年2期)2020-03-31试论成都方言的社会称谓语北方文学(2019年23期)2019-08-27有一种男人以“暖”命名东方女性(2018年3期)2018-04-16为一条河命名——在白河源散文诗(2017年17期)2018-01-31“吃+NP”的语义生成机制研究长江学术(2016年4期)2016-03-11汉语依凭介词的语义范畴长江学术(2015年1期)2015-02-27《锦瑟》赏析新课程·上旬(2014年9期)2014-11-22河鲀命名小考中国科技术语(2012年5期)2012-03-20

推荐访问:中文 实体 命名