• / 13

基于预训练模型的招投标数据命名实体识别方法

关 键  词:
基于 训练 模型 投标 数据 命名 实体 识别 辨认 方法 法子
资源描述:

《基于预训练模型的招投标数据命名实体识别方法》文档由会员分享,可在线阅读,更多相关《基于预训练模型的招投标数据命名实体识别方法(13页珍藏版)》请在白瓜网上搜索。

1、19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202110816996.3 (22)申请日 2021.07.20 (71)申请人 湖南达德曼宁信息技术有限公司 地址 410116 湖南省长沙市雨花区金海路 128号领智工业园A2栋502号 (72)发明人 刘洋 (74)专利代理机构 长沙惟盛赟鼎知识产权代理 事务所(普通合伙) 43228 代理人 滕澧阳 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 40/126(2020.01) G06Q 30/08(20。

2、12.01) (54)发明名称 一种基于预训练模型的招投标数据命名实 体识别方法 (57)摘要 本发明涉及一种基于预训练模型的招投标 数据命名实体识别方法, 具体包括如下步骤: S1: 获取开源预训练模型; S2: 获取无标注语料, 进行 数据预处理; S3: 训练S1中的预训练模型; S4: 使 用标注数据有监督训练, 得到基准模型M; S5: 使 基准模型M对无标注数据进行预测得到伪标签数 据; S6: 将伪标签数据加入训练集, 将真实标签数 据也加入到训练集中共同训练得到模型M; S7: 构建片段解码网络; S8: 将文本输入模型M进行 编码; S9: 将文本编码输入片段解码网络; S1。

3、0: 提 取实体片段及其类别。 本发明在预训练模型之后 以片段识别方式进行模型解码预测实体的开头 和结尾位置, 可以加快解码速度并获得较好精度 的实体结果。 权利要求书2页 说明书7页 附图3页 CN 113283244 A 2021.08.20 CN 113283244 A 1.一种基于预训练模型的招投标数据命名实体识别方法, 其特征在于: 具体包括如下 步骤: S1: 获取一个已训练的开源预训练模型; S2: 获取招投标领域无标注语料, 进行数据预处理及数据清洗; S3: 使用经S2处理的无标注数据, 进一步训练S1中的预训练模型得到领域预训练模型; S4: 选取部分数据进行人工标注, 使。

4、用有标注数据有监督训练经S3处理的预训练模型, 得到一个基准模型M; S5: 使用S4中的基准模型M对无标注数据中的部分随机选取的数据进行预测得到伪标 签数据; S6: 将S5中的伪标签数据加入训练集, 赋予伪标签数据一个动态可学习权重; 同时, 将 S4中的真实标签数据也加入到训练集中共同训练基准模型M得到模型M; S7: 构建一个片段解码网络, 用于接收模型M的输出, 所述片段解码网络包括开头指针 网络层和结尾指针网络层, 进一步训练模型M; S8: 将文本输入模型M进行编码, 得到文本编码; S9: 将文本编码输入片段解码网络; S10: 根据开头指针网络层和结尾指针网络层标注出实体的开。

5、头和结尾, 并对实体类别 进行分类, 根据开头位置、 结尾位置以及类别标签即可提取实体片段及其类别, 作为输出的 预测的实体结果。 2.根据权利要求1所述的基于预训练模型的招投标数据命名实体识别方法, 其特征在 于, S6中, 权重在模型训练过程根据损失函数进行动态的调整, 如公式 (1) 所示: 损失函数loss= (1 ) *loss(真实标签数据) + *loss(伪标签数据) (1) 。 3.根据权利要求2所述的基于预训练模型的招投标数据命名实体识别方法, 其特征在 于, S7中, 训练模型M的方法为: S7.1: 将文本输入至S7中的模型M, 进行编码, 得到文本编码; S7.2: 。

6、将S7.1中的文本编码输入片段解码网络; S7.3: 根据有标注数据的实体开头和实体结尾, 分别计算实体开头损失值和实体结尾 值损失并相加, 得到训练的损失值, 从而调整网络参数; S7.4: 迭代S7.3中步骤, 直至完成训练。 4.根据权利要求1所述的基于预训练模型的招投标数据命名实体识别方法, 其特征在 于, 还包括: S11: 设定规则, 根据S10中输出的预测的实体结果, 判断实体类型是否是需要规则处理 的类型; S12: 进行规则清洗, 输出处理后的结果或进行结果舍弃。 5.根据权利要求4所述的基于预训练模型的招投标数据命名实体识别方法, 其特征在 于, 设定规则包括: 设定正则表。

7、达式对实体结果进行处理, 使日期实体满足日期的形式, 人名实体满足中 文或英文形式, 电话号码满足数字文本及规定长度形式, 金额实体满足小数或者带有 “元” 单位形式。 6.根据权利要求4所述的基于预训练模型的招投标数据命名实体识别方法, 其特征在 权利要求书 1/2 页 2 CN 113283244 A 2 于, 设定规则包括: 地址实体根据区县对地址实体的所属省市进行补全。 7.根据权利要求1所述的基于预训练模型的招投标数据命名实体识别方法, 其特征在 于, S1中的开源预训练模型为中文语言预训练模型BERT。 8.根据权利要求1所述的基于预训练模型的招投标数据命名实体识别方法, 其特征在。

8、 于, S5中: 部分随机选取的数据的量为S4中标注数据的量的23倍。 权利要求书 2/2 页 3 CN 113283244 A 3 一种基于预训练模型的招投标数据命名实体识别方法 技术领域 0001 本发明涉及招投标文本处理领域, 尤其涉及一种基于预训练模型的招投标数据命 名实体识别方法。 背景技术 0002 招投标数据是招标人公开的招标公告信息或投标、 中标公告信息。 在招投标数据 中, 数据文本长度往往较长 (整篇平均长度在1500字以上) , 文本中实体类型多粒度细 (如时 间实体还可以分为投标开始时间、 投标截止时间、 开标时间) 。 提取招投标实体数据对分析 某区域某时间段内的招标。

9、需求或中标信息等有至关重要的作用, 是一项新兴的业务需求。 希望提取出招投标数据中的命名实体信息, 最直接的想法便是利用自然语言处理技术中的 命名实体识别相关的技术。 0003 命名实体识别是自然语言处理领域重要的子任务之一, 其任务是抽取文本数据中 的命名实体数据, 如人名、 地名、 时间等, 这些实体数据将是下游任务如关系抽取、 对话、 问 答系统等重要的数据基础, 也是构建知识图谱的必要数据, 同时这类技术也被广泛应用于 各类人工智能技术中。 0004 目前常用的实体识别的方法, 主要有基于传统的统计机器学习方法和深度学习方 法。 前者如使用机器学习中的HMM (隐马尔可夫模型) 、 M。

10、EMM (最大熵马尔可夫模型) 、 CRF (条 件随机场) 等模型直接对标注文本序列建模, 需要人工提取文本中的特征, 难度很大, 且此 类方法在需要语义及上下文理解的实体上表现欠佳。 深度学习方法可以自动提取文本中的 特征而且效果明显好于传统的统计学习方法, RNN结构的深度学习模型利用了文本序列化 的特点, 使模型可以学习到远距离的语义信息, 如一个非常典型的深度学习模型加上机器 学习模型解码的模型, LSTMCRF, 一度成为各语种中命名实体识别的主流模型。 然而深度学 习的方法需要依赖更多的标注数据来训练模型。 近期, 在深度学习领域, 随着自然语言处理 预训练语言模型的出现, 如G。

11、PT、 BERT, 预训练加上模型微调开始成为主流, 此类预训练模型 先在大型的语料上进行无监督的预训练, 使模型学习到语言的语义信息, 并将参数保存在 模型中, 在下游任务上, 只需对有标注的数据进行有监督的微调即可得到下游任务模型, 在 大多数下游任务都取得了很好的效果。 0005 在处理招投标数据中的命名实体提取的任务中, 也面临着一些问题和挑战。 (1) 在 招投标数据中, 文本数据长度往往较长、 实体类型多粒度细, 人工标注数据方法需要消耗大 量的人力和物力, 导致数据量和数据规模很难达到深度学习的需求, 所以迫切需要一种能 够适应领域数据、 充分利用少量标注数据达到较高精度的方法;。

12、 (2) 直接利用传统的深度学 习模型或是纯粹基于开源预训练模型加上微调的方法无法利用无标注的数据, 且在领域数 据上不一定会取得可观的效果; (3) 传统的利用CRF进行序列标注识别实体的方式往往带来 巨大的时间开销, 训练和预测速度受到了很大的影响, 难以满足实际业务使用的需求。 0006 在招投标数据的命名实体识别任务中, 可以利用自然语言处理中的命名实体识别 的模型方法进行识别, 现行的无预训练模型深度学习方法主要基于CNN (卷积神经网络) 、 说明书 1/7 页 4 CN 113283244 A 4 RNN (循环神经网络) 网络进行文本编码并加以序列标注框架进行实体标注, 虽然模。

13、型结构 较为简单、 轻量快捷, 但是由于数据量较少的原因, 导致模型训练不够充分, 且数据中实体 类型较多, 最终识别的效果较差, 在新数据上存在较多识别错误和无法识别的情况。 0007 现行基于预训练模型的实体识别方法主要是基于现有的开源预训练模型对标注 数据进行有监督的微调训练, 从而得到解决任务的模型的, 而实际无标注的数据往往更容 易获得, 有标注的数据往往非常稀少而珍贵, 这类方法对于大量无监督的数据显得无能为 力, 无法利用无标注数据便无法充分发掘这一部分数据的价值, 无法进一步提升效果。 0008 传统的模型利用基于CRF的序列标注方法标注出文本中的实体, 而后根据标注的 结果进。

14、行实体的提取。 由于CRF考虑全局的文本路径, 需要计算所有可能路径的分数, 而后 根据得分选取最佳路径, 所以导致计算开销较大, 这类提取方式速度较慢, 且容易出现实体 边界错误。 0009 一方面, 现有的针对招投标数据做命名实体提取的模型框架还很匮乏, 且有标注 的高质量招投标数据非常稀缺。 另一方面, 招投标数据一般是公开信息, 较容易获取, 且每 天会产生大量的新数据, 但获取到的数据常常是原始的纯文本数据, 对于有监督的模型将 难以把这些无标注的数据利用起来。 发明内容 0010 本发明的目的是提供一种基于预训练模型的招投标数据命名实体识别方法, 构建 了针对招投标数据实体抽取的总。

15、体框架 (从理论上讲此框架方法同样可以扩展到其它特定 领域) 。 本框架基于预训练语言模型加以领域数据进行进一步领域预训练, 从而使预训练模 型达到增强领域语义理解的效果; 采用半监督方式进行预训练模型的微调训练, 可以充分 利用无标注数据; 在预训练模型之后以片段识别方式进行模型解码预测实体的开头和结尾 位置从而进行实体识别任务, 可以加快解码速度并获得较好精度的实体结果; 对最终结果 施以人工规则纠偏, 使得输出结果更合理, 进一步提高了结果精度。 0011 为达到上述目的而采用了一种基于预训练模型的招投标数据命名实体识别方法, 具体包括如下步骤: S1: 获取一个已训练的开源预训练模型;。

16、 S2: 获取招投标领域无标注语料, 进行数据预处理及数据清洗; S3: 使用经S2处理的无标注数据, 进一步训练S1中的预训练模型得到领域预训练 模型; S4: 选取部分数据进行人工标注, 使用有标注数据有监督训练经S3处理的预训练 模型, 得到一个基准模型M; S5: 使用S4中的基准模型M对无标注数据中的部分随机选取的数据进行预测得到 伪标签数据; S6: 将S5中的伪标签数据加入训练集, 赋予伪标签数据一个动态可学习权重; 同 时, 将S4中的真实标签数据也加入到训练集中共同训练基准模型M得到模型M S7: 构建一个片段解码网络, 用于接收模型M的输出, 所述片段解码网络包括开头 网络层和结尾网络层, 进一步训练模型M; S8: 将文本输入模型M进行编码, 得到文本编码; 说明书 2/7 页 5 CN 113283244 A 5 S9: 将文本编码输入片段解码网络; S10: 根据开头指针网络层和结尾指针网络层标注出实体的开头和结尾, 并对实体 类别进行, 根据开头位置、 结尾位置以及类别标签即可提取实体片段及其类别, 作为输出的 预测的实体结果。 0012 作为本发明基于预。

展开阅读全文
  白瓜网所有资源均用户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
0条评论

还可以输入200字符

暂无评论,赶快抢占沙发吧。

关于本文
本文标题:基于预训练模型的招投标数据命名实体识别方法
链接地址:https://www.baigua.net/doc/836597.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 20018-2021 白瓜网版权所有

经营许可证编号:粤ICP备20005300号-1