专利名称:一种实体抽取方法、装置及设备
专利类型:发明专利
专利申请号:CN202010609557.0
专利申请(专利权)人:联想(北京)有限公司
权利人地址:北京市海淀区上地西路6号2幢2层201-H2-6
专利发明(设计)人:王萌萌
专利摘要:本发明公开了一种实体抽取方法、装置及设备,该方法包括:获取待处理信息,待处理信息包括第一对象与第二对象之间至少两组交互的交互信息数据;对待处理信息中每一交互信息数据进行多标签分类识别,以对待处理信息分别进行不同功能类型的标签标注,得到标签标注结果;根据标签标注结果,对待处理消息分层进行实体抽取;标签标注结果至少包括用于示出相应的交互信息数据中包含实体块的实体标签。如此,充分考虑了类似于语音对话过程的交互信息中存在的中断、重复、确认等问题,分层对待处理信息进行识别,能够有效识别出完整的实体信息。
主权利要求:
1.一种实体抽取方法,所述方法包括:
获取待处理信息,所述待处理信息包括第一对象与第二对象之间至少两组交互的交互信息数据;
对所述待处理信息中每一交互信息数据进行多标签分类识别,以对所述待处理信息分别进行不同功能类型的标签标注,得到标签标注结果;所述功能类型包括:具有交互类型标识功能、具有序列标识功能和具有信息来源标识功能中的一种或多种;
根据所述标签标注结果,对所述待处理信息分层进行实体抽取;
所述标签标注结果至少包括用于示出相应的交互信息数据中包含实体块的实体标签。
2.根据权利要求1所述的方法,对所述待处理信息分别进行不同功能类型的标签标注,包括以下至少之一:对所述待处理信息进行具有交互类型标识功能的标签标注,确定每一交互信息数据的交互类型标签;
对所述待处理信息进行具有序列标识功能的标签标注,确定每一交互信息数据的序列标签;
对所述待处理信息进行具有信息来源标识功能的标签标注,确定每一交互信息数据的信息来源标签。
3.根据权利要求2所述的方法,对所述待处理信息分别进行不同功能类型的标签标注,包括:依次获取所述待处理信息中的每一交互信息数据;
基于每一交互信息数据,获取与所述交互信息数据的相关交互信息数据;
根据所述交互信息数据和所述相关交互信息数据,对所述交互信息数据进行标签识别。
4.根据权利要求3所述的方法,获取与所述交互信息数据的相关交互信息数据,包括:确定每一所述交互信息数据在所述待处理信息中的交互顺序;
获取交互顺序位于所述交互信息数据之前第一设定字段的交互信息数据;和/或,获取交互顺序位于所述交互信息数据之后第二设定字段的交互信息数据。
5.根据权利要求2所述的方法,所述根据所述标签标注结果,对所述待处理信息分层进行实体抽取,包括:根据所述标签标注结果,确定被标注实体标签的交互信息数据为实体类信息数据;
确定所述实体类信息中每一交互信息数据的序列标签;
根据所述序列标签,对所述实体类信息进行实体块识别,得到实体识别结果;
根据所述实体识别结果,执行以下操作中至少之一:实体块去重、实体块排序、实体块拼接,以得到实体抽取结果。
6.根据权利要求2所述的方法,所述交互类型标签包括以下至少之一:询问类型数据、重复类型数据、否定类型数据、提供信息类型数据。
7.根据权利要求2所述的方法,所述序列标签包括以下至少之一:开始数据、暂停数据、重新开始数据、结束数据。
8.根据权利要求1‑7中任一项所述的方法,所述待处理信息为语音转录对话文本。
9.一种实体抽取装置,所述装置包括:
信息获取模块,用于获取待处理信息,所述待处理信息包括第一对象与第二对象之间至少两组交互的交互信息数据;
标签识别模块,用于对所述待处理信息中每一交互信息数据进行多标签分类识别,以对所述待处理信息分别进行不同功能类型的标签标注,得到标签标注结果;所述功能类型包括:具有交互类型标识功能、具有序列标识功能和具有信息来源标识功能中的一种或多种;
实体抽取模块,用于根据所述标签标注结果,对所述待处理信息分层进行实体抽取;
所述标签标注结果至少包括用于示出相应的交互信息数据中包含实体块的实体标签。
10.一种设备,所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行权利要求1‑8中任一项所述的实体抽取方法。 说明书 : 一种实体抽取方法、装置及设备技术领域[0001] 本发明涉及信息技术领域,尤其涉及一种实体抽取方法、装置及设备。背景技术[0002] 在银行、通信服务商、网络电商等很多行业,需要针对客服对话等过程中的语音或文本等形式的对话信息,进行较为准确的分析。在分析对话信息时,信息中有较多的口头语,例如:对话录音、对话信息转录的文本、聊天记录等,易出现对话过程中信息被中断、重复、确认、否定和纠正等各种信息不连续的情况。[0003] 目前常用的实体识别方法,例如:序列标注(CRF,LSTM)方法,其中,CRF是条件随机场(ConditionalRandomField)的简称,LSTM是长短期记忆网络(LongShort‑TermMemory)的简称。该方法在对话中存在重复、否定和纠正等交互过程时,无法有效识别信息中非连续的实体,因此也无法抽取得到准确的完整实体内容。发明内容[0004] 本发明实施例为了解决实体抽取过程中存在的上述问题,创造性地提供一种实体抽取方法、装置及设备。[0005] 根据本发明第一方面,提供了一种实体抽取方法,该方法包括:获取待处理信息,所述待处理信息包括第一对象与第二对象之间至少两组交互的交互信息数据;对所述待处理信息中每一交互信息数据进行多标签分类识别,以对所述待处理信息分别进行不同功能类型的标签标注,得到标签标注结果;根据所述标签标注结果,对所述待处理消息分层进行实体抽取;所述标签标注结果至少包括用于示出相应的交互信息数据中包含实体块的实体标签。[0006] 根据本发明一实施方式,对所述待处理信息分别进行不同功能类型的标签标注,包括以下至少之一:对所述待处理信息进行具有交互类型标识功能的标签标注,确定每一交互信息数据的交互类型标签;对所述待处理信息进行具有序列标识功能的标签标注,确定每一交互信息数据的序列标签;对所述待处理信息进行具有信息来源标识功能的标签标注,确定每一交互信息数据的信息来源标签。[0007] 根据本发明一实施方式,对所述待处理信息分别进行不同功能类型的标签标注,包括:依次获取所述待处理信息中的每一交互信息数据;基于每一交互信息数据,获取与所述交互信息数据的相关交互信息数据;根据所述交互信息数据和所述相关交互数据,对所述交互信息数据进行标签识别。[0008] 根据本发明一实施方式,获取与所述交互信息数据的相关交互数据,包括:确定每一所述交互信息数据在所述待处理信息中的交互顺序;获取交互顺序位于所述交互信息数据之前第一设定字段的交互信息数据;和/或,获取交互顺序位于所述交互信息数据之后第二设定字段的交互信息数据。[0009] 根据本发明一实施方式,所述根据所述标签标注结果,对所述待处理消息分层进行实体抽取,包括:根据所述标签标注结果,确定被标注实体标签的交互信息数据为实体类信息数据;确定所述实体类信息中每一交互信息数据的序列标签;根据所述序列标签,对所述实体类信息进行实体块识别,得到实体识别结果;根据所述实体识别结果,执行以下操作中至少之一:实体块去重、实体块排序、实体块拼接,以得到实体抽取结果。[0010] 根据本发明一实施方式,所述交互类型标签包括以下至少之一:询问类型数据、重复类型数据、否定类型数据、提供信息类型数据。[0011] 根据本发明一实施方式,所述序列标签包括以下至少之一:开始数据、暂停数据、重新开始数据、结束数据。[0012] 根据本发明一实施方式,所述待处理消息为语音转录对话文本。[0013] 根据本发明第二方面,还提供一种实体抽取装置,所述装置包括:信息获取模块,用于获取待处理信息,所述待处理信息包括第一对象与第二对象之间至少两组交互的交互信息数据;标签识别模块,用于对所述待处理信息中每一交互信息数据进行多标签分类识别,以对所述待处理信息分别进行不同功能类型的标签标注,得到标签标注结果;实体抽取模块,用于根据所述标签标注结果,对所述待处理消息分层进行实体抽取;所述标签标注结果至少包括用于示出相应的交互信息数据中包含实体块的实体标签。[0014] 根据本发明第三方面,还提供一种设备,所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行上述实体抽取方法。[0015] 本发明实施例方法、装置及设备,获取待处理信息,对于至少包括两组交互的交互信息数据的待处理信息中每一交互信息数据进行多标签分类识别,并根据标签标注结果,对待处理消息分层进行实体抽取。如此,可以首先选取出具有被标注具有实体块的实体标签的交互信息,然后针对该类实体信息进行交互顺序排序、实体识别等操作。充分考虑了类似于语音对话过程的交互信息中存在的中断、重复、确认等问题,分层对待处理信息进行识别,能够有效识别出完整的实体信息。[0016] 需要理解的是,本发明的教导并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本发明的其他实施方式还能够实现上面未提到的有益效果。附图说明[0017] 通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:[0018] 在附图中,相同或对应的标号表示相同或对应的部分。[0019] 图1示出了本发明实施例一种实体抽取方法的实现流程示意图;[0020] 图2示出了本发明实施例对待处理信息分别进行不同功能类型的标签标注的实现流程示意图;[0021] 图3示出了本发明实施例对待处理信息分别进行不同功能类型的标签标注过程的标签识别过程示意图;[0022] 图4示出了本发明实施例一种实体抽取装置的组成结构示意图;[0023] 图5示出了本发明实施例一种设备的组成结构示意图。具体实施方式[0024] 下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为使本发明更加透彻和完整,并能够将本发明的范围完整地传达给本领域的技术人员。[0025] 需要说明的是,在本发明实施例中,待处理消息可以是语音转录对话文本,例如:通信服务商电话客服的服务通话录音转录的文本、政务服务电话服务通话记录、银行客服通话记录等。也可以是文本或语音客服聊天记录,例如:电商客服聊天记录等。根据对通话记录的分析,可以快速对服务内容、服务质量等进行分析,以提高服务质量。当然也可以用于其他场景中的待处理消息进行实体抽取,本发明对此不作具体限定。[0026] 为了较为具体地说明本发明实施例具体实施方式,下文中举例说明部分均以待处理消息为语音转录对话文本为例,当然,本发明实施例中待处理消息并不局限于语音转录对话文本。[0027] 下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。[0028] 图1示出了本发明实施例实体抽取方法的实现流程示意图。[0029] 参考图1,本发明实施例实体抽取方法,至少包括如下操作流程:操作101,获取待处理信息,待处理信息包括第一对象与第二对象之间至少两组交互的交互信息数据;操作102,对待处理信息中每一交互信息数据进行多标签分类识别,以对待处理信息分别进行不同功能类型的标签标注,得到标签标注结果;操作103,根据标签标注结果,对待处理消息分层进行实体抽取;标签标注结果至少包括用于示出相应的交互信息数据中包含实体块的实体标签。[0030] 在操作101,获取待处理信息,待处理信息包括第一对象与第二对象之间至少两组交互的交互信息数据。[0031] 举例说明,第一对象与第二对象可以是相互对话的两个用户,例如:第一对象为User‑1和第二对象为User‑2,待处理信息可以是通信服务商客服或政务服务客服的通话记录进行语音转录后得到的文本,示例如下:[0032] 示例一、User‑1:手机号给我一下。[0033] User‑2:新的是吧?[0034] User‑1:是的。[0035] User‑2:幺二三。[0036] User‑1:嗯。[0037] User‑2:四五六七。[0038] User‑1:嗯。[0039] User‑2:八九零零。[0040] User‑1:幺二三四五六七八九零零。是吗?[0041] User‑2:对。[0042] 示例二、User‑1:噢好的那麻烦您告诉我一下您的地址在哪里?[0043] User‑2:某大道乙号。[0044] User‑1:某大道乙号,什么区啊?[0045] User‑2:甲区嗯。[0046] User‑1:甲区某大道乙号,对吧。[0047] User‑2:对,XX小区幺零七。[0048] User‑1:XY小区幺零七吗?[0049] User‑2:不是,是XX小区幺零七。[0050] User‑1:噢好嗯嗯。[0051] 获取待处理信息可以直接获取待处理信息的语音后进行语音转录,对于语音进行识别得到文本信息已经具有较为成熟的语音转录方法,此处不再赘述。也可以是直接获取转录完成后的文本信息。[0052] 在操作102,对待处理信息中每一交互信息数据进行多标签分类识别,以对待处理信息分别进行不同功能类型的标签标注,得到标签标注结果。[0053] 在本发明实施例中可以以第一对象或第二对象的一次交互信息,例如:上文示例二中,第二对象User‑2所说的“甲区某大道乙号,对吧”。[0054] 在本发明一实施方式中,对待处理信息分别进行不同功能类型的标签标注,包括以下至少之一:对待处理信息进行具有交互类型标识功能的标签标注,确定每一交互信息数据的交互类型标签;对待处理信息进行具有序列标识功能的标签标注,确定每一交互信息数据的序列标签;对待处理信息进行具有信息来源标识功能的标签标注,确定每一交互信息数据的信息来源标签。[0055] 在本发明一实施方式中,交互类型标签包括以下至少之一:询问类型数据、重复类型数据、否定类型数据、提供信息类型数据。[0056] 举例说明:交互类型的标签可以包括询问(S‑Ask)、重复(S‑Repeat)、否定(S‑Deny)、提供信息(S‑info)、纠正(S‑Rectify)等。[0057] 在本发明一实施方式中,序列标签包括以下至少之一:开始数据、暂停数据、重新开始数据、结束数据。[0058] 举例说明:序列标签可以包括对话开始(S‑Start‑type)、暂停(S‑Pause‑type)、重新开始(S‑Restart‑type)、结束(S‑End‑type)等。[0059] 在本发明一实施方式中,信息来源标签用于示出发出交互信息的对象,例如:第一对象user1、第二对象user2等。实际应用中也可能涉及多方信息交互,例如;三方对话记录等。[0060] 举例说明,可以对上述示例二中的每一交互信息进行多标签识别后得到如下标签标注结果,其中括号中的内容每一交互信息的标签,对于每一交互信息可以被标注一个标签也可以被标注多个标签:[0061] 一、User‑1:手机号给我一下(开始;询问);[0062] User‑2:新的是吧(确认);[0063] User‑1:是的(肯定);[0064] User‑2:幺二三(提供信息);[0065] User‑1:嗯(肯定);[0066] User‑2:四五六七(提供信息);[0067] User‑1:嗯(肯定);[0068] User‑2:八九零零(提供信息);[0069] User‑1:幺二三四五六七八九零零。是吗(重复;确认);[0070] User‑2:对(肯定;结束)。[0071] 二、User‑1:噢好的那麻烦您告诉我一下您的地址在哪里(开始;询问);[0072] User‑2:某大道乙号(提供信息);[0073] User‑1:某大道乙号,什么区啊(重复;询问);[0074] User‑2:甲区嗯(提供信息);[0075] User‑1:甲区某大道乙号,对吧(重复;确认);[0076] User‑2:对,XX小区幺零七(肯定;提供信息);[0077] User‑1:XY小区幺零七吗?(重复;确认);[0078] User‑2:不是,是XX小区幺零七(否定;纠正);[0079] User‑1:噢好嗯嗯(肯定;结束)。[0080] 在本发明一实施方式中,对待处理信息分别进行不同功能类型的标签标注,包括:依次获取待处理信息中的每一交互信息数据;基于每一交互信息数据,获取与交互信息数据的相关交互信息数据;根据交互信息数据和相关交互数据,对交互信息数据进行标签识别。[0081] 在本发明一实施方式中,获取与交互信息数据的相关交互数据,包括:确定每一交互信息数据在待处理信息中的交互顺序;获取交互顺序位于交互信息数据之前第一设定字段的交互信息数据;和/或,获取交互顺序位于交互信息数据之后第二设定字段的交互信息数据。[0082] 举例说明,第一设定字段和第二设定字段可以是设定长度的文字,也可以以断句为准,设定断句之前或断句之后几句话为设定字段。并且第一设定字段和第二设定字段可以相同或不同。[0083] 图2示出了本发明实施例对待处理信息分别进行不同功能类型的标签标注的实现流程示意图,图3示出了本发明实施例对待处理信息分别进行不同功能类型的标签标注过程的标签识别过程示意图。[0084] 参考图2和图3,对待处理信息分别进行不同功能类型的标签标注可以包括如下流程。首先需要说明的是,图3中每一框图的释义如下:[0085] Sn‑3、Sn‑2、Sn‑1、Sn、Sn+1中Sn表示需要进行标签标注的交互信息,例如:一个句子。Sn‑3、Sn‑2、Sn‑1表示该交互信息前面的三句话,Sn+1表示该交互信息后面的三句话。[0086] LSTM(LongShort‑TermMemory,长短期记忆网络)表示对需要进行标签标注的交互信息的识别过程。这里,b‑LSTM和f‑LSTM分别表示将交互信息输入至LSTM进行正向循环识别和反相循环识别。[0087] Attention表示与交互信息密切相关的信息。例如:需要进行标签标注或识别的一句话的为重复信息,则与该句话密切相关的信息为该句话的前一句话。[0088] Sigmoid表示输出在0和1之间概率,对于二分类的识别任务,利用sigmoid函数输出的是事件概率,这里,针对某一交互信息的某个标签的sigmoid输出满足某一概率条件时,将其划分为正类,确定为该交互信息标注相应的标签。例如:对于“甲区某大道乙号,对吧”,利用sigmoid函数得到,其标签包括“重复”的概率大于80%时,确定为该交互信息标注“重复”标签。以此类推,对每一交互信息进行multi‑label(多标签分类)识别。最终得到的标签标注结果中每一个句子可以有多个句子标签。[0089] SentenceMulti‑label表示根据Sigmoid函数的输出结果,对每一交互信息进行标签标注。例如:对对话信息中的每一句话进行标签标注。[0090] 操作201,根据实际需求,定义交互信息的标签。该操作可以是预先设定完成的,也可以是针对每一批需要进行实体抽取的待处理信息进行重新设定。例如:将交互信息的标签定义如下表1:[0091] 表1[0092][0093] 其中,对于标签“提供信息(S‑Info)”能够示出相应的交互信息数据中包含实体块的实体标签。例如:“对,XX小区幺零七”被标注为“肯定;提供信息”,该交互信息中包括“XX小区”和“幺零七”的实体块,可以在操作103中得到实体块识别和抽取。[0094] 操作202,对于需要进行识别的交互信息进行编码。[0095] 举例说明,对于对话信息中的每一句话,获取该句子之前的三句话和该句子之后的一句话,利用CNN(ConvolutionalNeuralNetworks,卷积神经网络)对句子进行编码。[0096] 操作203,将编码后的交互信息输入至LSTM。[0097] 举例说明,将编码后的每一句话及其前三句和后一句,同时输入LSTM(LongShort‑TermMemory,长短期记忆网络)中。[0098] 这里,b‑LSTM和f‑LSTM分别表示将交互信息输入至LSTM进行正向循环识别和反相循环识别。如此,可以有效保证对每一交互信息识别的准确度,从而有效提高实体抽取的准确度。[0099] 操作204,关注与需要进行识别的交互信息关系密切的其他交互信息。[0100] 举例说明,对于每一句话确定其Attention(本句子关系密切的句子)参数。例如:被标注“重复(Repeat)”标签的句子,一定与交互信息数据中交互顺序位于该句之前的一句关系比较密切,此处重点关注与其具关系密切的句子,可以进一步提高对交互信息的实体识别的准确度。[0101] 操作205,利用sigmoid函数,确定每一交互信息的最终标签标注结果。[0102] 至此,已经对每一交互信息进行标签标注,得到标签标注结果,并且标签标注结果至少包括用于示出相应的交互信息数据中包含实体块的实体标签。[0103] 例如:对于上文示例二中的交互信息进行多标签标注得到如下结果,其中,括号中的信息表示相应的交互信息的标签。[0104] User‑1:噢好的那麻烦您告诉我一下您的地址在哪里(S‑Start‑Address;S‑Ask);[0105] User‑2:某大道乙号(S‑Info);[0106] User‑1:某大道乙号,什么区啊(S‑Repeat;S‑Ask);[0107] User‑2:甲区嗯(S‑Info);[0108] User‑1:甲区某大道乙号,对吧(S‑Reapeat;S‑Reconfirm);[0109] User‑2:对,XX小区幺零七(S‑Affirm;S‑Info);[0110] User‑1:XY小区幺零七吗?(S‑Reapeat;S‑Reconfirm);[0111] User‑2:不是,是XX小区幺零七(S‑Deny;S‑Rectify);[0112] User‑1:噢好嗯嗯(S‑Affirm;S‑End‑Address)。[0113] 在操作103,根据标签标注结果,对待处理消息分层进行实体抽取。[0114] 在本发明一实施方式中,采用以下操作步骤实现根据标签标注结果,对待处理消息分层进行实体抽取:根据标签标注结果,确定被标注实体标签的交互信息数据为实体类信息数据;确定实体类信息中每一交互信息数据的序列标签;根据序列标签,对实体类信息进行实体块识别,得到实体识别结果;根据实体识别结果,执行以下操作中至少之一:实体块去重、实体块排序、实体块拼接,以得到实体抽取结果。[0115] 举例说明,根据上述示例二的交互信息进行多标签标注的结果给,选取被标注“S‑Info(提供信息)”标签的句子,采用序列标注(CRF,LSTM)(ConditionalRandomField,LongShort‑TermMemory)(条件随机场,长短期记忆网络)的方法对句子进行命名实体块识别。得到如下识别结果:[0116] 1)、User‑2:某大道乙号:某大道乙号;[0117] 2)、User‑2:甲区嗯:甲区;[0118] 3)、User‑2:对,XX小区幺零七:XX小区幺零七;[0119] 4)、User‑2:不是,是XX小区幺零七:XX小区幺零七。[0120] 对所得到的实体块进行去重,得到如下结果:[0121] 1)、某大道乙号;[0122] 2)、甲区;[0123] 3)、XX小区幺零七;[0124] 4)、XX小区幺零七(去重)。[0125] 对去重之后得到的实体块进行排序,得到如下结果,这里对实体块进行排序的操作为部分实施方式中的可选操作,对于以电话号码等信息为交互主题内容的交互信息则不需要排序,以地址等信息为交互主题内容的交互信息则可以将实体块按照地址范围从大到小排序,这里地址范围从大到小的排序,可以以“区”“县”“路”“街道”“小区”“单元”“门牌号”等信息进行智能识别:[0126] 1)、甲区;[0127] 2)、某大道乙号;[0128] 3)、XX小区幺零七。[0129] 最后,对于排序后的实体块进行实体拼接得到如下实体抽取结果:“甲区某大道乙号XX小区幺零七”。[0130] 本发明实施例中对于至少包括两组交互的交互信息数据的待处理信息中每一交互信息数据进行多标签分类识别,并根据标签标注结果,对待处理消息分层进行实体抽取。如此,可以首先选取出具有被标注具有实体块的实体标签的交互信息,然后针对该类实体信息进行交互顺序排序、实体识别等操作。充分考虑了类似于语音对话过程的交互信息中存在的中断、重复、确认等问题,分层对待处理信息进行识别,能够有效识别出完整的实体信息。[0131] 同理,基于上文实体抽取方法,本发明实施例还提供一种实体抽取装置,如图4,该装置40包括:信息获取模块401,用于获取待处理信息,待处理信息包括第一对象与第二对象之间至少两组交互的交互信息数据;标签识别模块402,用于对待处理信息中每一交互信息数据进行多标签分类识别,以对待处理信息分别进行不同功能类型的标签标注,得到标签标注结果;实体抽取模块403,用于根据标签标注结果,对待处理消息分层进行实体抽取;标签标注结果至少包括用于示出相应的交互信息数据中包含实体块的实体标签。[0132] 进一步,基于如上文知识图谱构建方法,本发明实施例还提供了一种处理器,处理器用于运行程序,其中,当指令被执行时,使得处理器至少执行如下的操作步骤:操作101,获取待处理信息,待处理信息包括第一对象与第二对象之间至少两组交互的交互信息数据;操作102,对待处理信息中每一交互信息数据进行多标签分类识别,以对待处理信息分别进行不同功能类型的标签标注,得到标签标注结果;操作103,根据标签标注结果,对待处理消息分层进行实体抽取;标签标注结果至少包括用于示出相应的交互信息数据中包含实体块的实体标签。[0133] 更进一步,基于如上文知识图谱构建方法,本发明实施例还提供一种设备,图5示出了本发明实施例一种设备的组成结构示意图。参考图5,设备50包括至少一个处理器501、以及与处理器501连接的至少一个存储器502、总线503;其中,处理器501、存储器502通过总线503完成相互间的通信;处理器501用于调用存储器502中的程序指令,至少执行如下的操作步骤:操作101,获取待处理信息,待处理信息包括第一对象与第二对象之间至少两组交互的交互信息数据;操作102,对待处理信息中每一交互信息数据进行多标签分类识别,以对待处理信息分别进行不同功能类型的标签标注,得到标签标注结果;操作103,根据标签标注结果,对待处理消息分层进行实体抽取;标签标注结果至少包括用于示出相应的交互信息数据中包含实体块的实体标签。[0134] 这里需要指出的是:以上对针对实体抽取装置实施例的描述,与前述图1至3所示的方法实施例的描述是类似的,具有同前述图1至3所示的方法实施例相似的有益效果,因此不做赘述。对于本发明实体抽取装置实施例中未披露的技术细节,请参照本发明前述图1至3所示的方法实施例的描述而理解,为节约篇幅,因此不再赘述。[0135] 需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。[0136] 在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。[0137] 上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。[0138] 另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。[0139] 本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ReadOnlyMemory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。[0140] 或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。[0141] 以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
专利地区:北京
专利申请日期:2020-06-29
专利公开日期:2024-07-26
专利公告号:CN111985237B