专利名称:医学知识图谱的构建方法、装置、介质及电子设备
专利类型:实用新型专利
专利申请号:CN201910844375.9
专利申请(专利权)人:医渡云(北京)技术有限公司
权利人地址:北京市海淀区花园北路35号9号楼8层801
专利发明(设计)人:李林峰
专利摘要:本公开实施例提供了一种医学知识图谱的构建方法、装置、计算机可读介质及电子设备,涉及自医学数据处理技术领域。该方法包括:获取用于表示目标医学知识的三元组;在所述三元组所表述的语义特征的基础上,获取限定所述目标医学知识的附加语义特征;基于所述附加语义特征将所述三元组扩展为四元组,以基于所述四元组构建医学知识图谱。本技术方案提供的知识图谱能够提升对医学知识的表述准确度;同时,没有额外增加原有三元组数量,不会导致基于医学知识图谱的查询效率变低。另外,本技术方案能够提高医学知识图谱可视化程度以及医学推理效率。
主权利要求:
1.一种医学知识图谱的构建方法,其特征在于,包括:
获取用于表示目标医学知识的三元组;
在所述三元组所表述的语义特征的基础上,获取限定所述目标医学知识的附加语义特征,其中,所述附加语义特征包括:关于所述三元组中第二实体的存在概率、年龄限定和人群限定;
基于所述附加语义特征将所述三元组扩展为四元组,以基于所述四元组构建医学知识图谱,其中,将所述三元组扩展为四元组包括:将所述附加语义特征表示为“关键词‑值”的方式,得到扩展字段;组合所述扩展字段与所述三元组,得到扩展后的四元组;
其中,获取用于表示目标医学知识的三元组,包括:
获取关于所述目标医学知识的第一实体,以及获取关于所述目标医学知识的属性信息;
根据所述第一实体和所述属性信息,获取关于所述目标医学知识的第二实体;
基于所述第一实体、所述属性信息以及所述第二实体确定用于表示所述目标医学知识的三元组。
2.根据权利要求1所述的医学知识图谱的构建方法,其特征在于,所述扩展字段包含至少一个“关键词‑值”;当包含多个“关键词‑值”时,所述扩展字段为并列结构。
3.根据权利要求1所述的医学知识图谱的构建方法,其特征在于,所述扩展字段为嵌套结构,所述扩展字段对应的“关键词‑值”的“值”包含“子关键词‑子值”。
4.根据权利要求1所述的医学知识图谱的构建方法,其特征在于,获取用于表示目标医学知识的三元组,包括:获取关于所述目标医学知识的第一实体,以及获取关于所述目标医学知识的第二实体;
确定关于所述第一实体和所述第二实体之间的属性信息;
基于所述第一实体、所述属性信息以及所述第二实体确定用于表示所述目标医学知识的三元组。
5.一种医学知识图谱的构建装置,其特征在于,包括:
三元组获取模块,用于:获取用于表示目标医学知识的三元组;
附加语义特征获取模块,用于:在所述三元组所表述的语义特征的基础上,获取限定所述目标医学知识的附加语义特征,其中,所述附加语义特征包括:关于所述三元组中第二实体的存在概率、年龄限定和人群限定;
知识图谱构建模块,用于:基于所述附加语义特征将所述三元组扩展为四元组,以基于所述四元组构建医学知识图谱,其中,将所述三元组扩展为四元组包括:将所述附加语义特征表示为“关键词‑值”的方式,得到扩展字段;组合所述扩展字段与所述三元组,得到扩展后的四元组;
其中,所述获取用于表示目标医学知识的三元组,包括:
获取关于所述目标医学知识的第一实体,以及获取关于所述目标医学知识的属性信息;根据所述第一实体和所述属性信息,获取关于所述目标医学知识的第二实体;基于所述第一实体、所述属性信息以及所述第二实体确定用于表示所述目标医学知识的三元组。
6.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至4中任一项所述的医学知识图谱的构建方法。
7.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至4中任一项所述的医学知识图谱的构建方法。 说明书 : 医学知识图谱的构建方法、装置、介质及电子设备技术领域[0001] 本公开涉及医学数据处理技术领域,具体而言,涉及一种医学知识图谱的构建方法、医学知识图谱的构建装置、计算机可读介质及电子设备。背景技术[0002] 医学知识图谱技术是能够使得计算机算法系统理解医学知识的关键技术。示例性的,计算机算法系统就可以基于医学知识图谱技术实现辅助诊疗、病历质控、智能导诊、自动化核保等多种医学任务。[0003] 现有技术中,医学知识图谱一般是基于“主谓宾(SubjectPredicateObject,分别可以简写为“SPO”)”形式的三元组构建而成的,如:。其中,该三元组中主语S为“2型糖尿病”,谓语P为“病状”,宾语O为“多饮”。从而,基于多个“主谓宾”形式的三元组构建医学知识图谱。[0004] 然而,相关技术提供的医学知识图谱包含的信息量有待提升,以提升对医学知识的表述准确度。[0005] 需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。发明内容[0006] 本公开实施例的目的在于提供一种医学知识图谱的构建方法、医学知识图谱的构建装置、计算机可读介质及电子设备,进而至少在一定程度上提升了医学知识图谱包含的信息量,并提升了对医学知识的表述准确度。[0007] 本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。[0008] 根据本公开实施例的第一方面,提供了一种医学知识图谱的构建方法,包括:[0009] 获取用于表示目标医学知识的三元组;[0010] 在上述三元组所表述的语义特征的基础上,获取限定上述目标医学知识的附加语义特征;[0011] 基于上述附加语义特征将上述三元组扩展为四元组,以基于上述四元组构建医学知识图谱。[0012] 在本公开的一种实施例中,基于前述方案,基于上述附加语义特征将上述三元组扩展为四元组,包括:[0013] 将上述附加语义特征表示为“关键词‑值”的方式,得到扩展字段;[0014] 组合上述扩展字段与上述三元组,得到扩展后的四元组。[0015] 在本公开的一种实施例中,基于前述方案,上所述扩展字段包含至少一个“关键词‑值”;当包含多个“关键词‑值”时,上述扩展字段为并列结构。[0016] 在本公开的一种实施例中,基于前述方案,上述扩展字段为嵌套结构,上述扩展字段对应的“关键词‑值”的“值”包含“子关键词‑子值”。[0017] 在本公开的一种实施例中,基于前述方案,其特征在于,上述附加语义特征至少包括以下信息中的一种或多种:概率限制、年龄限定和人群限定。[0018] 在本公开的一种实施例中,基于前述方案,获取用于表示目标医学知识的三元组,包括:[0019] 获取关于上述目标医学知识的第一实体,以及获取关于上述目标医学知识的属性信息;[0020] 根据上述第一实体和上述属性信息,获取关于上述目标医学知识的第二实体;[0021] 基于上述第一实体、上述属性关系以及上述第二实体确定用于表示上述目标医学知识的三元组。[0022] 在本公开的一种实施例中,基于前述方案,获取用于表示目标医学知识的三元组,包括:[0023] 获取关于上述目标医学知识的第一实体,以及获取关于上述目标医学知识的第二实体;[0024] 确定关于上述第一实体和上述第二实体之间的属性信息;[0025] 基于上述第一实体、上述属性关系以及上述第二实体确定用于表示上述目标医学知识的三元组。[0026] 根据本公开实施例的第二方面,提供了一种医学知识图谱的构建装置,包括:[0027] 三元组获取模块,用于:获取用于表示目标医学知识的三元组;[0028] 附加语义特征获取模块,用于:在上述三元组所表述的语义特征的基础上,获取限定上述目标医学知识的附加语义特征;[0029] 知识图谱构建模块,用于:基于上述附加语义特征将上述三元组扩展为四元组,以基于上述四元组构建医学知识图谱。[0030] 根据本公开实施例的第三方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例第一方面中所述的医学知识图谱的构建方法。[0031] 根据本公开实施例的第四方面,提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例第一方面所述的医学知识图谱的构建方法。[0032] 本公开实施例提供的技术方案可以包括以下有益效果:[0033] 在本公开的一些实施例中,首先获取用于表示目标医学知识的三元组,并在该三元组所表述的语义特征的基础上,获取进一步限定上述目标医学知识附加语义特征。然后,基于获取到的附加语义特征将上述三元组扩展为四元组。从而,提升了知识图谱的构成单位所包含的信息量。进而,基于上述四元组构建的医学知识图谱锁包含的信息量也得到了提升。相较于相关技术中通过三元组直接构建的知识图谱,本技术方案提供的知识图谱能够提升对医学知识的表述准确度。[0034] 应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明[0035] 此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:[0036] 图1示出本公开示例性实施例中用于实现医学知识图谱的构建方法的系统架构示意图;[0037] 图2示出了根据本公开的一实施例的医学知识图谱的构建方法的流程示意图;[0038] 图3示出了根据本公开的一实施例的三元组的确定方法的流程示意图;[0039] 图4示出了根据本公开的另一实施例的三元组的确定方法的流程示意图;[0040] 图5示出了根据本公开的一实施例的四元组的扩展方法的流程示意图;[0041] 图6示出了根据本公开的一实施例的医学知识图谱的构建装置的结构示意图;[0042] 图7示出本公开示例性实施例中计算机存储介质的结构示意图;以及,[0043] 图8示出本公开示例性实施例中电子设备的结构示意图。具体实施方式[0044] 现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。[0045] 此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。[0046] 附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。[0047] 附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。[0048] 本示例实施方式中首先提供了一种用于实现医学知识图谱的构建方法的系统架构,可以应用于各种数据处理场景。参考图1所示,该系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。[0049] 用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送请求指令等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如图片处理应用、购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。[0050] 终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。[0051] 服务器105可以是提供各种服务的服务器,例如获取用户利用终端设备101、102、103输入的用于表示目标医学知识的三元组,以及在所述三元组所表述的语义特征的基础上,获取限定所述目标医学知识的附加语义特征(仅为示例)。后台管理服务器可以基于所述附加语义特征将所述三元组扩展为四元组,以基于所述四元组构建医学知识图谱(仅为示例)。后台管理服务器还可以接收查询指令,并基于所述查询指令在所述医学知识图谱中进行查询。[0052] 需要说明的是,本申请实施例所提供的医学知识图谱的构建方法一般由服务器105执行,相应地,医学知识图谱的构建装置一般设置于终端设备101中。[0053] 现有技术提供的医学知识图谱的构建方法中,其基于的三元组无法表示基于带有概率等附加语义特征的事实,例如:并不是所有的二型糖尿病患者都有多饮的症状,这个医学知识成立是有概率的。再例如:婴幼儿肺炎患者会出现‘咳奶’的症状,那么在<肺炎症状咳奶>这条医学知识上需要添加附加语义特征是人群为儿童。由于相关技术提供的三元组无法表示这类信息,导致基于相关技术的三元组构成的医学知识图谱包含的信息量有待提升,进一步地来提升对医学知识的表述准确度。[0054] 另一种相关技术中,将原有三元组作为一个复合三元组的主语,对原有三元组所表述的医学知识的附加语义特征作为复合三元组的谓语,进一步地,并将限定值作为复合三元组的宾语。从而形成包含较多信息量的符合三元组。例如:原有三元组为:。为了表述病症2型糖尿病的症状为多饮的概率为85%,则根据上述相关技术得到符合三元组如下:P:概率O:0.85>。[0055] 虽然上述的另一种相关技术可以改善原有三元组死板的表示方法,可以使得基于复合三元组构成的医学知识图谱包含的信息量得到提升。但是,通过上述符合三元组来添加对原有三元组的附加语义特征的方式,将会导致医学图谱中的三元组量爆炸,进而导致基于医学知识图谱的查询效率变低,例如,推理的时候需要查询多条三元组才能获取到事实的附加语义特征。[0056] 针对相关技术中所存在的上述问题,本技术方案提供了一种医学知识图谱的构建方法及装置,计算机存储介质和电子设备。以下先对医学知识图谱的构建方法进行说明:[0057] 图2示出了根据本公开的实施例的医学知识图谱的构建方法的流程示意图。本实施例提供的医学知识图谱的构建方法,至少在一定程度上克服现有技术中存在的上述问题。[0058] 其中,本实施例提供的医学知识图谱的构建方法的执行主体可以是具有计算处理功能的设备,比如服务器等。[0059] 参考图2,本实施例提供的医学知识图谱的构建方法包括:[0060] 步骤S210,获取用于表示目标医学知识的三元组;[0061] 步骤S220,在所述三元组所表述的语义特征的基础上,获取限定所述目标医学知识的附加语义特征;以及,[0062] 步骤S230,基于所述附加语义特征将所述三元组扩展为四元组,以基于所述四元组构建医学知识图谱。[0063] 在图2所示实施例提供的技术方案中,一方面,基于获取到的附加语义特征将上述三元组扩展为四元组。从而,提升了知识图谱的构成单位所包含的信息量。进而,基于上述四元组构建的医学知识图谱锁包含的信息量也得到了提升。相较于相关技术中通过三元组直接构建的知识图谱,本技术方案提供的知识图谱能够提升对医学知识的表述准确度。[0064] 另一方面,相较于相关技术中的复合三元组,基于本技术方案提供的用作医学知识图谱的构成单位的四元组,没有额外增加原有三元组数量,不会导致基于医学知识图谱的查询效率变低。[0065] 同时,基于本技术方案进行医学知识的查询,查询一条四元组即可获得相关意向知识的较为全面的信息,医学知识图谱可视化程度以及医学推理效率。[0066] 以下对图2中所示技术方案的各个步骤的实现细节进行详细阐述:[0067] 在示例性的实施例中,在步骤S210中获取的用于表示目标医学知识的三元组可以是既有的三元组。例如,来自由三元组构建而出的现有医学知识图谱。进而通过本技术方案对既有三元组进行信息扩展,进一步的,得到由扩展后的四元组组成的医学知识图谱,实现了对现有的医学知识图谱的改进,有利于提升对医学知识的表述准确度。[0068] 在示例性的实施例中,还可以根据医学知识来获取在步骤S210中用于表示目标医学知识的三元组。例如,作为步骤S210的具体实施方式,以下图3和图4分别示出了三元组的确定方法的流程示意图。[0069] 示例性的,图3示出了根据本公开的一实施例的三元组的确定方法的流程示意图。参考图3,该图所示实施例提供的方法包括:[0070] 步骤S310,获取关于所述目标医学知识的第一实体,以及获取关于所述目标医学知识的属性信息;[0071] 步骤S320,根据所述第一实体和所述属性信息,获取关于所述目标医学知识的第二实体;以及,[0072] 步骤S330,基于所述第一实体、所述属性关系以及所述第二实体确定用于表示所述目标医学知识的三元组。[0073] 在示例性的实施例中,医学知识一般来源于以下几个方面:一方面为文献知识,通过学习教科书、临床指南、专著与论文等获得;另一方面为经验知识,在临床诊疗工作中积累经验观察等获得的真实世界临床数据。两者之间是相辅相成的关系。具体的,随着医疗行业对于经验知识的价值有了进一步认识,并以“真实世界数据”(RealWorldData,简称:RWD)这一专有名词来描述这种真实世界临床数据,并且基于真实世界数据来修正诊疗方法。[0074] 可见,在步骤S310中获取的关于目标医学知识的第一实体和关于该目标医学知识的属性信息,以及步骤S320中的获取的关于同一目标医学知识的第二实体,均可以从上述文献知识和真实世界数据来确定。[0075] 示例性的,假如上述目标医学知识为关于疾病2型糖尿病。则上述第一实体可以是疾病名实体,如:“2型糖尿病”,上述属性信息可以是“病症”、“病因”或“治疗”等。进一步地,根据上述属性信息来确定第二实体,例如:在上述属性信息为“病症”的情况下,根据医学知识可以确定的第二实体可以为:“多饮”、“多尿”和“消瘦”等。进而可以确定关于上述目标医学知识的至少一个三元组,如:<2型糖尿病症状多饮>、<2型糖尿病症状多尿>以及<2型糖尿病症状消瘦>。同理,关于上述目标医学知识,还可以根据第一实体和其他属性信息确定相对应的至少一个第二实体,最终确定多个三元组。[0076] 示例性的,图4示出了根据本公开的另一实施例的三元组的确定方法的流程示意图;参考图4,该图所示实施例提供的方法包括:[0077] 步骤S410,获取关于所述目标医学知识的第一实体,以及获取关于所述目标医学知识的第二实体;[0078] 步骤S420,确定关于所述第一实体和所述第二实体之间的属性信息;以及,[0079] 步骤S430,基于所述第一实体、所述属性关系以及所述第二实体确定用于表示所述目标医学知识的三元组。[0080] 在示例性的实施例中,在步骤S410中获取的关于目标医学知识的第一实体和第二实体,以及步骤S420中的确定关于该目标医学知识的属性信息,均可以从上述文献知识和真实世界数据来确定。[0081] 示例性的,假如上述目标医学知识为关于疾病2型糖尿病。则上述第一实体可以是疾病名实体,如:“2型糖尿病”,上述第二实体可以是“多饮”。进一步地,根据医学知识可以在步骤S420中确定关于上述第一实体和第二实体之间的关系的属性信息为“病症”。进而确定三元为:<2型糖尿病症状多饮>。同理,关于上述目标医学知识,还可以根据第一实体和其他第二实体确定相对应的属性信息,最终确定多个三元组。[0082] 在示例性的实施例中,继续参考图2,根据上述实施方式获取到用于表示目标医学知识的三元组之后,在步骤S220中,在所述三元组所表述的语义特征的基础上,获取限定所述目标医学知识的附加语义特征。[0083] 示例性的,相较于上述三元组所表述的语义特征,三元组和附加语义特征两方面结合起来能够更贴合实际的表述目标医学知识。进而有利于提升知识图谱的构成单位所包含的信息量,以及,有利于提升对医学知识的表述准确度。[0084] 示例性的,上述附加语义特征可以包括以下信息中的一种或多种:概率限制、年龄限定和人群限定。上述附加语义特征还可以包括:关于三元组中第二实体的存在概率和/或可信程度等等。需要说明的是,上述附加语义特征是根据进一步限定当前三元组特征决定的,也就是说,上述附加语义特征的具体内容根据实际需求确定,在此不作限定。[0085] 例如,关于现有的三元组“<2型糖尿病症状多饮>”,其所表述的语义特征为:2型糖尿病的症状包括多饮。然而,根据医学知识可知,并不是所有的二型糖尿病患者都有多饮的症状,这个医学知识成立是有概率的。在本技术方案中,可以根据医学知识获取上述附加语义特征,具体为关于二型糖尿病患者患有多饮的症状的概率。[0086] 再例如:关于现有的三元组“<肺炎症状咳奶>”,其所表述的语义特征为:肺炎的症状包括咳奶。然而,根据医学知识可知,仅婴幼儿肺炎患者会出现‘咳奶’的症状,那么在<肺炎症状咳奶>所表述的语义特征的基础上。还需要根据医学知识获取上述附加语义特征,具体为病症包含咳奶的肺炎患者的人群限定为婴幼儿。[0087] 在示例性的实施例中,可以从医学文献知识和医学真是时间数据来获取关于目标医学知识的附加语义特征。[0088] 在示例性的实施例中,继续参考图2,根据上述实施方式获取到用于表示目标医学知识的三元组以及附加语义特征之后,在步骤S230中,基于所述附加语义特征将所述三元组扩展为四元组,以基于所述四元组构建医学知识图谱。[0089] 示例性的,图5示出了根据本公开的一实施例的四元组的扩展方法的流程示意图,可以作为步骤S230的一种具体实施方式。参考图5,该图所示实施例提供的方法包括:[0090] 步骤S510,将所述附加语义特征表示为“关键词‑值”的方式,得到扩展字段;以及,[0091] 步骤S520,组合所述扩展字段与所述三元组,得到扩展后的四元组。[0092] 在示例性的实施例中,对于获取到的附加语义特征,本技术方案使用(“关键词Key‑值Value”,简称:K‑V)字典的存储方式,从而得到上述三元组的扩展字段,同时,键值对的方式可有效保障数据的可扩展性。进一步地,将上述扩展字段作为第四元,并组合至上述三元组中,得到扩展后的四元组Quadruplet。例如:[0093] Q1:<2型糖尿病症状多饮{“probability”:0.85}>;[0094] Q2:<肺炎症状咳奶{“population”:“婴幼儿”}>;[0095] Q3:<肺炎用药莫西沙星{“age”:{“gt”:18}}>.[0096] 例如,四元组Q1所表述的语义特征为:二型糖尿病患者具备多饮症状的概率为85%。其中,四元组Q1中的扩展字段为{“probability”:0.85},其中的关键词Key为probability,表示概率限制;值Value为0.85,表示概率值。[0097] 再例如:四元组Q2所表述的语义特征为:肺炎患者中的婴幼儿具有咳奶的症状。其中,四元组Q2中的扩展字段为{“population”:“婴幼儿”},其中的关键词Key为population,表示人群限制;值Value为“婴幼儿”。[0098] 再例如:四元组Q3所表述的语义特征为:年龄大于18岁的肺炎患者可以用药莫西沙星。其中,四元组Q3中的扩展字段为{“age”:{“gt”:18}},其中的关键词Key为age,表示年龄限制;值Value为KV字典{“gt”:18},其中,子关键词Key为:gt,表示大于“greaterthan”,子值Value为:18。[0099] 在示例性的实施例中,从上述四元组Q3中可见,上述扩展字段为嵌套结构,其中,该扩展字段对应的“关键词‑值”的“值”包含“子关键词‑子值”。[0100] 在示例性的实施例中,上述四元组Q3还可以为并列结构,则扩展字段对应的“关键词1‑值1”、“关键词2‑值2”以及“关键词3‑值3”等。例如以下四元组Q4:[0101][0102] 在图5所示实施例提供的技术方案中,基于本技术方案进行医学知识的查询,查询一条四元组即可获得相关意向知识的较为全面的信息,提高了知识图谱查询效率以及查询知识图谱后的医学推理效率。同时,通过附加语义特征的表达多样性来表述贴合医学实际的医学知识,有利于提升图谱可视化。[0103] 本领域技术人员可以理解实现上述实施方式的全部或部分步骤被实现为由处理器(包含CPU和GPU)执行的计算机程序。例如,通过GPU实现对上述风险预测模型的模型训练,或者基于训练后的风险预测模型,使用CPU或GPU实现对待测对象的风险等级预测处理等。在该计算机程序被CPU执行时,执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。[0104] 此外,需要注意的是,上述附图仅是根据本公开示例性实施方式的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。[0105] 以下介绍本公开的装置实施例,可以用于执行本公开上述的医学知识图谱的构建方法。[0106] 图6示出了根据本公开的实施例的医学知识图谱的构建装置的结构示意图,参考图6,本实施例提供的医学知识图谱的构建装置600,包括:三元组获取模块601、附加语义特征获取模块602和知识图谱构建模块603。[0107] 其中,上述三元组获取模块601,用于:获取用于表示目标医学知识的三元组;[0108] 上述附加语义特征获取模块602,用于:在上述三元组所表述的语义特征的基础上,获取限定上述目标医学知识的附加语义特征;[0109] 上述知识图谱构建模块603,用于:基于上述附加语义特征将上述三元组扩展为四元组,以基于上述四元组构建医学知识图谱。[0110] 在本公开的一种实施例中,基于前述方案,上述知识图谱构建模块603,包括:扩展字段确定子模块和组合子模块。[0111] 其中,上述扩展字段确定子模块,用于:将上述附加语义特征表示为“关键词‑值”的方式,得到扩展字段;以及,上述组合子模块,用于:组合上述扩展字段与上述三元组,得到扩展后的四元组。[0112] 在本公开的一种实施例中,基于前述方案,上所述扩展字段包含至少一个“关键词‑值”;当包含多个“关键词‑值”时,上述扩展字段为并列结构。[0113] 在本公开的一种实施例中,基于前述方案,上述扩展字段为嵌套结构,上述扩展字段对应的“关键词‑值”的“值”包含“子关键词‑子值”。[0114] 在本公开的一种实施例中,基于前述方案,其特征在于,上述附加语义特征至少包括以下信息中的一种或多种:概率限制、年龄限定和人群限定。[0115] 在本公开的一种实施例中,基于前述方案,上述三元组获取模块601,具体用于:[0116] 获取关于上述目标医学知识的第一实体,以及获取关于上述目标医学知识的属性信息;根据上述第一实体和上述属性信息,获取关于上述目标医学知识的第二实体;以及,基于上述第一实体、上述属性关系以及上述第二实体确定用于表示上述目标医学知识的三元组。[0117] 在本公开的一种实施例中,基于前述方案,上述三元组获取模块601,还具体用于:[0118] 获取关于上述目标医学知识的第一实体,以及获取关于上述目标医学知识的第二实体;确定关于上述第一实体和上述第二实体之间的属性信息;以及,基于上述第一实体、上述属性关系以及上述第二实体确定用于表示上述目标医学知识的三元组。[0119] 由于本公开的示例实施例的医学知识图谱的构建装置的各个功能模块与上述医学知识图谱的构建方法的示例实施例的步骤对应,因此对于本公开装置实施例中未披露的细节,请参照本公开上述的医学知识图谱的构建方法的实施例。[0120] 应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。[0121] 此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。[0122] 通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD‑ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。[0123] 在本公开示例性实施方式中,还提供了一种能够实现上述方法的计算机存储介质。其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当上述程序产品在终端设备上运行时,上述程序代码用于使上述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。[0124] 参考图7所示,描述了根据本公开的实施方式的用于实现上述方法的程序产品700,其可以采用便携式紧凑盘只读存储器(CD‑ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。[0125] 上述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD‑ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。[0126] 计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。[0127] 可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。[0128] 可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。[0129] 此外,在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。[0130] 所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。[0131] 下面参照图8来描述根据本公开的这种实施方式的电子设备800。图8显示的电子设备800仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。[0132] 如图8所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830。[0133] 其中,上述存储单元存储有程序代码,上述程序代码可以被上述处理单元810执行,使得上述处理单元810执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如,上述处理单元810可以执行如图2中所示的:步骤S210,获取用于表示目标医学知识的三元组;步骤S220,在所述三元组所表述的语义特征的基础上,获取限定所述目标医学知识的附加语义特征;以及,步骤S230,基于所述附加语义特征将所述三元组扩展为四元组,以基于所述四元组构建医学知识图谱。[0134] 示例性的,上述处理单元810还可以执行如图2至图5中任意一图所示的医学知识图谱的构建方法。[0135] 存储单元820可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202,还可以进一步包括只读存储单元(ROM)8203。[0136] 存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204,这样的程序模块8205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。[0137] 总线830可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。[0138] 电子设备800也可以与一个或多个外部设备900(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备800交互的设备通信,和/或与使得该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口850进行。并且,电子设备700还可以通过网络适配器870与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器860通过总线830与电子设备800的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。[0139] 通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD‑ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。[0140] 此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。[0141] 本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
专利地区:北京
专利申请日期:2019-09-06
专利公开日期:2024-07-26
专利公告号:CN112463973B