专利名称:医学核心词知识库构建方法、装置、介质及终端
专利类型:实用新型专利
专利申请号:CN202410444505.0
专利申请(专利权)人:上海森亿医疗科技有限公司
权利人地址:上海市浦东新区中国(上海)自由贸易试验区亮景路232号501、502室
专利发明(设计)人:马汉东,张少典,尹富源
专利摘要:本申请提供一种医学核心词知识库构建方法、装置、介质及终端,通过构建语料库和核心词组聚类的方式,对终选核心词条目进行成分配置,从而构建医学核心词知识库,使得终选核心词条目在应用时能满足医学变量既匹配标准医学术语,又匹配非术语正则或函数表达式的需求,从而能够满足诊疗过程中的智能诊断推荐、用药推荐等场景的使用需要,丰富了使用场景,并且多个不同的医学变量能复用相同的终选核心词条目,避免了医学变量内涵的重复生产。另外,根据正则匹配结果和术语匹配结果的一致性进行数据质控和优化,降低了质控、标注的工作量,保证了医学核心词知识库的一致性和标准性。
主权利要求:
1.一种医学核心词知识库构建方法,其特征在于,包括:
对需要纳入核心词的医学特征词进行定义,以获取若干个医学核心词;
从预存的医学数据文本中为每个医学核心词筛选对应的一或多个医学数据,每个医学核心词及其所对应的一或多个医学数据形成一条核心词条目,据以构建得到包含有多个核心词条目的语料库;
对所述语料库中的核心词条目进行同义词聚类以得到多个核心词组别;每个核心词组别包含多个词义相同但表述不同的核心词条目;
从各个核心词组别中撷取其中一个核心词条目作为该核心词组别的终选核心词条目;
对各个终选核心词条目进行成分配置以得到医学核心词知识库;所述方法还用于执行如下步骤:在得到所述医学核心词知识库后,根据正则匹配结果和术语匹配结果的一致性进行数据质控和优化,其中包括:对所述医学核心词知识库中的每个所述终选核心词条目在预存的已验证的医学数据文本中进行正则匹配,以得到每个所述终选核心词条目的第一匹配结果;
对所述医学核心词知识库中的每个所述终选核心词条目在预存的已验证的医学数据文本中进行术语匹配,以得到每个所述终选核心词条目的第二匹配结果;
计算每个所述终选核心词条目的第一匹配结果和第二匹配结果的一致率;
根据所述一致率,确定每个所述终选核心词条目的匹配准确率;
根据每个所述终选核心词条目的匹配准确率,对每个所述终选核心词条目进行成分配置优化,以更新所述医学核心词知识库。
2.根据权利要求1所述的医学核心词知识库构建方法,其特征在于,对所述语料库中的核心词条目进行同义词聚类以得到多个核心词组别的方式包括:计算所述语料库中两两核心词条目之间的相似度;
根据所述语料库中两两核心词条目之间的相似度,对达到预设相似度阈值的核心词条目进行聚类,以得到多个核心词组别。
3.根据权利要求2所述的医学核心词知识库构建方法,其特征在于,计算所述语料库中两两核心词条目之间的相似度的方式包括:利用字符相似度算法计算得到所述语料库中两两核心词条目之间的相似度;以及/或者,利用语义相似度算法计算得到所述语料库中两两核心词条目之间的相似度。
4.根据权利要求1所述的医学核心词知识库构建方法,其特征在于,对各个终选核心词条目进行成分配置以得到医学核心词知识库的方式包括:正则表达式配置、术语编码配置、同义词配置以及黑名单配置中的一种或者多种的组合。
5.一种医学核心词知识库构建装置,其特征在于,包括:
获取模块,用于对需要纳入核心词的医学特征词进行定义,以获取若干个医学核心词;
语料库构建模块,用于从预存的医学数据文本中为每个医学核心词筛选对应的一或多个医学数据,每个医学核心词及其所对应的一或多个医学数据形成一条核心词条目,据以构建得到包含有多个核心词条目的语料库;
聚类模块,用于对所述语料库中的核心词条目进行同义词聚类以得到多个核心词组别;每个核心词组别包含多个词义相同但表述不同的核心词条目;
终选模块,用于从各个核心词组别中撷取其中一个核心词条目作为该核心词组别的终选核心词条目;
知识库构建模块,用于对各个终选核心词条目进行成分配置以得到医学核心词知识库;在得到所述医学核心词知识库后,根据正则匹配结果和术语匹配结果的一致性进行数据质控和优化,其中包括:对所述医学核心词知识库中的每个所述终选核心词条目在预存的已验证的医学数据文本中进行正则匹配,以得到每个所述终选核心词条目的第一匹配结果;
对所述医学核心词知识库中的每个所述终选核心词条目在预存的已验证的医学数据文本中进行术语匹配,以得到每个所述终选核心词条目的第二匹配结果;
计算每个所述终选核心词条目的第一匹配结果和第二匹配结果的一致率;
根据所述一致率,确定每个所述终选核心词条目的匹配准确率;
根据每个所述终选核心词条目的匹配准确率,对每个所述终选核心词条目进行成分配置优化,以更新所述医学核心词知识库。
6.根据权利要求5所述的医学核心词知识库构建装置,其特征在于,所述聚类模块对所述语料库中的核心词条目进行同义词聚类以得到多个核心词组别的方式包括:计算所述语料库中两两核心词条目之间的相似度;
根据所述语料库中两两核心词条目之间的相似度,对达到预设相似度阈值的核心词条目进行聚类,以得到多个核心词组别。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的医学核心词知识库构建方法。
8.一种电子终端,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述电子终端执行如权利要求1至4中任一项所述的医学核心词知识库构建方法。 说明书 : 医学核心词知识库构建方法、装置、介质及终端技术领域[0001] 本申请涉及医学数据处理技术领域,特别是涉及一种医学核心词知识库构建方法、装置、介质及终端。背景技术[0002] 当前数据应用类的医疗信息软件需要从医疗数据中进行医学变量提取,经过概念定义、逻辑定义、归一化处理等过程,以变量的形式实现对医疗数据进行提取、运算和应用,建立医学知识库。正则表达式和术语编码是实现医学变量定义和归一化处理的两种常用方式,但存在以下问题:1)目前通用的医学术语编码体系如ICD10等为特定场景制定,与临床诊疗过程习惯用语差异较大,难以满足诊疗过程中的智能诊断推荐、用药推荐等场景的使用需要。2)为确保术语和正则表达式取数的正确性,需要结合大量医疗数据进行标注、质控和调优,此过程目前耗费人力,实施成本高昂。3)知识库在多个项目和产品使用,需要基于项目和产品需求对术语和正则表达式做定制化更新,需要对多个内容版本做兼容和管理,现存方法难以确保多个内容版本的概念一致性,容易造成新旧版本间的冗余和混淆。发明内容[0003] 鉴于以上所述现有技术的缺点,本申请的目的在于提供一种医学核心词知识库构建方法、装置、介质及终端,用于解决现有技术中从医学数据中生产和提取医学变量效率低、质量难以得到保障、实施成本高、耗费人力、多个版本难以兼容和管理的技术问题。[0004] 为实现上述目的及其他相关目的,本申请的第一方面提供一种医学核心词知识库构建方法,包括:[0005] 对需要纳入核心词的医学特征词进行定义,以获取若干个医学核心词;[0006] 从预存的医学数据文本中为每个医学核心词筛选对应的一或多个医学数据,每个医学核心词及其所对应的一或多个医学数据形成一条核心词条目,据以构建得到包含有多个核心词条目的语料库;[0007] 对所述语料库中的核心词条目进行同义词聚类以得到多个核心词组别;每个核心词组别包含多个词义相同但表述不同的核心词条目;[0008] 从各个核心词组别中撷取其中一个核心词条目作为该核心词组别的终选核心词条目;[0009] 对各个终选核心词条目进行成分配置以得到医学核心词知识库。[0010] 于本申请的第一方面的一些实施例中,对所述语料库中的核心词条目进行同义词聚类以得到多个核心词组别的方式包括:[0011] 计算所述语料库中两两核心词条目之间的相似度;[0012] 根据所述语料库中两两核心词条目之间的相似度,对达到预设相似度阈值的核心词条目进行聚类,以得到多个核心词组别。[0013] 于本申请的第一方面的一些实施例中,计算所述语料库中两两核心词条目之间的相似度的方式包括:利用字符相似度算法计算得到所述语料库中两两核心词条目之间的相似度;以及/或者,利用语义相似度算法计算得到所述语料库中两两核心词条目之间的相似度。[0014] 于本申请的第一方面的一些实施例中,对各个终选核心词条目进行成分配置以得到医学核心词知识库的方式包括:正则表达式配置、术语编码配置、同义词配置以及黑名单配置中的一种或者多种的组合。[0015] 于本申请的第一方面的一些实施例中,所述方法还用于执行如下步骤:在得到所述医学核心词知识库后,根据正则匹配结果和术语匹配结果的一致性进行数据质控和优化。[0016] 于本申请的第一方面的一些实施例中,根据正则匹配结果和术语匹配结果的一致性进行数据质控和优化的方式包括:[0017] 对所述医学核心词知识库中的每个所述终选核心词条目在预存的已验证的医学数据文本中进行正则匹配,以得到每个所述终选核心词条目的第一匹配结果;[0018] 对所述医学核心词知识库中的每个所述终选核心词条目在预存的已验证的医学数据文本中进行术语匹配,以得到每个所述终选核心词条目的第二匹配结果;[0019] 计算每个所述终选核心词条目的第一匹配结果和第二匹配结果的一致率;[0020] 根据所述一致率,确定每个所述终选核心词条目的匹配准确率;[0021] 根据每个所述终选核心词条目的匹配准确率,对每个所述终选核心词条目进行成分配置优化,以更新所述医学核心词知识库。[0022] 为实现上述目的及其他相关目的,本申请的第二方面提供一种医学核心词知识库构建装置,包括:[0023] 获取模块,用于对需要纳入核心词的医学特征词进行定义,以获取若干个医学核心词;[0024] 语料库构建模块,用于从预存的医学数据文本中为每个医学核心词筛选对应的一或多个医学数据,每个医学核心词及其所对应的一或多个医学数据形成一条核心词条目,据以构建得到包含有多个核心词条目的语料库;[0025] 聚类模块,用于对所述语料库中的核心词条目进行同义词聚类以得到多个核心词组别;每个核心词组别包含多个词义相同但表述不同的核心词条目;[0026] 终选模块,用于从各个核心词组别中撷取其中一个核心词条目作为该核心词组别的终选核心词条目;[0027] 知识库构建模块,用于对各个终选核心词条目进行成分配置以得到医学核心词知识库。[0028] 于本申请的第二方面的一些实施例中,所述聚类模块对所述语料库中的核心词条目进行同义词聚类以得到多个核心词组别的方式包括:[0029] 计算所述语料库中两两核心词条目之间的相似度;[0030] 根据所述语料库中两两核心词条目之间的相似度,对达到预设相似度阈值的核心词条目进行聚类,以得到多个核心词组别。[0031] 为实现上述目的及其他相关目的,本申请的第三方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的医学核心词知识库构建方法。[0032] 为实现上述目的及其他相关目的,本申请的第四方面提供一种电子终端,包括:处理器及存储器;所述存储器用于存储计算机程序;所述处理器用于执行所述存储器存储的计算机程序,以使所述电子终端执行如上所述的医学核心词知识库构建方法。[0033] 如上所述,本申请的医学核心词知识库构建方法、装置、介质及终端,具有以下有益效果:通过构建语料库和核心词组聚类的方式,对终选核心词条目进行成分配置,从而构建医学核心词知识库,使得终选核心词条目在应用时能满足医学变量既匹配标准医学术语,又匹配非术语正则或函数表达式的需求,从而能够满足诊疗过程中的智能诊断推荐、用药推荐等场景的使用需要,丰富了使用场景,并且多个不同的医学变量能复用相同的终选核心词条目,避免了医学变量内涵的重复生产。另外,通过医学数据进行终选核心词条目的自动交叉验证,并根据正则匹配结果和术语匹配结果的一致性进行数据质控和优化,降低了质控、标注的工作量,保证了医学核心词知识库的一致性和标准性,避免了不同版本之间的冗余和混淆,同时通过质控提高了终选核心词条目的生产效率和质量,能够加快数据应用类的医疗信息软件的研发过程和实施过程,降低研发和实施成本。附图说明[0034] 图1A显示为本申请一实施例中的医学核心词知识库构建方法的流程示意图。[0035] 图1B显示为本申请一实施例中的获取核心词组别的流程示意图。[0036] 图2显示为本申请一实施例中的核心词质控和优化的流程示意图。[0037] 图3显示为本申请一实施例中的医学核心词知识库构建装置的结构示意图。[0038] 图4显示为本申请一实施例中电子终端的结构示意图。具体实施方式[0039] 以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。[0040] 需要说明的是,在下述描述中,参考附图,附图描述了本申请的若干实施例。应当理解,还可使用其他实施例,并且可以在不背离本申请的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的,并且本申请的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例,而并非旨在限制本申请。空间相关的术语,例如“上”、“下”、“左”、“右”、“下面”、“下方”、“下部”、“上方”、“上部”等,可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。[0041] 再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。[0042] 当前数据应用类的医疗信息软件需要从医疗数据中进行医学变量提取,经过概念定义、逻辑定义、归一化处理等过程,以变量的形式实现对医疗数据进行提取、运算和应用,建立医学知识库。正则表达式和术语编码是实现医学变量定义和归一化处理的两种常用方式,但存在以下问题:1)目前通用的医学术语编码体系如ICD10等为特定场景制定,与临床诊疗过程习惯用语差异较大,难以满足诊疗过程中的智能诊断推荐、用药推荐等场景的使用需要。2)为确保术语和正则表达式取数的正确性,需要结合大量医疗数据进行标注、质控和调优,此过程目前耗费人力,实施成本高昂。3)知识库在多个项目和产品使用,需要基于项目和产品需求对术语和正则表达式做定制化更新,需要对多个内容版本做兼容和管理,现存方法难以确保多个内容版本的概念一致性,容易造成新旧版本间的冗余和混淆。[0043] 为解决上述背景技术中的问题,本发明提供一种医学核心词知识库构建方法、装置、介质及终端,通过构建语料库和同义词组聚类的方式构建医学核心词知识库,并通过医学数据进行核心词内容的自动交叉验证,提高了医学变量的生产效率和质量,旨在解决现有技术中从医学数据中生产和提取医学变量效率低、质量难以得到保障、实施成本高、耗费人力、多个版本难以兼容和管理的技术问题。[0044] 与此同时,为了使本发明的目的、技术方案及优点更加清楚明白,通过下述实施例并结合附图,对本发明实施例中的技术方案的进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定发明。[0045] 在对本发明进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释:[0046] <1>医学变量:是指在医疗相关的计算机系统中用于描述、量化或分析患者健康状态、疾病特征、治疗效果等医学现象的参数或观察指标。[0047] <2>医学核心词:是指医学领域中常用的、关键的术语或概念,这些核心词构成了医学知识体系的基础,用于描述疾病、症状、体征、治疗方法、药物、解剖结构等医学相关的内容。[0048] 如图1A所示,展示了本发明实施例中的医学核心词知识库构建方法的流程示意图。本实施例中的医学核心词知识库构建方法主要包括如下各步骤:[0049] S101:对需要纳入核心词的医学特征词进行定义,以获取若干个医学核心词。[0050] 于本实施例中,基于医学领域的专业知识,对需要纳入核心词的医学特征词进行定义,从而选取具有代表性和认可度的医学核心词,以确保所选的医学核心词具有准确性、代表性和适用性。[0051] S102:从预存的医学数据文本中为每个医学核心词筛选对应的一或多个医学数据,每个医学核心词及其所对应的一或多个医学数据形成一条核心词条目,据以构建得到包含有多个核心词条目的语料库。[0052] 于本实施例中,所述预存的医学数据文本包括但不限于:药品字典、检验字典、病历文本、检查报告、手术记录等。对所述预存的医学数据文本进行去重清洗,以确保为每个医学核心词筛选的对应医学数据的准确性。其中,对于结构化的医学数据文本,如药品字典、检验字典等进行去重清洗后,从而为每个医学核心词筛选对应的一或多个医学数据。对于非结构化文本数据如病历文本、检查报告、手术记录等做分句、分词处理后进行去重清洗,并排除停用词后,为每个医学核心词筛选对应的一或多个医学数据。[0053] 于本实施例中,每个医学核心词及其所对应的一或多个医学数据形成一条核心词条目,据以构建得到包含有多个核心词条目的语料库。在所述语料库中每个医学核心词有对应的医学数据,确保了语料库中数据的专业性和准确性。[0054] S103:对所述语料库中的核心词条目进行同义词聚类以得到多个核心词组别;每个核心词组别包含多个词义相同但表述不同的核心词条目。[0055] 于本实施例中,如图1B所示,展示了本发明实施例中的获取核心词组别的流程示意图。其中,对所述语料库中的核心词条目进行同义词聚类以得到多个核心词组别的方式包括:[0056] S1031:计算所述语料库中两两核心词条目之间的相似度。[0057] 于本实施例中,计算所述语料库中两两核心词条目之间的相似度的方式包括:利用字符相似度算法计算得到所述语料库中两两核心词条目之间的相似度;以及/或者,利用语义相似度算法计算得到所述语料库中两两核心词条目之间的相似度。[0058] 于本实施例中,基于字符相似度算法以及/或者语义相似度算法,可以快速计算出所述语料库中两两核心词条目之间的相似度,计算方式相对简单,降低实施成本,提高计算效率。[0059] S1032:根据所述语料库中两两核心词条目之间的相似度,对达到预设相似度阈值的核心词条目进行聚类,以得到多个核心词组别。[0060] 于本实施例中,基于聚类算法对所述语料库中高相似度的核心词条目进行聚类,对达到预设相似度阈值的核心词条目放入同一个核心词组别中,从而得到了多个核心词组别。对各个核心词组别中的核心词条目之间的相似度进行复核修正,剔除低于预设相似度阈值的核心词条目,重复直至所述语料库中没有相似的单独核心词条目。[0061] 值得说明的是,通过聚类算法对所述语料库中的核心词条目按照其相似性和关联性进行分组,从而有效地组织和管理这些核心词条目,使其更易于查询和使用,提高了组织和管理大量医学数据的效率和准确性。另外,医学数据通常具有高维度和复杂性,聚类算法可以有效地处理高维度和复杂性的数据,提取出有用的信息,为医学知识库的建立提供有力支持。[0062] S104:从各个核心词组别中撷取其中一个核心词条目作为该核心词组别的终选核心词条目。[0063] 于本实施例中,从各个核心词组别中撷取其中一个核心词条目作为该核心词组别的终选核心词条目,该核心词组别中的其他核心词条目作为终选核心词条目的同义词条目。[0064] S105:对各个终选核心词条目进行成分配置以得到医学核心词知识库。[0065] 于本实施例中,对各个终选核心词条目进行成分配置以得到医学核心词知识库的方式包括:正则表达式配置、术语编码配置、同义词配置以及黑名单配置中的一种或者多种的组合。[0066] 于本实施例中,对各个终选核心词条目进行成分配置,所述终选核心词条目的组成如表1所示:[0067] 表1[0068]成分 名称 说明group_id 词组id 核心词组的唯一标识码word_id 核心词id 核心词的唯一标识码disease 疾病标签 核心词对应的疾病标签tag_name 核心词标签名 核心词标签名称,标识核心词的标准概念名type 值类型 包含术语编码、正则表达式、ICD等schema 域标签 核心词所属来源的域标签名称standard_ch 术语标准名 术语标准名,值类型为术语时必填value 值 术语id、正则、函数内容version 版本 核心词词条版本号except 黑名单 排除逻辑[0069] 值得说明的是,通过对各个终选核心词条目进行上述成分配置,使得终选核心词条目在应用时能满足医学变量既匹配标准医学用语,又匹配非术语正则或函数表达式的需求,能够满足诊疗过程中的智能诊断推荐、用药推荐等场景的使用需要,丰富了使用场景。[0070] 于本实施例中,所述医学核心词知识库包括中心词库、分支词库、缓冲词库,所述中心词库用于存储通用版本的终选核心词条目及其内容。所述分支词库用于存储各项目和版本分支的终选核心词条目及其内容。所述缓冲词库用于临时存储从分支词库传输汇总的终选核心词条目及其内容,用于进行终选核心词条目的数据清洗、通用化修改和融合等操作。通过构建中心词库、分支词库、缓冲词库,建立了终选核心词条目的生产、管理流程。中心词库作为通用标准核心词库,用分支词库的功能对多个内容版本做管理,通过缓冲词库对分支词库内容做数据清洗和融合,将分支词库的内容最终合并至中心词库,避免冗余。[0071] 于本实施例中,所述方法还用于执行如下步骤:在得到所述医学核心词知识库后,根据正则匹配结果和术语匹配结果的一致性进行数据质控和优化。[0072] 于本实施例中,如图2所示,展示了本发明实施例中的核心词质控和优化的流程示意图。根据正则匹配结果和术语匹配结果的一致性进行数据质控和优化的方式包括:[0073] S201:对所述医学核心词知识库中的每个所述终选核心词条目在预存的已验证的医学数据文本中进行正则匹配,以得到每个所述终选核心词条目的第一匹配结果。[0074] 于本实施例中,根据各个终选核心词条目成分配置的内容,选用对应的正则表达式进行医学数据匹配,匹配时可根据需求增加数据筛选条件,如科室范围、疾病范围、患者范围、时间范围等,以得到每个所述终选核心词条目的第一匹配结果。[0075] S202:对所述医学核心词知识库中的每个所述终选核心词条目在预存的已验证的医学数据文本中进行术语匹配,以得到每个所述终选核心词条目的第二匹配结果。[0076] 于本实施例中,根据各个终选核心词条目成分配置的内容,选用对应的术语编码进行医学数据匹配,匹配时可根据需求增加数据筛选条件,如科室范围、疾病范围、患者范围、时间范围等,以得到每个所述终选核心词条目的第二匹配结果。[0077] S203:计算每个所述终选核心词条目的第一匹配结果和第二匹配结果的一致率。[0078] S204:根据所述一致率,确定每个所述终选核心词条目的匹配准确率。[0079] 于本实施例中,计算每个所述终选核心词条目的第一匹配结果和第二匹配结果的一致率。若所述一致率高于或者等于第一预设阈值,从一致率高于或者等于第一预设阈值所对应的终选核心词条目的第一匹配结果和第二匹配结果中抽样一定数量的数据,进行质控,计算抽样正确率。通过抽样正确率与一致率,计算整体匹配结果的近似准确率,从而确定匹配正确率。若所述一致率低于第一预设阈值,则对该终选核心词条目的正则匹配结果和术语匹配结果的差异进行质控,计算该终选核心词条目的匹配准确率。[0080] S205:根据每个所述终选核心词条目的匹配准确率,对每个所述终选核心词条目进行成分配置优化,以更新所述医学核心词知识库。[0081] 于本实施例中,判断各个所述终选核心词条目的匹配准确率是否达到第二预设阈值,对匹配准确率未达到第二预设阈值的终选核心词条目进行成分配置优化,调优正则表达式和术语编码等,再次检验,重复以上过程直到匹配准确率达到第二预设阈值,完成对终选核心词条目的质控,以更新所述医学核心词知识库。[0082] 于本实施例中,对各个所述终选核心词条目的正则匹配结果和术语匹配结果的准确率进行分类,匹配率高的做抽样质控,匹配率低的做全部质控,降低了质控、标注的工作量,降低了实施成本,同时通过质控提高了终选核心词条目的生产效率和质量。[0083] 值得说明的是,基于正则匹配和术语匹配相结合的方式对终选核心词条目进行成分配置优化,以更新所述医学核心词知识库,保证了医学核心词知识库的一致性和标准性,避免了不同版本之间的冗余和混淆。[0084] 进一步地,本发明提供的医学核心词知识库构建方法,通过构建语料库和核心词组聚类的方式,对终选核心词条目进行成分配置,从而构建医学核心词知识库,使得终选核心词条目在应用时能满足医学变量既匹配标准医学术语,又匹配非术语正则或函数表达式的需求,从而能够满足诊疗过程中的智能诊断推荐、用药推荐等场景的使用需要,丰富了使用场景,并且多个不同的医学变量能复用相同的终选核心词条目,避免了医学变量内涵的重复生产。另外,通过医学数据进行终选核心词条目的自动交叉验证,并根据正则匹配结果和术语匹配结果的一致性进行数据质控和优化,降低了质控、标注的工作量,保证了医学核心词知识库的一致性和标准性,避免了不同版本之间的冗余和混淆,同时通过质控提高了终选核心词条目的生产效率和质量,能够加快数据应用类的医疗信息软件的研发过程和实施过程,降低研发和实施成本。[0085] 如图3所示,展示为本发明实施例中的医学核心词知识库构建装置的结构示意图。所述装置包括:[0086] 获取模块301,用于对需要纳入核心词的医学特征词进行定义,以获取若干个医学核心词。[0087] 语料库构建模块302,用于从预存的医学数据文本中为每个医学核心词筛选对应的一或多个医学数据,每个医学核心词及其所对应的一或多个医学数据形成一条核心词条目,据以构建得到包含有多个核心词条目的语料库。[0088] 聚类模块303,用于对所述语料库中的核心词条目进行同义词聚类以得到多个核心词组别;每个核心词组别包含多个词义相同但表述不同的核心词条目。[0089] 终选模块304,用于从各个核心词组别中撷取其中一个核心词条目作为该核心词组别的终选核心词条目。[0090] 知识库构建模块305,用于对各个终选核心词条目进行成分配置以得到医学核心词知识库。[0091] 于本实施例中,所述聚类模块303对所述语料库中的核心词条目进行同义词聚类以得到多个核心词组别的方式包括:[0092] 计算所述语料库中两两核心词条目之间的相似度;[0093] 根据所述语料库中两两核心词条目之间的相似度,对达到预设相似度阈值的每个所述核心词条目进行聚类,以得到多个核心词组别。[0094] 于本实施例中,计算所述语料库中两两核心词条目之间的相似度的方式包括:利用字符相似度算法计算得到所述语料库中两两核心词条目之间的相似度;以及/或者,利用语义相似度算法计算得到所述语料库中两两核心词条目之间的相似度。[0095] 于本实施例中,所述知识库构建模块305对各个终选核心词条目进行成分配置以得到医学核心词知识库的方式包括:正则表达式配置、术语编码配置、同义词配置以及黑名单配置中的一种或者多种的组合。[0096] 于本实施例中,所述知识库构建模块305还用于执行如下步骤:在得到所述医学核心词知识库后,根据正则匹配结果和术语匹配结果的一致性进行数据质控和优化。其中主要包括如下步骤:[0097] 对所述医学核心词知识库中的每个所述终选核心词条目在预存的已验证的医学数据文本中进行正则匹配,以得到每个所述终选核心词条目的第一匹配结果;[0098] 对所述医学核心词知识库中的每个所述终选核心词条目在预存的已验证的医学数据文本中进行术语匹配,以得到每个所述终选核心词条目的第二匹配结果;[0099] 计算每个所述终选核心词条目的第一匹配结果和第二匹配结果的一致率;[0100] 根据所述一致率,确定每个所述终选核心词条目的匹配准确率;[0101] 根据每个所述终选核心词条目的匹配准确率,对每个所述终选核心词条目进行成分配置优化,以更新所述医学核心词知识库。[0102] 上述装置各模块/单元之间的信息交互、执行过程等内容,由于与本申请所述方法实施例基于同一构思,其带来的技术效果与本申请方法实施例相同,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。[0103] 还需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。[0104] 于本发明的一实施例中,本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的医学核心词知识库构建方法。[0105] 本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。[0106] 于本申请提供的实施例中,所述计算机可读写存储介质可以包括只读存储器、随机存取存储器、EEPROM、CD‑ROM或其它光盘存储装置、磁盘存储装置或其它磁存储设备、闪存、U盘、移动硬盘、或者能够用于存储具有指令或数据结构形式的期望的程序代码并能够由计算机进行存取的任何其它介质。另外,任何连接都可以适当地称为计算机可读介质。例如,如果指令是使用同轴电缆、光纤光缆、双绞线、数字订户线(DSL)或者诸如红外线、无线电和微波之类的无线技术,从网站、服务器或其它远程源发送的,则所述同轴电缆、光纤光缆、双绞线、DSL或者诸如红外线、无线电和微波之类的无线技术包括在所述介质的定义中。然而,应当理解的是,计算机可读写存储介质和数据存储介质不包括连接、载波、信号或者其它暂时性介质,而是旨在针对于非暂时性、有形的存储介质。如申请中所使用的磁盘和光盘包括压缩光盘(CD)、激光光盘、光盘、数字多功能光盘(DVD)、软盘和蓝光光盘,其中,磁盘通常磁性地复制数据,而光盘则用激光来光学地复制数据。[0107] 如图4所示,展示了本发明实施例中的电子终端的结构示意图,本实例提供的电子终端400,包括:处理器401和存储器402;存储器402通过系统总线与处理器401连接并完成相互间的通信,存储器402用于存储计算机程序,处理器401用于运行存储器402存储的计算机程序,使电子终端400执行如上所述的医学核心词知识库构建方法。[0108] 本发明实施例提供的医学核心词知识库构建方法可以采用终端侧或服务器侧实施,就电子终端的硬件结构而言,请参阅图4,为本发明实施例提供的电子终端400的一个可选的硬件结构示意图,该终端400可以是移动电话、计算机设备、平板设备、个人数字处理设备、工厂后台处理设备等。电子终端400包括:至少一个处理器401、存储器402、至少一个网络接口404和用户接口406。装置中的各个组件通过总线系统405耦合在一起。可以理解的是,总线系统405用于实现这些组件之间的连接通信。总线系统405除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图3中将各种总线都标为总线系统。[0109] 其中,用户接口406可以包括显示器、键盘、鼠标、轨迹球、点击枪、按键、按钮、触感板或者触摸屏等。[0110] 可以理解,存储器402可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,ReadOnlyMemory)、可编程只读存储器(PROM,ProgrammableRead‑OnlyMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,StaticRandomAccessMemory)、同步静态随机存取存储器(SSRAM,SynchronousStaticRandomAccessMemory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类别的存储器。[0111] 本发明实施例中的存储器402用于存储各种类别的数据以支持电子终端400的操作。这些数据的示例包括:用于在电子终端400上操作的任何可执行程序,如操作系统4021和应用程序4022;操作系统4021包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序4022可以包含各种应用程序,例如媒体播放器(MediaPlayer)、浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例提供的医学核心词知识库构建方法可以包含在应用程序4022中。[0112] 上述本发明实施例揭示的方法可以应用于处理器401中,或者由处理器401实现。处理器401可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器401可以是通用处理器、数字信号处理器(DSP,DigitalSignalProcessor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器401可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器401可以是微处理器或者任何常规的处理器等。结合本发明实施例所提供的配件优化方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成前述方法的步骤。[0113] 在示例性实施例中,电子终端400可以被一个或多个应用专用集成电路(ASIC,ApplicationSpecificIntegratedCircuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogicDevice)、复杂可编程逻辑器件(CPLD,ComplexProgrammableLogicDevice),用于执行前述方法。[0114] 综上所述,本申请提供的医学核心词知识库构建方法、装置、介质及终端,通过构建语料库和核心词组聚类的方式,对终选核心词条目进行成分配置,从而构建医学核心词知识库,使得终选核心词条目在应用时能满足医学变量既匹配标准医学术语,又匹配非术语正则或函数表达式的需求,从而能够满足诊疗过程中的智能诊断推荐、用药推荐等场景的使用需要,丰富了使用场景,并且多个不同的医学变量能复用相同的终选核心词条目,避免了医学变量内涵的重复生产。另外,通过医学数据进行终选核心词条目的自动交叉验证,并根据正则匹配结果和术语匹配结果的一致性进行数据质控和优化,降低了质控、标注的工作量,保证了医学核心词知识库的一致性和标准性,避免了不同版本之间的冗余和混淆,同时通过质控提高了终选核心词条目的生产效率和质量,能够加快数据应用类的医疗信息软件的研发过程和实施过程,降低研发和实施成本。所以,本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。[0115] 上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。
专利地区:上海
专利申请日期:2024-04-15
专利公开日期:2024-09-03
专利公告号:CN118035504B