可左右滑动选省市

一种基于多句压缩的无监督科技情报摘要自动生成方法

更新时间:2024-07-01
一种基于多句压缩的无监督科技情报摘要自动生成方法 专利申请类型:发明专利;
源自:北京高价值专利检索信息库;

专利名称:一种基于多句压缩的无监督科技情报摘要自动生成方法

专利类型:发明专利

专利申请号:CN202210275509.1

专利申请(专利权)人:北京理工大学
权利人地址:北京市海淀区中关村南大街5号

专利发明(设计)人:张隽驰,张华平,商建云

专利摘要:本发明涉及一种基于多句压缩的无监督科技情报摘要自动生成方法,属于自然语言生成技术领域。针对科技情报领域的多文档文本生成,首先基于LDA主题相似度词库扩展方法的主题爬虫来获取源数据。通过文本信息的权威性、时效性、内容相关性三个指标的文本信息价值评估模型,对所有文本段落进行排序。选取得分较高段落的作为生成最终科技情报的原始文本。最后,采用基于谱聚类和多句压缩的无监督多文档摘要方法,自动生成科技情报摘要。本方法有效解决了在数据筛选过程中,科技情报生成对于数据时效性以及权威性要求较高的问题,以及科技情报领域由于数据集缺乏导致传统基于神经网络多文档生成方法无法应用的问题。

主权利要求:
1.一种基于多句压缩的无监督科技情报摘要自动生成方法,其特征在于,包括以下步骤:步骤1:采用基于LDA主题相似度词库扩展方法的主题爬虫方式,进行文本内容抓取,获取源数据;
步骤2:对爬取的文本,根据其内容与关键词的相关性以及源文本的时效性和权威性,进行评估排序;通过提炼出文本信息的权威性、时效性、内容相关性这三个特征维度,构建文本信息价值评估模型;
包括以下步骤:
步骤2.1:将所有文本按照段落进行分割;在后续计算中,以段落为单位进行;
其中,对论文、专利、期刊类的价值评估的方法如下:
针对论文、专利、期刊类文本,将影响因子、第一作者总发文量和总下载量、该文本下载量、引用量作为权威性评判指标,将发布时间作为时效性指标,将摘要与主题词库的相似性作为内容相关性指标,并为每个指标设定相应参数,构建文本信息价值评估模型,综合计算文本的价值评分;
针对论文、专利、期刊类文本的价值评分计算方法,包括以下步骤:第一步:计算权威性x1;
对于权威性x1,与权威性相关的因素包括文本的发表期刊权威性、作者在本领域中的权威性,以本领域其他研究者对该文本的评价;
其中,期刊类的权威性x11,采用该期刊影响因子与所有文献影响因子的最大值的比值表示,如下式所示: 论文、专利类的权威性,由作者作为第一作者在该领域发表文章数量以及该作者作为第一作者发表的文章被下载的总量决定,如下式所示:论文本身的价值,由该论文的下载量和引用量来决定,如下式所示:第二步:计算时效性x2;
设文本信息价值随时间的衰减系数为μ,信息获取时刻与信息发布时刻的时间间隔为‑μΔtΔt,则信息价值随时间变化的计算为:x2=e ,其中,e为自然常数;
第三步:计算内容相关性x3;
将主题爬虫获取到的主题词库中的每个词看为qi;对于该文本的摘要a,计算每个词qi与a的相关度得分,将qi与a的相关性得分进行加权求和,得到当前文本与主题词库的相关性得分Score(Q,a), 其中,Wi表示第i个词qi的权重,使用TF‑IDF算法计算;n表示词库中单词总数;R(qi,a)表示单词qi与a的相关性,通过下式计算: 其中,tfta是单词t在a中的词频;La是a的长度,Lave是所有文本的平均长度,变量k是一个正的参数,用来标准化文章词频的范围;b是一个可调的参数,0
针对智库文章类文本的价值评分计算方法,包括以下步骤:
第一步:计算权威性x1;
对于智库文章,以该文章作者的粉丝数以及发文数量作为其权威性的衡量指标,采用下式计算:第二步:计算时效性x2;
计算方法与论文、专利、期刊类文本的价值评分计算方法第二步相同;
第三步:计算内容相关性x3;
计算方法与论文、专利、期刊类文本的价值评分计算方法第三步相同;
步骤2.3:对智库文章的价值进行评估;针对智库文章类文本,将文章作者的粉丝数、发文数量作为权威性指标,将发布时间作为时效性指标,将文章摘要与主题词库的相似性作为内容相关性指标,并为每个指标设定相应的参数,构建智库文章文本信息价值评估模型;
步骤2.4:计算文本的信息价值;
将文本信息价值定义为新的权威性特征、时效性特征和内容相关性特征的线性组合;
同时,考虑到时效性的乘数效应,得到测算信息价值为:X=[δ1(α1x11+α2x12+α3x13)+δ2(βx3)]x2,其中,X表示此段文本信息的价值,α1、α2、α3、δ1、δ2表示不同特征对文本价值的影响因子,其值根据实际需要进行选择;
步骤2.5:将每个段落按照其文本信息价值评分进行排序,选择排序结果的之多前40条段落,作为后续进行多文档摘要的文本数据;
步骤3:以步骤2中得到的结果文本作为模型的输入,采用基于谱聚类和多句压缩的无监督多文档摘要模型,得到摘要结果;
首先,将原始文档转换为句子图,同时考虑语言和深度表示,然后应用谱聚类得到多个句子簇,最后对每个簇进行压缩生成最终摘要;
步骤3.1:处理文本数据;
对于步骤2最终得到的与一个主题相关的段落集合P={p1,p2,…pn},最终目标是生成一个囊括原始文档中重要信息并且无冗余信息的摘要S;以句子作为文本的最小处理单位,并考虑到最后一步需要进行句子压缩,保留所有停用词;具体方法为:生成一个句子列表,并将其作为后续构建的句子图的输入;
步骤3.2:建立结构化的句子图,其中的节点与步骤3.1生成的句子对应,并根据句子之间的词汇关系和深层语义关系绘制边,从而识别能够表示段落集合P话语结构的成对句子连接,采用基于近似话语图并结合深度embedding技术来构建句子图;
构建一个图G=(V,E),图的节点vi∈V表示一条句子,V表示节点的集合,ei,j∈E表示节点vi和节点vj之间的边,E表示边的集合;对于任意两个不相同的节点vi和节点vj,如果它们所代表的句子存在以下关系,则它们相互连接,且之间存在一条值为1的边,即ei,j=1;
图G构建规则包括:
去动词化的名词关联:根据英文语法,当在一个动词短语中提到某个事件或实体时,通常在接下来的句子中该事件或实体会被表示为改动词的从属名词或名词短语;通过WordNet寻找这个动词短语的名词形式;若在某句子后的句子中出现了该句中动词短语的名词形式,则这两个句子表示的节点相互连接;
实体延续:此项考虑了词语上的关联性;如果句子vi和句子vj和包含相同的实体类别,则这两个节点相互连接;
话语标记语:如果相邻句子间存在语义上的关系,则这两个句子表示的节点相互连接;
句子相似度:通过平均一个句子的所有单词向量作为句子表示,并用两个句子向量的余弦相似度计算句子的相似性得分;如果相似性得分达到设定阈值,则判定这两个节点相互连接;
步骤3.3:应用图聚类,得到图内分区,具体如下:
第一步:获取构建的句子图的拉普拉斯矩阵;
第二步:计算该矩阵的前m个特征向量,用来定义每个句子的特征向量;
第三步:通过k‑means聚类方式将这些句子划分为m个类别;
由此得到表示不同重点信息的m个句子类别,接下来对m个类别的句子集分别进行多句压缩操作,得到m条摘要;
步骤3.4:从抽取得到的子图中生成摘要;
生成摘要的方法如下:
第一步:构建单词图;
对于句子集合S={s1,s2,…,sn},首先对于每一个在句子中出现的单词映射为一个节点;由于自然语言中一词多义的情况广泛存在,因此,每个节点使用一个二元组(token,tag)作为其标识,并且每考虑一个重复出现的单词时,按照以下规则对单词图进行调整:对于非停用词、非标点,且没有候选节点的单词,直接建立一个新的节点;
对于非停用词、非标点,且只有一个候选节点的单词,将该单词直接映射到该候选节点上;
对于非停用词、非标点,且有多个候选节点的单词:将该单词映射到与上下文最接近的节点,但要保单词图无环——即同一个句子的两个相同的单词不能映射到一个节点上;如果没有满足条件的节点,则新建一个节点;
对于停用词和标点,如有相同上下文的节点,就映射为该节点,否则新建一个节点;
对于节点之间的边的权重,考虑节点之间的共现概率,两个节点共现概率越大,其边权越小,当两个节点之间存在边时,如果它们存在多跳连接,则增强其边权,并且随着路径长度变长,多跳连接增强作用减弱,具体采用下式表示:其中,w(ei,j)表示节点i与节点j之间边
的权重;freq(i)、freq(j)分别表示映射到节点i、节点j的单词数;diff(s,i,j)指句子s中映射到节点i的单词和映射到节点j的单词的偏移位置之间的距离;
第二步:召回阶段;在上述单词图中找到F条最短路径,每一个路径组成的句子都是一个候选答案;
采用Yen's算法求解问题;算法分为两部分,算出第1条最短路径P(1),然后在此基础上依次算出其他的F‑1条最短路径;在求P(i+1)时,将P(i)上除了终止节点外的所有节点都视为偏离节点,并计算每个偏离节点到终止节点的最短路径,再与之前的P(i)上起始节点到偏离节点的路径拼接,构成候选路径,进而求得最短偏离路径;选择排名前100的路径作为候选句子路径;
第三步:对上述候选答案重新排序,选择排序最靠前的一个候选答案作为最终的答案;
使用TextRank提取关键短语,并设计新的得分进行重排序;首先,每个节点使用下式更新其得分,直至收敛: 其中,S(ni)表示单词图中节点ni的得分;d为阻尼系数,取0.85;adj(ni)表示与节点ni相邻的节点,w(ej,i)表示节点nj与节点ni之间边的权重;
然后,根据关键字组合得到关键短语r,其得分 其中,
TextRank(w)表示经由TextRank算法计算得到的单词节点w的得分;分母为关键短语r的加权长度length(r),对分数进行归一化操作是为了倾向于选择更长的短语;
最后,通过将第二步得到的候选句子中总路径的加权长度乘以其包含的关键短语分数的总和来对路径进行重新排序;根据关键短语得分,计算每个句子的最终得分:其中,length(c)表示句子c的加权长度,path(c)表示句子c的完整路径;
选择该分数最小的作为生成的摘要,最终将m个类别生成的摘要连接,得到最终的完整摘要。
2.如权利要求1所述的一种基于多句压缩的无监督科技情报摘要自动生成方法,其特征在于,步骤1包括以下步骤:步骤1.1:根据给定的初始关键词,爬取相应结果网页,将这些新增的网页提取摘要,作为LDA新的训练语料;
步骤1.2:对训练预料做词嵌入;
步骤1.3:结合原有的语料库,经LDA训练得到新的主题文档,用于覆盖更新原有主题爬虫的主题文档。 说明书 : 一种基于多句压缩的无监督科技情报摘要自动生成方法技术领域[0001] 本发明涉及一无监督科技情报摘要自动生成方法,具体涉及一种基于多句压缩的无监督科技情报摘要自动生成方法,属于自然语言生成技术领域。背景技术[0002] 科技情报工作,对国家庞大科技战略拟定、庞大科技计划部署和经济社会发展都施展了关键功能,为社会、经济与科技的发展做出了贡献,是一个国家科技计划部署和经济社会发展都施展了关键功能中关键的构成部分。[0003] 在科技情报领域中,面对大数据环境下,采用人工收集、整理、筛选有价值的文本数据,并人工撰写情报报告,需要消耗大量的人力和时间成本,因此,当前人们对于情报的需求不再满足于信息资源的整序获取,不再满足于以文献单元为主要特征的加工整理和存取分析,而是对信息分析深度了更高要求,包括数据资源快速评价推荐、知识单元的抽取和分析、多维据融合、细粒度数据分析以及可视化、计算化的数据呈现与分析等,力争将大数据去冗分类、去粗存精、去伪存真,实现基本自动化的情报摘要生成。[0004] 但是,在信息爆炸的时代,由于科技情报信息的来源纷乱复杂,如何从大量的信息中快速准确的找到自己需要的有用信息是一个很大的挑战。要实现基本自动化情报生成,第一步就是要高效收集有效的信息。此外,由于情报的时效性和权威性在情报研究中非常重要,在做文献资料选择时需要着重考虑。并且,由于信息来源不同而导致信息结构不统一,将多个异构文档整合处理并生成最终报告也是一个难点。综上所述,在实现科技情报摘要的自动生成过程中,主要需要解决的问题是:融合时间等因素的异构文本综合评价推荐以及多文档摘要。[0005] 目前,在有效信息收集方面,比较好的方法有主题爬虫。大多数研究者采用基于链接和基于内容的爬取策略结合的方法,均取得了不错的效果。然而,在科技情报领域中,获取资料的途径通常为国内外权威智库,而智库网页中存在链接的情况较少,因此,在情报领域基于内容的爬取方法更为适用。在多文档摘要领域的研究中,最新的成果大都采用首先对多文档进行排序,筛选出最重要的前N个文档,接着采用神经网络或神经网络与图模型结合的方法,有的作者也将预训Bert等预练模型融合进模型中。上述方法在有监督多文档摘要中取得了不错的效果。然而,在科技情报领域,数据集缺乏是一个不可忽视的问题,这使得有监督方法在该领域实际并不可用。发明内容[0006] 本发明的目的是为了解决科技情报领域手动收集筛选以及生成报告困难的技术问题,创造性地提出一种贯穿数据收集、数据筛选到情报生成的自动化科技情报摘要生成方法。本方法有效解决了在数据筛选过程中,科技情报生成对于数据时效性以及权威性要求较高的问题,以及科技情报领域由于数据集缺乏导致传统基于神经网络多文档生成方法无法应用的问题。[0007] 本发明的创新点在于:针对科技情报领域的多文档文本生成,首先基于LDA(LatentDirichletAllocation,一种文档主题生成模型,也称三层贝叶斯概率模型,包含词、主题和文档三层结构)主题相似度词库扩展方法的主题爬虫来获取源数据。通过文本信息的权威性、时效性、内容相关性三个指标的文本信息价值评估模型,对所有文本段落进行排序。选取得分较高段落的作为生成最终科技情报的原始文本。最后,采用基于谱聚类和多句压缩的无监督多文档摘要方法,自动生成科技情报摘要。[0008] 本发明是通过以下技术方案实现的。[0009] 一种基于多句压缩的无监督科技情报摘要自动生成方法,包括以下步骤:[0010] 步骤1:采用基于LDA主题相似度词库扩展方法的主题爬虫方式,进行文本内容抓取,获取源数据。[0011] 通过给定的初始关键词,在主题描述不充分的情况下,通过主题爬虫自身对主题相关资源的收集功能,不断扩充语料,循环训练模型,不断完善、扩展、更新主题描述,从而更加全面、准确地获取想要的内容。[0012] 步骤2:对爬取的文本,根据其内容与关键词的相关性以及该源文本的时效性和权威性,进行评估排序。选取得分排名至少前40的段落的文本,作为生成最终科技情报的原始文本。[0013] 步骤3:以步骤2中得到的结果文本作为模型的输入,采用基于谱聚类和多句压缩的无监督多文档摘要模型,得到摘要结果。[0014] 有益效果[0015] 本发明方法,与现有技术相比,具有以下优点:[0016] 1.本方法,分别提出了一个论文专利文本信息评估模型和一个智库文章文本信息评估模型。模型有很强的通用性,可以适用于所有的论文专利文本和所有的智库文章。[0017] 2.本方法提供了从数据获取到文本生成的自动化科技情报摘要生成方法,利用主题爬虫,提升了数据对于主题关键词的相关性,减少冗余数据,优化了数据获取以及清洗阶段的效率。在文本生成阶段利用谱聚类和多句压缩的组合方法,提升了无监督多文档摘要的效果。附图说明[0018] 图1是本发明方法的整体流程图;[0019] 图2是本发明方法步骤1以及实施例1的主题爬虫模块的架构图;[0020] 图3是本发明方法步骤2以及实施例1的文本信息价值评估过程的流程图;[0021] 图4是本发明方法步骤3以及实施例1的多文档摘要算法的流程图;[0022] 图5是本发明方法步骤3.4以及实施例1的多文档摘要过程中所使用的多句压缩算法的流程图。具体实施方式[0023] 为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图对本发明做进一步详细说明。应当理解,此处所描述的具体实施方式,仅仅用以解释本发明,并不用于限定本发明。[0024] 一种基于多句压缩的无监督科技情报摘要自动生成方法,包括如下步骤:[0025] 步骤1:采用基于LDA主题相似度词库扩展方法的主题爬虫方式,进行文本内容抓取,获取源数据。[0026] 由于仅给定少量关键词,通过爬虫爬取到的内容与实际希望爬取到的内容并不完全相符,因此,采用主题爬虫方式,能够在提升准确度、扩大爬取范围的同时,尽可能提高爬取的效率。[0027] 通过给定的初始关键词,在主题描述不充分的情况下,通过主题爬虫自身对主题相关资源的收集功能,不断扩充语料,循环训练模型,不断完善、扩展、更新主题描述,以求更加全面、准确地获取想要的内容。[0028] 具体地,步骤1包括以下步骤:[0029] 步骤1.1:根据给定的初始关键词,爬取相应结果网页,将这些新增的网页提取摘要,作为LDA新的训练语料。[0030] 步骤1.2:对训练预料做词嵌入(wordembedding)。可以利用word2vec模型实现。[0031] 步骤1.3:结合原有的语料库,经LDA训练得到新的主题文档,用于覆盖更新原有主题爬虫的主题文档。[0032] 步骤2:对爬取的文本,根据其内容与关键词的相关性以及该源文本的时效性和权威性,进行评估并排序。[0033] 对文本信息价值的评估,通常从信息的传播源、传播特征、内容特征等方面展开分析。信息传播源反映了信息发布主体的特征,包括发布渠道、发布者的权威性等。信息的传播特征反映了信息传播过程的形式特征。只有经过广泛、深入和快速传播的信息,其内在价值才能够拥有充分体现的机会,通常包括传播人数、传播速度、传播链深度等等。此外,信息具有明显的时效性特征,过期的信息往往会变得价值全无。[0034] 因此,通过提炼出文本信息的权威性、时效性、内容相关性这三个特征维度,构建文本信息价值评估模型。[0035] 具体地,步骤2包括以下步骤:[0036] 步骤2.1:将所有文本按照段落进行分割。在后续计算中,以段落为单位进行。[0037] 其中,对论文、专利、期刊类的价值评估的方法如下:[0038] 针对论文、专利、期刊类文本,将影响因子、第一作者总发文量和总下载量、该文本下载量、引用量作为权威性评判指标,将发布时间作为时效性指标,将摘要与主题词库的相似性作为内容相关性指标,并为每个指标设定相应参数,构建文本信息价值评估模型,综合计算文本的价值评分。[0039] 进一步地,本发明提出了针对一种针对论文、专利、期刊类文本的价值评分计算方法,包括以下步骤:[0040] 第一步:计算权威性x1。[0041] 对于权威性x1,与权威性相关的因素包括文本的发表期刊权威性、作者在本领域中的权威性,以本领域其他研究者对该文本的评价。[0042] 其中,期刊类的权威性x11,采用该期刊影响因子与所有文献影响因子的最大值的比值表示,如式1所示:[0043][0044] 论文、专利类的权威性,由作者作为第一作者在该领域发表文章数量以及该作者作为第一作者发表的文章被下载的总量决定,如式2所示:[0045][0046] 论文本身的价值,由该论文的下载量和引用量来决定,如式3所示:[0047][0048] 第二步:计算时效性x2。[0049] 设文本信息价值随时间的衰减系数为μ,信息获取时刻与信息发布时刻的时间间隔为Δt,则信息价值随时间变化的计算如式4所示:[0050] x2=e‑μΔt(4)[0051] 其中,e为自然常数。[0052] 第三步:计算内容相关性x3。[0053] 具体地,可以采用BM25算法计算文本内容的相关性。将主题爬虫获取到的主题词库中的每个词看为qi。对于该文本的摘要a,计算每个词qi与a的相关度得分,将qi与a的相关性得分进行加权求和,得到当前文本与主题词库的相关性得分Score(Q,a),如式5所示:[0054][0055] 其中Wi表示第i个词qi的权重,使用TF‑IDF算法计算;n表示词库中单词总数;R(qi,a)表示单词qi与a的相关性,通过式6、式7计算:[0056][0057][0058] 其中,tfta是单词t在a中的词频;La是a的长度,Lave是所有文本的平均长度,变量k是一个正的参数,用来标准化文章词频的范围;b是一个可调的参数,0[0059] 步骤2.3:对智库文章的价值进行评估,方法如下:[0060] 针对智库文章类文本,将文章作者的粉丝数、发文数量作为权威性指标,将发布时间作为时效性指标,将文章摘要与主题词库的相似性作为内容相关性指标,并为每个指标设定相应的参数,构建智库文章文本信息价值评估模型。[0061] 本发明提出了针对一种针对智库文章类文本的价值评分计算方法,包括以下步骤:[0062] 第一步:计算权威性x1。[0063] 对于智库文章,由于其本身不存在下载量、引用量等数据,并且智库的权威性不存在定量的衡量标准,所以以该文章作者的粉丝数以及发文数量作为其权威性的衡量指标。具体采用式8、式9计算:[0064][0065][0066] 第二步:计算时效性x2。[0067] 计算方法同步骤2.2第二步所述方法。[0068] 第三步:计算内容相关性x3。[0069] 计算方法同步骤2.2第三步所述方法。[0070] 步骤2.4:计算文本的信息价值。[0071] 将文本信息价值定义为新的权威性特征、时效性特征和内容相关性特征的线性组合。同时,考虑到时效性的乘数效应,得到测算信息价值为:[0072] X=[δ1(α1x11+α2x12+α3x13)+δ2(βx3)]x2(10)[0073] 其中,X表示此段文本信息的价值,α1、α2、α3、δ1、δ2表示不同特征对文本价值的影响因子,其值根据实际需要进行选择。本发明中,可以取α1=α2=0.3,α3=0.4,δ1=δ2=0.5。[0074] 步骤2.5:将每个段落按照其文本信息价值评分进行排序,选择排序结果的之多前40条段落,作为后续进行多文档摘要的文本数据。[0075] 步骤3:采用基于谱聚类和多句压缩的无监督多文档摘要模型,得到摘要结果。[0076] 由于在多文档摘要领域不存在与论文专利或智库文章文本相似的标注数据集,因此,本发明提出了一种基于谱聚类和多句压缩的无监督机器学习方法进行摘要生成。该方法将原始文档转换为句子图,同时考虑语言和深度表示,然后应用谱聚类得到多个句子簇,最后对每个簇进行压缩生成最终摘要。[0077] 具体地,步骤3包括以下步骤:[0078] 步骤3.1:处理文本数据。[0079] 对于步骤2最终得到的与一个主题相关的段落集合P={p1,p2,…pn},最终目标是生成一个囊括原始文档中重要信息并且无冗余信息的摘要S。[0080] 以句子作为文本的最小处理单位,并考虑到最后一步需要进行句子压缩,因此保留所有停用词。具体方法为:生成一个句子列表(可以通过调用SpaCy的NLP模块生成。SpaCy是NLP任务领域内的一个比较领先的工业级处理库),并将其作为后续构建的句子图的输入。[0081] 步骤3.2:建立结构化的句子图,其中的节点与步骤3.1生成的句子对应,并根据句子之间的词汇关系和深层语义关系绘制边。[0082] 该步骤的目标是:识别能够表示段落集合P话语结构的成对句子连接,采用基于近似话语图(ADG)并结合深度embedding技术来构建句子图。[0083] 具体地,构建一个图G=(V,E),图的节点vi∈V表示一条句子,V表示节点的集合,ei,j∈E表示节点vi和节点vj之间的边,E表示边的集合。对于任意两个不相同的节点vi和节点vj,如果它们所代表的句子存在以下关系,则它们相互连接,且之间存在一条值为1的边,即ei,j=1。[0084] 图G构建规则包括:[0085] 去动词化的名词关联:根据英文语法,当在一个动词短语中提到某个事件或实体时,通常在接下来的句子中该事件或实体会被表示为改动词的从属名词或名词短语。通过WordNet(一种基于认知语言学的英语词典,把单词以字母顺序排列,并且按照单词的意义组成一个“单词的网络”)寻找这个动词短语的名词形式。若在某句子后的句子中出现了该句中动词短语的名词形式,则这两个句子表示的节点相互连接。[0086] 实体延续:此项考虑了词语上的关联性。如果句子vi和句子vj和包含相同的实体类别(例如组织机构,人名,产品等),则这两个节点相互连接。[0087] 话语标记语:如果相邻句子间存在语义上的关系,例如存在连接词however,meanwhile,furthermore等,则这两个句子表示的节点相互连接。[0088] 句子相似度:通过平均一个句子的所有单词向量作为句子表示,并用两个句子向量的余弦相似度计算句子的相似性得分。如果相似性得分达到设定阈值,则判定这两个节点相互连接。[0089] 步骤3.3:应用图聚类,得到图内分区。[0090] 目前,大多数的图聚类方法都是根据连接节点的边来识别图中的节点群。而本发明采用一种谱聚类的方法,具体如下:[0091] 第一步:获取通过上述方式构建的句子图的拉普拉斯矩阵(可以由图的度矩阵减去邻接矩阵得到);[0092] 第二步:计算该矩阵的前m个特征向量,用来定义每个句子的特征向量;[0093] 第三步:通过k‑means聚类方式将这些句子划分为m个类别。[0094] 由此得到了表示不同重点信息的m个句子类别,接下来对m个类别的句子集分别进行多句压缩操作,得到m条摘要,压缩过程见步骤3.4。[0095] 步骤3.4:从抽取得到的子图中生成摘要。[0096] 多句压缩(MSC),是要从每个包含一组语义相关语句的群集中生成一个摘要语句。目前,经典方法是构建一个单词图,并选择一个由最短路径构建的语句作为摘要。[0097] 本发明提出一种新的实现方法,对经典方法进行了拓展,具体如下:[0098] 第一步:构建单词图。[0099] 对于句子集合S={s1,s2,…,sn},首先对于每一个在句子中出现的单词映射为一个节点。由于自然语言中一词多义的情况广泛存在,因此,每个节点使用一个二元组(token,tag)作为其标识,并且每考虑一个重复出现的单词时,按照以下规则对单词图进行调整:[0100] 对于非停用词、非标点,且没有候选节点(当前单词图中没有(token,tag)和该单词对应)的单词,直接建立一个新的节点。[0101] 对于非停用词、非标点,且只有一个候选节点的单词,将该单词直接映射到该候选节点上。[0102] 对于非停用词、非标点,且有多个候选节点的单词:将该单词映射到与上下文最接近的节点,但要保单词图无环——即同一个句子的两个相同的单词不能映射到一个节点上。如果没有满足条件的节点,则新建一个节点。[0103] 对于停用词和标点,如有相同上下文的节点,就映射为该节点,否则新建一个节点。[0104] 对于节点之间的边的权重,考虑节点之间的共现概率,两个节点共现概率越大,其边权越小,当两个节点之间存在边时,如果它们存在多跳连接,则增强其边权,并且随着路径长度变长,多跳连接增强作用减弱,具体采用式11表示:[0105][0106] 其中,w(ei,j)表示节点i与节点j之间边的权重;freq(i)、freq(j)分别表示映射到节点i、节点j的单词数;diff(s,i,j)指句子s中映射到节点i的单词和映射到节点j的单词的偏移位置之间的距离;[0107] 第二步:召回阶段。在上述单词图中找到F条最短路径,每一个路径组成的句子都是一个候选答案。[0108] 该步本质是为了解决有限制的F最短路径问题。本发明中,采用Yen's算法求解该问题。算法分为两部分,算出第1条最短路径P(1),然后在此基础上依次算出其他的F‑1条最短路径。在求P(i+1)时,将P(i)上除了终止节点外的所有节点都视为偏离节点,并计算每个偏离节点到终止节点的最短路径,再与之前的P(i)上起始节点到偏离节点的路径拼接,构成候选路径,进而求得最短偏离路径。选择排名前100的路径作为候选句子路径。[0109] 第三步:对上述候选答案重新排序,选择排序最靠前的一个候选答案作为最终的答案。[0110] 具体地,使用TextRank提取关键短语,并设计新的得分进行重排序。首先,每个节点使用式12更新其得分,直至收敛:[0111][0112] 其中,S(ni)表示单词图中节点ni的得分。阻尼系数d,其值可以取0.85。adj(ni)表示与节点ni相邻的节点,w(ej,i)表示节点nj与节点ni之间边的权重。[0113] 然后,根据关键字组合得到关键短语r,其得分score(r)如下:[0114][0115] 其中,TextRank(w)表示经由TextRank算法计算得到的单词节点w的得分。分母为关键短语r的加权长度length(r),对分数进行归一化操作是为了倾向于选择更长的短语。[0116] 最后,通过将第二步得到的候选句子中总路径的加权长度乘以其包含的关键短语分数的总和来对路径进行重新排序。根据关键短语得分,计算每个句子的最终得分:[0117][0118] 其中,length(c)表示句子c的加权长度,path(c)表示句子c的完整路径。[0119] 选择该分数最小的作为生成的摘要,最终将m个类别生成的摘要连接,得到最终的完整摘要。[0120] 实施例[0121] 本实施例描述了本发明所述方法的一个具体实施例。[0122] 实施示意图如图1整体流程所示。本发明提供科技情报摘要生成过程中,从文本资料获取,到数据处理,再到摘要文本生成的完整过程。本发明具体实施时,首先主题爬虫模块开始工作,根据用户提供的关键词库,获取到分析所需的数据,接着文本信息价值评估模块对获取到的数据进行分析以及排序,最后将排序结果作为摘要生成模块的输入,带入模型得到最终结果。[0123] 首先,根据用户提供的关键词,在谷歌学术、DARPA、IARPA、兰德智库运用主题爬虫模块获取数据。图2是发明一种基于句子图谱聚类的无监督科技情报自动生成方法中获取数据的流程。按照本发明介绍的步骤1,根据给定的初始关键词爬取一定数量的网页,然后将这些新增的网页提取摘要作为LDA新的训练语料,接着利用word2vec对训练预料做wordembedding,最后结合原有的语料库,经LDA训练得到新的主题文档,用于覆盖更新原有主题爬虫的主题文档。[0124] 获取到所需要的文本数据后,根据文本的属性数据对文本价值进行评估,评估方式如图3所示。先将所有文本按照段落进行分割,然后一次根据文本数据的期刊、作者、下载量等数据计算文本数据的权威性、时效性和内容相关性,接着结合权威性、时效性和内容相关性计算得到文本信息的价值。最后,根据文本信息的价值对于文本数据进行排序,选择前40个文本作为后续进行多文档摘要的文本数据。[0125] 最后是文本生成阶段。具体流程如图4所示,首先处理文本数据,将上一步中得到的段落数据切分为句子,然后调用SpaCy库的NLP模块生成句子列表,接着根据步骤3.2中描述的规则构建一个无向句子图,接着根据步骤3.3中所描述的谱聚类方法对句子图进行聚类产生m个类,最后对于m个类采用多句压缩的方式生成摘要。多句压缩的流程如图5所示,首先根据步骤3.4中第一步所描述的规则构建词图,接着用Yen’s算法求得图中的100条最短路径,最后进行重排序。重排序的过程是:先采用TextRank算法提取出关键短语,接着根据关键短语重新计算句子的得分,最后对100条路径的得分进行排序,分数最小的路径中的单词所连结成的句子就是该类的摘要结果。最后将m个类中生成的摘要连接,生成最终摘要。[0126] 以上所述为本发明的较佳实施例而已,本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。

专利地区:北京

专利申请日期:2022-03-21

专利公开日期:2024-06-18

专利公告号:CN114706972B

电话咨询
读内容
搜本页
回顶部