专利语义检索类型:基于本体和语义网的信息检索

发布时间:2016-04-06 编辑:IPCOO创新咨询管理平台 点击:20


专利语义检索类型:基于本体和语义网的信息检索


专利语义检索的目的在于帮助用户发现知识,提高检索的效果,从总体上看,大致可分为基于本体的信息检索和基于语义网的信息检索两种类型。其中基于本体的信息检索主要用于帮助传统信息检索从词型匹配到概念匹配的转变,提高检索的准确性;基于语义网的信息检索的目的则是根据检索帮助用户发现知识,体现知识获取的能力。


1  概念扩展检索


概念扩展主要是利用已经建立好的本体(或知识库)中概念分类关系对用户输入的检索词进行上下级类的概念扩展,同时利用本体中的概念问非分类关系进行相应的非分类扩展。例如用户输入检索词“不锈钢”,经过上下级和同级概念扩展后,可拓展为“铁素体”、“奥氏体”、“双向”等不锈钢子类概念,同时可以根据需要向上级扩展为“钢铁”,从而形成“不锈钢+铁素体+奥氏体+双向+钢铁”的检索词组合,扩大检索结果的查全率。


目前已经有一些专利数据库采用了概念扩展的功能,以帮助用户提高检索准确性。其中以Total Patent专利数据库的概念扩展功能最为强大。该数据库提供了专利的“语义检索”界面,对用户输入的检索词进行概念扩展,以云图方式显示扩展结果,同时允许用户进行相关概念的增删和权重的调整,并提供了扩展检索后的结果预览功能。

另外,Orbit专利数据库也同样具备概念扩展功能,但在可操作性上稍弱于TotalPatent。用户在进行关键词检索时,数据库会提供“关键词检索助手”选项,在“检索助手”内,系统会根据用户输入的检索词进行扩展,扩展结果分为2 层,第一层为与检索词相似的相关概念,第二层为该概念下级的各类术语,用户可以根据需要从中挑选扩充与检索词相关的术语进行检索。


除利用本体之外,有些系统还可以利用数据库的检索历史来进行概念扩展。通过分析数据库用户的检索历史和检索用词的词频,把与目标检索词相关的高频词组合归并为一个类,在用户检索时通过对此类进行扩展,从而提高检索性能。目前国内某大型企业的数字图书馆检索系统已初步实现该功能,该系统从用户的检索历史中提取高频词,由人工确定高频词集合的分类名称,并提供给用户使用。


此外,概念扩展还包括非分类关系的扩展,利用“……的材料”、“……作用”、“……的性能”等已经存在于本体中的关系和属性对检索词进行扩展和推理,并在检索结果中对扩展结果进行标识。例如用户输入检索词“不锈钢”,根据本体中相应的属性和非分类关系,可以扩展为“制作不锈钢的原料”,“不锈钢的用途”,“不锈钢在列车车厢上的应用”等关系。上述关系经语义推理后,得到相关概念并参与检索,从而提高计算机对用户检索意图的理解程度。


2  自然语言检索


在检索过程中,用户不需要构建复杂完整的检索策略,而是把一个句子(或者一段文字)提交给计算机,计算机在得到这种句群后,通常经过如下处理步骤:

①通过分句、分词、去除停用词等处理,形成检索词集合;

② 根据句式进行分析。得出句子中的主语、谓语和宾语;

③ 根据检索词所在位置为集合中的检索词设定不同的权重,交由后台进行检索。


Total Patent的语义检索具备自然语言检索的功能,用户可在检索框中输入一段文字,系统会对文字中的术语进行提取和扩展,并反馈给用户,用户也可对识别出的概念进行调整,以提高检索准确性。


具备自然语言检索功能的专利检索系统还包括由德国INFOAPPS 公司开发的Sem-IP系统。该系统支持对用户输入的句子进行理解,用户无需关心同义词、近义词和语种等问题,系统会自动对概念进行抽取和扩展,确定每个概念的权重并按照权重进行匹配,最终按相关度的高低展示检索结果。


另外,美国Pantros IP 公司开发的ProSEARCH专利检索系统同样拥有自然语言检索的功能。该系统对全球包括美国、日本、欧洲、德国、法国、WlPO 等近20个国家和组织的官方专利数据进行了语义标注,提供语义检索功能,允许用户在系统中输入一段文字进行检索。系统按照句法对用户输入的文字进行概念抽取,并按照概念之间的位置关系确定每个概念的权重后进行后台检索,最后按相关度从大到小的顺序向用户展示检索结果。


自然语言检索的优势在于用户不需要具备很强的检索能力,录入一个句子或一段文字即可进行检索。但是其缺点也很突出,现有的信息技术很难让计算机去真正理解用户的检索意图,使得检索结果的规模过于庞大,从而导致检索失败。因此,一般在进行自然语言检索的同时,通常会将处理后的检索词和句式与本体进行匹配,从而发现检索的重点,以提高检索结果的准确率。


3  结果语义处理


检索结果的语义处理主要是让计算机按照用户的检索意图是对检索结果进行推理,从而起到帮助用户拓宽或聚焦检索目的。检索结果语义处理的主要方式为检索结果聚类。
对检索结果进行聚类,有利于帮助用户发现核心知识,从而对他们优化检索起到一定的辅助作用,当检索结果规模较大时,聚类的作用尤为明显。目前对检索结果聚类有两种方式,分别为按属性聚类和按概念聚类。


按属性聚类  是将检索结果按照申请国、申请年、公开年等属性进行分类汇总,形成诸如国别(“中国”、“日本”、“美国”),时间(“2013 年”、“2012 年”)等统计结果,便于用户从中进行筛选。


按概念聚类  是对检索结果中的专利名称、摘要、权利要求等自然语言文本进行处理,通过分词、去除停用词、同义词近义词合并等处理之后形成向量矩阵,再利用层次聚类或K 均值聚类等方法进行聚类的过程,其中每一层的聚类标签通过综合相似度计算或词频计算得到。聚类的结果成树状结构,便于用户发现核心概念和知识。


在常用的专利数据库中,Thomson Innovation专利数据库提供了检索结果的聚类。相对于其他专利数据库,该系统提供的聚类功能交互性较强,用户可以自由选择参与聚类的字段。聚类结果以树状结构展示,类标签由一个或多个词组成,每个大的类簇下显示有和文档数量,便于用户筛选浏览。

Orbit也对检索结果提供聚类功能,聚类结果以“云图”的方式显示。其中每个词(词组)均代表一类概念,字体越大表示类簇中文档数量越多,从而能帮助用户快速找到当前检索结果中的核心概念。


ProSEARCH专利检索系统由于其对收录的专利信息都进行了语义标注,因此聚类结果更加准确。该系统提供了聚类引擎,能够帮助用户对当前检索结果按技术领域进行快速聚类。其中聚类标签以一个或多个关键词显示,并给出了类簇的文档数量。除此之外,聚类引擎还对检索结果中的分类号、申请人、申请日、公开日、国家等属性进行了聚类,信息提供更加全面。

IPCOO创新咨询平台

为您一对一解决问题

联系我们

IPCOO创新咨询平台

网站主页
咨询我们