专利语义检索的问题分析与检索特点说明
专利语义检索解决的问题
传统专利检索依赖于关键词匹配方式,检索结果的好坏完全依赖于检索者个人的知识掌握程度和对问题分析的透彻程度,存在以下三个方面无法回避的问题。
“忠实表达”问题 检索者很难用简单的检索词或者检索词的组合来表达自己所需要检索的真正内容,导致检索困难。现在虽然有很多检索工具提供了“相似检索”的功能(例如SooPAT专利检索),但是这些工具仍然停留在关键词匹配的简单功能上,无法实现对于用户检索词的语义理解。
“表达差异”问题 人类的自然语言中,随着时间、地点和环境的变化,对于同一事物的描述是不一致的。这就导致了专利信息中对于同一技术或者概念的描述会发生一定的变化(例如,对于“钢管”的描述,在专利中会有“焊管”、“无缝钢管”、“油井管”、“OCTG”、“ERW”、“特殊扣”、“UOE”、“套管”等多种表达方式),同时,有些专利为了保护自己的利益,会在专利说明书中尽可能多地使用晦涩难懂的法律术语(例如“梯子”被描述成“攀登的工具”等),在这种情况下,检索者如果利用自己理解的关键词去进行检索,很可能导致遗漏了其他描述形式的内容,导致专利检索失败。
“词汇孤岛”问题 人们在检索时,除了希望获得与自己输入的检索词完全匹配的信息外,还希望能够获得与检索词相关的其他信息。但是传统的专利检索无法满足检索者的这一要求,其特点决定了检索结果一定是包含检索词的文档和信息,而用户的检索词无法得到扩展,造成了“词汇孤岛”现象,从而降低了检全率。
语义检索则运用人工智能(AI)和自然语言处理(NLP)等技术,将领域概盒和推理机制融入检索过程中,让计算机从语义层面理解用户的检索请求,并利用概念间的关系和推理规则进行辅助检索,力图从根本上解决传统检索中遇到的一系列问题。
语义检索技术的实现需要涉及搜索引擎、语义网、人工智能等多个技术领域,主要包括:
①图理论,作为语义网的基础,RDF模型以图的形式构建,其中弧和路径中都包含了各种信息,在语义检索过程中则需要不同形式的图遍历方法,例如查询实例的推理、概念的等级扩展等;②匹配算法,语义检索会频繁使用到检索词与本体中概念或实例的匹配算法,用于快速定位检索词在本体中的位置;
③逻辑推理,OIL、DAML+OIL、OWL 等本体描述语言对语义网中的信息资源进行了有效描述,语义检索则运用分类、属性、关联等关系对与检索词匹配的概念和实例进行逻辑推理,使检索过程更加智能。
专利语义检索的特点
相对于传统检索,语义检索扩大了检索的内容,提高了检索效果。总的来说,具有以下特点。
检索结果更加全面准确 除了能够检索出与用户关键词完全匹配的结果之外,语义检索还能够利用语义网(或本体)对检索词进行扩展推理,从而得到更加理想的检索结果。例如,当用户用“计算机”进行检索时,语义检索引擎不但会使用“计算机”去搜索结果,还会扩展到“显示器”、“鼠标”、“键盘”等术语,使检索结果更加全面准确。
检索过程更加智能 构建语义网的目的是让计算机理解人类的语言,语义检索的过程实际上也是让计算机理解人类检索意图的过程。当用户输入由2~3个词组成的词组时,语义检索引擎会根据词之间的位置去语义网中搜索词与词之间的关系,以推理出用户的检索意图,从而找到更加适合用户需要的结果。例如,用户使用“汽车板轧制”进行检索,其目的是检索“汽车表面用钢板在轧制过程中所使用的工艺”,语义检索引擎根据语义网中“汽车板”和“轧制”之间的关系,则能够顺利检索得出用户所需要的结果,这是传统检索无法实现的。
语义检索较之于传统检索的进步主要在于,能系统表达和处理信息的语义内容,从而实现基于语义的匹配和推理,具有可以实现知识检索的优势。因此,语义检索技术在近几年得到了快速发展,众多专家学者和数据库商纷纷尝试构建语义检索引擎,实现数据库的语义检索。