现在市场上有很多提供语义检索服务的专利数据库,检索方法大体相同,其检索的效果主要依赖于后台本体(或知识库)的规模和完整性,检索的功能本身对其影响较小。因此,本节就TotalPatent专利数据库的语义检索方法进行简要介绍。
“TotaIPatent世界专利索引”数据库在2009 年便增加了语义检索功能,旨在通过语义扩展帮助用户提高检索结果的准确性。该系统的语义检索具有三大特点:
所见即所得 用户输入的检索词系统均会把语义扩展的过程和结果充分展示出来,便于用户理解。
交互功能 面对语义扩展的结果,用户可以根据自身需要对扩充后的概念集合进行新增、修改、删除等操作,并可以人工设定每个扩展概念在检索中所占据的权重。
可扩展性 语义检索所依赖的知识库的提取范围包括美国专利商标局的专利数据库和Elsevier期刊数据库,另外还涵盖了其他网页和网络数据库的技术信息,并且该知识库还在不断扩展中。
1 语义检索入口
用户进入TotalPatent 数据库后,可以选择菜单栏上的“Search”菜单,并选择“Semantic Search”选项卡,进入语义检索界面。
用户可以在输入框中输入单词,词组和句子(字符数不超过32 000个),选择检索范围为名称,摘要,权利要求和全文。与普通检索一样,为了得到更加准确的语义扩展结果,可以用引号将检索词包含起来,这样系统将会将引号中的词(词组)作为一个整体进行检索。类似高级检索,语义检索还提供了以下扩展功能:
·可以同时在机器翻译的内容(英文)中进行检索;
·可以对专利家族进行合并;
·可以使用IPC、公开时间、发明人等其他字段进行限定检索;
·可以限定专利国家检索;
·可以限定检索的专利文献类型(申请、授权等);
·可以定义检索结果列表的显示字段。
当输入检索词后,可以点击“Preview Results”按钮进入语义扩展结果界面,也可以点击“Search Now”按钮直接进入检索结果界面。
2 语义扩展结果
在语义扩展结果界面,系统利用“语义引擎”对用户输入的检索词进行语义扩展,用户可以在界面上的检索词集合进行调整,包括新增检索词,修改检索词和删除检索词,同时还可以对每个检索词在本次检索中所占据的权重进行调整,以便得到更为准确的检索结果。
语义扩展结果共有7个区域组成,分别为:用户输入的检索词,系统生成的检索词,语义扩展结果,用户排除的检索词,用户新增的检索词,其他相关技术领域,检索结果预览。
A.用户输入的检索词 该区域显示了用户在检索框输入的检索词,用户可以根据需要调整检索词,并点击“Regenerate Terms”按钮重新进行语义扩展。
B.系统生成的检索词 该区域中的检索词是系统对用户的检索词经处理后生成的核心词汇,是系统检索所必需的,在检索式中的连接符为“AND”,用户也可以根据需要对连接符和词的权重进行重新调整。
C.语义扩展结果 系统根据用户输入的检索词,经语义扩展后,形成一个与用户检索意图相关的检索词集合,检索词集合中分为大、中、小三种字体,大字体的检索词权重最高,中字体其次,小字体权重最小。该区域中出现的词是系统检索时的可选项,在生成的检索式中以“OR”进行连接,用户可根据需要对其进行删除、调整权重、修改连接符等操作。
D.排除的检索词 用户可以将语义扩展结果中的词移动至该区域,从而在检索中予以排除,在检索式中以“NOT”进行连接。
E.用户新增的检索词 用户如果对当前语义扩展结果不满意,可以手动新增与之关联的检索词进入语义扩展结果区域,同时进行调整权重,修改连接符等操作。
F.其他相关技术领域 系统根据本次语义扩展的结果推理出与之相关的其他技术领域的词汇,用户可以根据需要将其他领域的检索词纳入语义扩展结果,进而扩充检索结果的范围。
G.检索结果预览 系统为语义检索的结果提供了预览功能,用户可以在该区域方便地看到检索结果中最相关的前 20篇文档,从而有依据的调整语义扩展的内容,使得检索结果更加准确。
3 获取检索结果
当用户调整好语义扩展结果后,可以点击“Retrieve All Results”按钮,得到本次检索的结果文档。
系统把语义扩展之后的检索词进行了组合,按照语义扩展检索中每个词所在的区域进行拼接,在区域②中的检索词按照“AND”方式拼接,在区域③中的检索词以“OR”方式拼接,在区域④中的检索词按照“NOT”方式拼接,同时,还根据系统或用户设定的检索词权重进行调整。最终得到如下形式的检索式:
(“mechanical heart valve”[H]) AND(valve[H] OR “mechanical heart”[H]OR prosthesis[M] OR bileaflet[M] prosthesis(L])
其中[H]、[M]、[L]分别表示高、中、低三种权重。
拼接好的检索式提交后后台进行检索,在检索结果中,与用户检索词及其语义扩展后的词汇匹配的词均予以高亮显示,以帮助用户识别和筛选。