专利分析基本方法的介绍与应用

发布时间:2016-04-06 编辑:IPCOO创新咨询管理平台 点击:39

专利分析方法是进行专利信息分析的基础,是实现信息分析工作的目标和手段。当前,数学方法的引入为各种分析方法的完善提供了有力的理论基础,同时也为实现各种方法的综合应用铺平了道路。
 
专利定量分析的基本方法
 
定量分析作为信息分析的重要手段,已经被越来越多地应用在实际分析中。主要围绕“定量”这一重要概念,对在专利信息分析中较常用到的时间序列法、回归法和聚类法,进行简单的阐述。
 
1. 时间序列分析
 
所谓时间序列分析(time - series analysis),实际上就是通过对历史数据变化的分析,尽可能准确找出事物发展的轨迹,然后利用数学模型来描述这一事物发展的规律,以期达到对事物现状进行评价和对未来发展进行预测的目的。它主要用来对技术发展的全过程进行描述,另外还可以对各种繁杂数据进行整理和修匀,以便为后续工作提供可靠的数据基础。
 
1)移动平均法。
移动平均(moving averages)法主要是用来处理一组在一定范围内无规则的波动的数据。
 
2)指数平滑法。
指数平滑(exponential smooth)法是对移动平均法的一种改进,最早是由美国经济学家罗伯特·G.布朗于20世纪50年代末首先提出的一种重要方法。该方法修正了移动平均法在数据权重方面的缺陷,对不同时刻的数据给予了不同的权重。
 
3)生长曲线模型。
生长模型是基于对事物发展过程的认识而发展起来的一类曲线模型,它通过一条近似形如" S ”的曲线,可以很好地拟合事物的发生、发展和成熟的全过程。
 
2.回归分析
 
回归(regression)分析是研究对象间相关关系的一种数学方法,以期找到一种科学的数学模型来描述这种关系,从而为后续的工作提供科学的理论依据。与时间序列法相比,回归分析主要着眼于自变量与因变量间的相关性。
 
1)一元线性回归分析
2)多元线性回归分析
3)可线性化的非线性回归模型。
 
3.聚类分析

聚类分析(cluster analysis),又称数值分类学分析。它是以对象的测量或计量数据为基础,通过各种数学运算把相近或相似的信息进行聚类,从而达到清晰简化分析对象的目的。

1)基本概念。

(1)样本与指标。
所谓样本,就是需要进行聚类分析的对象。当某个(类)的样本用若干特征项来表述时,称这些特征项为样本的指标。
(2)权重。
目前,样本主要采用多个指标的向量空间模型(VSM)来表示。

(3)相似性的度量和判别。
①相似性度量。在聚类分析中,用来描述各指标间的相似程度的量,称为“相似系数”。
②距离度量。距离的概念也可以用来描述相似性。
③贝叶斯概率判别。用来计算样本属于某类别的概率的方法叫贝叶斯概率判别法。

除了上面介绍的几种度量和判别方法外,还有夹角余弦法、欧氏距离法、费歇判别法等,具体内容可参考相关资料。

2)聚类算法——系统聚类法。
 
聚类算法主要分为谱系聚类与非谱系聚类两大类。本文只简单介绍谱系聚类中的系统聚类法。
    聚类算法步骤如下。
    第1步,各样本单独自成一类。
    第2 步,量化样本,一个样本可以由多个指标的特征值来表示。
    第3 步,利用上节所介绍的方法进行相似性的度量和判别计算。
    第4 步,合并类,原则是距离值最小或相似值、概率值最大。
以上4 步形成一个循环,经过n-1个循环直到全部样本最终归类完成。

3)总结与应用。

(1)样本的选择。
无论选取什么样的样本,样本本身必须可以量化,即样本可以以若干指标的量化值来表示其特征,这是对样本的一个基本的要求。

(2)指标的选择。
指标的选择应具有代表性,如果不包括重要指标,则可能导致片面的乃至错误的结论。指标的选择决定了哪些特征可以用来识别类群,所以选择对应慎重,尽量避免定性化的指标。

(3)数据的预处理。
①标准化数据。为使具有不同量纲的指标正常地进行聚类,必须对原始数据进行标准化(归一化)处理
②指标的加权处理。当样本(类)用若干指标的特征量进行表示时,每个指标都会具有相应的权重。也就是说,每个指标对样本(类)的贡献程度是不同的。越重要的指标,其权重越高,反之亦然。
(4)聚类算法比较。
一般认为,对于大型数据集(样本个数n>100),常采用非谱系聚类,从一个指定的类数K开始,直到产生最后两个类为止。对于小型数据集(样本个数n< 40),往往采用谱系聚类。

专利定性分析的基本方法

在客观条件下,由于事物的不断发展,过分强调定量化的分析显然存在一定的局限性。定性分析通过人们的思维活动间接、概括地解释和理解事物,恰好可以弥补定量分析中的一些缺陷与不足。因此,如何充分发挥人们的聪明才智也就成为信息分析的关键问题。主要阐述了德尔菲调查法、分类比较法和归纳推理法这三种定性分析方法的基本原理和实际应用。

1. 德尔菲调查法

德尔菲( Delphi)法又称专家调查法,是由美国的兰德(Rand)公司在20世纪50手代末创立的一种在规定程序下进行专家调查的方法。它是以专家的知识与经验为基础,对分析对象进行多次的调查与反馈,以使专家思想达到统一为最终目标。该方法可以很好地解决数据缺失、知识匮乏、经验不足等方面的问题,是目前应用非常广泛的一种定性分析方法。

1)德尔菲法的特点。

(1)匿名性。德尔菲法采取匿名的形式对专家征求意见,它克服了专家会议调查法中专家易受心理因素影响的缺陷。
(2)反馈性。德尔菲法的核心是“反馈性”。为了能够得到满意的结果,方法需要对专家进行多轮次的咨询调查。
(3)收敛性。由于采用了信息反馈的方法,每轮调查结束以后,专家们原本相对分散的意见就会得到一定的收敛。
(4)统计性。德尔菲法要求对每轮的专家意见进行定量的统计与评定,其结果往往以数值的形式表现。
 
2)德尔菲法的实施。

(1)专家的选择。在专家选择时应遵循以下几个原则:专家要有广泛的代表性;专家的权威度要高;专家要有充足的时间与耐心:专家的选择范围应有所限制。
(2)调查表的设计。调查表的设计是德尔菲法实施成败的关键要素。以下列出几种常用的调查表:
①时间进程调查表。
②目标与手段调查表。
③评价调查表。
④专家问答调查表。

3)调查实施流程。

(1)经典德尔菲法。经典德尔菲法一般要经过4 轮调查,并且每轮之间都会存在着信息的反馈。
(2)派生德尔菲法。派生德尔菲法与经典方法相比,最大区别在于最初的事件调查表是由组织者设计完成的。

4)调查结果的处理方法。

(1)专家权重的测评。在对结果进行处理时,专家所做评价的可靠程度是不容忽视的问题。由于不同专家的评价水平受其知识、智慧、经验和偏好等因素的影响,因此,在结论中都需要考虑到这些因素。

(2)评语集的计算。所谓评语集,就是专家们对某一事件的回答的总体集合。例如:{优,良,中,差,特差}、{好,一般,差}等。对评语集进行计算的目的是把评价定量化,以方便后期的统计处理。

传统上,评语集的量化是根据“简单平均分配原则”或“经验值的赋值”等进行转化的,例如:{优,良,中,差,特差}={1,0.75,0.5,0.25,0}。
在实际分析中,由于定性化的评语等级不一定是按等差数列规律排列的,各等级之间会存在相互的渗透与影响,而且为了避免 0与1的出现,因此在对评语集进行简单的量化以后,还可采用“模糊集合”对数值进行适当的修正。

(3)专家意见的一致性检验。也称意见的协调程度,它反映了专家意见的收敛情况。
①专家评价的标准差。
②协调系数。
③变异系数
 
(4)专家意见的集中度检验。专家意见的集中度可以反映出获得较高评价的事件。
①专家意见的平均值。
②满分频率。
③专家评价等级和。
④专家的积极性系数。
 
(5)时间结果的处理。在处理以时间为结果的数据时,一般采用中位数与四分点来进行表示。中位数代表专家意见的协调程度,上下四分点则代表专家意见的集中程度。
5)总结与应用。
(1)提高调查效率。

①在保持经典的德尔菲法的基本特点的基础上,尽量采用派生的德尔菲法。
②将德尔菲法与其他的定量预测方法相结合使用,或者采取多种方法并用。
③对每轮应答时间做出限定,尽量压缩反馈时间。
④ 根据情况,可适当取消部分匿名。

(2)由于德尔菲法是强定性分析方法,所以在实际应用时需要注意以下几点。

①统计检验是关键步骤,必不可少。
②要重点分析持异端或不同意见的专家的情况。
③对科学技术进行分析时,要注意政治与经济因素的影响。
④在调查初期,要给专家提供充分的相关资料。
⑤在统计分析时,不要丢弃任何结果,用概率或相关形式反馈给每位专家。
 
2. 分类比较

分类比较法是基本的定性分析方法,功能上类似于聚类分析法,但主要是采用定性理论进行分析,是进行各种定性分析的基础。信息分析的开始阶段,分类比较往往是认识、区分事物的基本方法。在进行分类比较时,应注意以下几点。

1)可比性。
所谓可比性,是指进行比较的各个对象必须具有共性。
(1)时间可比性。如果对象具有很强的时间性,在进行比较时,需要注意时间的一致。

(2)空间可比性。所谓空间可比性,是指在进行分类比较时,侧重对象所属的国家、地区等区域性的特点。
(3)范畴可比性。所谓范畴可比性,是指在同类或相似状况下对象之间的比较。
2)确立比较标准。
比较必须要有一个客观可行的标准,标准的确立可以使结果更加具体、更加可靠。在实际分析中需要特别注意这一点。
3)选择比较方式。
不同的比较方式会产生不同的结果,并可用于不同的目的。

4)选择内容深度。
在进行分类比较时,随着比较内容的深入,其结论也会随之更全面、更准确、更有价值。
3.归纳推理

归纳推理是从个别事物中发现一般或新事物的思维方法与推理形式。重点在于推理,是进行各种定性分析的基础。在实际应用当中,较常用到的有以下几种归纳推理。
1)简单的枚举推理。
2)因果关系的归纳推理。又称科学归纳,是根据部分对象与某属性之间的必然联系,而做出关于一般性结论的归纳推理。以下介绍几种符合这一特性的方法。
(1)求同法。
(2)求异法。
(3)共变法。
(4)剩余法。
(5)求同求异并用法。
 
专利拟定量分析的基本方法

拟定量分析是介于定量分析与定性分析之间的一类方法。它既具有定量分析的准确性又具有定性分析的广泛性。可以说,拟定量分析是定量与定性相结合的综合分析方法。主要阐述了关联分析与内容分析这两种拟定量分析方法的基本原理及应用。
 
1.关联分析法
所谓关联( association)分析法,就是用结构化的表现形式对一系列对象、参数、特性之间的相关关系进行分析的方法。运用关联分析,可以达到寻找规律、发现空缺和挖掘知识等目的。

数据挖掘与知识发现成为近年来人们获取信息的一个重要的研究领域,关联分析作为其重要的分支也被越来越多地应用在专利信息分析与研究领域。该方法通过对不同对象或数据间偶然与必然关系的分析来发现其中隐藏的、预先未知的、有趣的信息,其结果往往是极具参考价值的。
 
1)关联因素分析。
 
在实际应用中,对关联因素进行分析,往往会演变为对关联规则的探讨。所谓关联规则,就是对不同因素间的某种关系的描述,它是对关联因素的一种补充与延伸。发现某种规则,实际上就是发现不同因素间存在的某种关联。关联规则可以通过以下三种方法确定。

(1)定性分析。
 
研究人员凭借相关的知识或经验对研究对象进行分析后得出某种认识规则和结论。该方法的优点是节省时间,缺点是对研究人员要求较高,不易发现未知的或隐藏较深的规则,而且对涉及因素众多的复杂规则判断能力较弱。

(2)相关系数。
 
相关系数的优点在于可以量化地表示因素间的相关强度及其规则,缺点是无法对定性的因素进行处理,且无法对未知的或隐藏较深的规则进行挖掘。

(3)关联规则挖掘。
 
关联规则挖掘最早于1993 年由Agrawal 等人在对市场购物篮问题进行分析时首次提出。

关联规则挖掘技术与前两种方法相比,更强调对因素间规则的定量化处理。它的优点在于:可以通过科学的计算方法,对未知的或隐藏较深的规则进行全面的、系统的挖掘,且具有对复杂规则进行判断、识别的能力。它的缺点是易受数据集影响、分析时间较长、随机干扰较多。
 
2)结构化分析。
 
在得到一系列关联因素以后,就可以对这些因素进行整理、汇总,然后通过结构化的表现形式进行具体的分析。
(1)一维结构。一维结构法,也称线性结构法。即根据一系列对象的某一个(类)因素的参数或特性进行排列,使之形成一条直线。
(2)二维结构。二维结构法,也称为矩阵结构法,它是根据多个因素特征或规则排列而形成的一个二维结构的矩阵。
(3)多维结构。多维结构法主要是用来分析三种或三种以上的因素间的相关关系。在实际应用当中,由于结构较复杂,除了三维结构以外,其他多维结构较少被使用。

2.内容分析法

该方法为分析信息所含内容提供了一系列科学的理论依据,并为大规模的信息处理提供了多种有效的定量处理流程。它是进行专利信息分析与研究的重要的基本方法。它的主要目的是分析对象的本质与侧重,且具有量化、统计和挖掘这三个主要特征。

内容分析法的分析对象有很多,例如主题词、指示词、语义集和符号集等,本文主要介绍主题词的词频分析。

主题词(关键词)词频分析。
主题词这个概念最早是被设置用作信息检索途径的词表总称,这些词表提供了规范性的叙词( Descriptor),单独或组合搭配形成某种主题概念。例如:“信号”、“激光”和“通信”等。主题词具有以下几个基本特点:属于规范化词汇、可以反映众多的概念、具有发展性。在实际工作中,通过对主题词的词频与搭配的分析,可以解决以下两方面的问题。

(1)明确对象所涉及的知识或技术领域的结构与分布。例如:在对电动机械领域专利技术的主题词进行统计后,可以总结出所涉及的研究领域有8个方面。它们按主题词出现频度的百分比从高到低分别为发电设备(28%)、电子机械功能(25%)、冷却(15%)、电动机械功能(9%)、材料(8%)、通信/信息(7%)、测量/保健(6%)、高能(2%)。从中可以看出,43%为应用技术,56%为基础技术。技术结构相对广泛,涉及的范围相对集中。

(2)由主流的主题词判断对象的核心知识或技术。每个主题词常常与其他词搭配使用,统计这种搭配的频度即可构成主题关联网络。

IPCOO创新咨询平台

为您一对一解决问题

联系我们

IPCOO创新咨询平台

网站主页
咨询我们