北京中心Patentics系列培训讲座24-程宇龙老师第1讲

 

我是来自审协北京中心的程宇龙,今天的主要内容是在Patentics系统中怎样利用摘要和权利要求来提高对比文件在检索结果中的排名。平时在Patentics检索时最常用的命令应该是“R/公开号”,但可能少有人知道这个R/命令背后的含义。...





大家好,我是来自审协北京中心的程宇龙,今天的主要内容是在Patentics系统中怎样利用摘要和权利要求来提高对比文件在检索结果中的排名。

首先,感谢马志勇老师在我们入职集中培训期在检索方面对于我们的悉心教导,以及对我之前写有关Patentics检索的论文时给予的点拨和指导;

其次,和大家相比我只是初出茅庐的新审,今天跟大家分享的内容若有不对的地方,还望大家批评指正。下面进入正题。

在Patentics检索时最常用的命令应该是“R/公开号”,但可能少有人知道这个R/命令背后的含义。

简单来说,Patentics系统会将其数据库中的每篇专利文献的全文进行关键词提取,提取出32个关键词(对于少数长度过短的文献会不够32个)。这32个关键词即是“索引”,具体查看位置如下图所示

当我们使用“R/公开号”命令进行检索时,系统会将该公开号对应文献的32个关键词拿出来,和数据库中每篇专利文献的32个关键词进行关键词匹配(不过在一次跟裘博士交流的时候他告诉我说,其实不止32个关键词,只不过我们能看到的只有这32个,而且这32个词是权重最大的,我们今天只关注这32个)。

提取和匹配示意图如下
32个关键词的提取是信息压缩,匹配过程则是信息还原,因此,最终检索结果的好坏取决于信息压缩的精度和信息还原的灵敏度。

由于专利文献全文信息量较大,信息分散,无效信息冗余,有时系统自动提取的32个关键词并非最佳,信息压缩的准确度不够,这就是为什么有时直接使用“R/公开号”得到的很多排在前面的结果和本申请的相关度并不高

信息压缩和信息还原的算法我们无法干涉,我们能做的,就是跳过系统自动信息压缩这一步,即跳过系统根据本申请全文信息提取出的32个关键词

既然索引的32个关键词不准确是由于全文信息量大、信息分散导致的,那么我们自然会想到去用高度概括全文信息的摘要和权利要求。怎么在检索前就判断出应该优先使用R/摘要或权利要求呢?又怎样改写摘要或权利要求来进一步提高检索效率呢?下面结合案例进行说明。

本案例发明名称为“机场安全管理系统”,公开号为CN103208047A。该申请公开了一种机场安全管理系统,视频采集人脸数据以及进行身份证信息提取,通过应用服务器与数据库服务器进行实时比对识别,实现动态监控。审查员确定的X文件是CN1428718A

首先看一下使用R/公开号命令以及与其他常用命令的组合时X文件在结果中的排名(通过理解发明,得知本申请比较重要的关键信息有“安检”“身份证”“人脸”)

R/公开号→第18页第14位;

R/公开号 AND DI/公开号→第11页第10位;

R/公开号 AND B/安检→第6页第3位;

R/公开号 AND B/身份证→第29页第9位;

R/公开号 AND B/人脸→第11页第8位;

R/公开号 AND DI/公开号AND B/安检→第3页第10位;

R/公开号 AND B/(安检 AND 身份证 AND 人脸)→第1页第5位

整体来看效果不佳。尽管用B/三个关键词相与得到的结果很好,但实际操作中很容易导致漏检。因为B/命令是全词匹配,必须关键词完全一致,若对比文件中用到的是“身份信息”、“面部”、“人像”这样的词,则会漏检,而使用R/公开号 AND B/关键词时,由于B/命令优先级比R/命令高,所以是先找出所有包含该关键词的文献之后在根据R/公开号命令做相关度排序。若包含该关键词的文献太多太杂,则会导致噪声很大。

例如上述结果中使用“R/公开号AND B/身份证”时,结果甚至不如仅使用R/公开号要好。

为什么整体效果不佳呢?我们来看看本申请的索引
可以看到,32个关键词中缺失了非常重要的信息:身份证、人脸,甚至连近义词都没有,反而一些常用技术手段,如双热机备份、对等网络结构、计算机网络技术等被提取为关键词。如果这些缺失的关键信息是对比文件的索引中的关键词,或者这些冗余的信息不是对比文件的索引中的关键词,都会降低对比文件与本申请的匹配度。

另外,我们注意到,有些词被浅黄色高亮,这些词是在权利要求中出现的词。如果被浅黄色高亮的词太少,则从一定程度上反映出索引与权利要求的相关度不高,说明关键词提取不当。当然,由于此处是全词匹配,可能有些索引中的关键词本身没在权利要求中出现,但是其近义词是在权利要求中出现的,这样也是可以的。这个我们自己可以有一个判断,可以参考,但也不必盲目地看浅黄色高亮词的多少。

我们直观地对比一下本申请和对比文件的32个关键词
其中黄色高亮部分是我手动标出的匹配上的关键词

需要注意的是由于Patentics系统在进行匹配时是语义模糊匹配,因此近义词或在某种程度上相关的词语也能构成匹配(这部分关系到系统后台程序的信息还原灵敏度,我们无从得知,只能大概推测)

在32个关键词中大概只有8个能够匹配。其中对比文件的“面像”“身份证”等重要的词在本申请的索引中没有出现且没有相关的词,自然会导致两篇文献之间的相关度大打折扣。

因此,拿到本申请后的第一步,就是看其索引中的32个关键词,并判断:

①是否关键信息缺失

②是否引入较多非关键信息

③是否与权利要求相关度不高。

若是,则说明系统对全文提取的32个关键词可能不当,建议先不使用R/公开号进行检索。

我们转而使用R/摘要或权利要求。先来看下使用R/摘要R/独立权利要求时的对比文件在结果中的排名

R/摘要→第1页第8位

R/独立权利要求→第1页第13位

配合其他命令:

R/摘要 AND DI/公开号→第1页第5位

R/摘要 AND B/安检→第1页第1位

在使用R/摘要R/独立权利要求时,系统会对R/后的文本进行关键词的提取,由于摘要和权利要求是对申请文件全文高度概括、信息比较集中,因此系统对其进行的关键词提取可能更为准确。

具体来看下索引的匹配情况,其中黄色高亮是我手动标出的匹配上的关键词(由于看不到系统对人工输入文段提取的关键词,此处只能大概推测)

其中R/摘要匹配到了25个关键词,Patentics系统给出的整体相关度93%

R/独权匹配到了20个关键词,Patentics系统给出的整体相关度92%

反映在对比文件的排名中,也是前者排名更靠前,与匹配结果相符

然而并不是对于每篇申请直接使用摘要和权利要求都能得到这么好的结果,有时由于申请人撰写不当,我们需要对摘要和权利要求进行改写

具体怎么改写,也是有套路可依的,这一部分内容我们下次再讲

今天先到这里,谢谢大家!

Mr_RightOver这个是程宇龙老师微信号,想程老师讨论问题,可以加好友,另外程老师在我们patentics*4群里,4群的朋友可以直接在群里提问

分享结束,谢谢大家!



推荐阅读

《北京中心Patentics系列培训讲座23-马志勇老师第17讲》

《北京中心Patentics系列培训讲座22-马志勇老师第16讲》

《北京中心Patentics系列培训讲座21-郭嘉老师第2讲》

《北京中心Patentics系列培训讲座20-马志勇老师第15讲》

《北京中心Patentics系列培训讲座19-马志勇老师第14讲》

《北京中心Patentics系列培训讲座18-马志勇老师第13讲》

《北京中心Patentics系列培训讲座17-谢文静老师第2讲》

《北京中心Patentics系列培训讲座16-谢文静老师第1讲》

《北京中心Patentics系列培训讲座15-马志勇老师第12讲》

《北京中心Patentics系列培训讲座14-马志勇老师第11讲》

《北京中心Patentics系列培训讲座13-马志勇老师第10讲》

《北京中心Patentics系列培训讲座12-郭嘉老师第1讲》

《北京中心Patentics系列培训讲座11-任卫华老师第2讲》

《北京中心Patentics系统培训讲座10-焦永涵老师第1讲》

《北京中心Patentics系统培训讲座9-田松涛老师第2讲》

《北京中心Patentics系列培训讲座8-田松涛老师第1讲》

《北京中心Patentics系列培训讲座7-任卫华老师第1讲》

《北京中心Patentics系列培训讲座6-马志勇老师第9讲》

《北京中心Patentics系列培训讲座5-马志勇老师第8讲》

《北京中心Patentics系列培训讲座4-马志勇老师第7讲》

《北京中心Patentics系列培训讲座3-马志勇老师第6讲》

《北京中心Patentics系列培训讲座2-马志勇老师第5讲》

《北京中心Patentics系列培训讲座1-马志勇老师第4讲》




微群管理员:patentics-concept (←长按复制)

有意入patentics微信检索、分析技术讨论群者,请加管理员微信,拉您进群。


您的关注与转发,是我们最大的动力

Patentics微信订阅号:Patentics_public

Patentics微信服务号:PatenticsSearch

加入我们,分享更多专利检索、分析、运营攻略,快速微信检索




每日一题答案:在Patentics检索字段中全文关键词检索字段是B


    关注 Patentics智能语义


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册