广东审协中心二次微群培训

 

我们今天4个群合并,进一步深入介绍一下语义检索。我们先做几个关于patentics语义排序的解答,然后,做一...



我们今天4个群合并,进一步深入介绍一下语义检索。

我们先做几个关于patentics语义排序的解答,然后,做一个审查员都知道的EPO回溯分析。

问题1. 每次输入 r/公开号 and di/公开号 输出最相关的400条,是不是漏检?

答:和布尔检索一样,漏检是相对在案子上花费的时间而言。如果时间允许,可以一直看下去,那和所有布尔检索一样,patentics的语义排序是不可能有漏检。因为,你可以通过限定条件,andctop/nnnn来控制你打算浏览最相关的nnnn条。如,

r/CN104254812 and di/CN104254812 and ctop/100000

就是对最相关的100000条排序。

当没有ctop/nnnn定义时,就是俗定的400条。

问题2. patentics语义排序与现有布尔检索有什么区别?

答:我们还是继续拿上面的问题来解释。如果时间允许,根据布尔检索的检索结果(全部数据库中全部文献,NNNN),是必须从头看到尾的,因为结果中的每一篇文献都是一样重要的,任意一篇为X对比文献的可能性是个常数,1/NNNN。

而如果采用语义排序,根据大量的实测统计分析,我们知道第一篇是X对比文献的可能性是8%,前20篇有X对比文献的可能性是27%。

这样,最好的情况,你不用把你的检索结果看完,就能找到对比文件。

如果你打算看20篇,概率是27%。而且,我们的测试假设了除了审查员给定的对比文件,其它都不算。实际是,审查员找出的X文献不是穷尽的,还会有其它的被排序排到前面。

最坏的情况是X对比文件没有被排进前nnnn条。比如,400条。这个时候,我们必须指出,这不是检索的结束!我们给出最相关的400个,也不是表示去全部把它看完。因为有了统计结果,我们可以用来指导我们的浏览策略。

比如说,看20篇是27%的可能,看40篇是33%,加了6%,多看一倍。

所以许多审查员说1/4的运气其实和统计对上。问题是再看20篇值不值?这个就和领域有关了。

一般的方法是,看了20篇,如果没有结果,就考虑加限制。加限制,当然会导致漏检。问题是,布尔系统需要靠加限制来把结果限定到能浏览的范围,而语义检索排序,是靠自动理解文本的意思来进行排序,本身没有靠添加限制来完成操作,不会带来任何漏检!

所以大家一定要清楚,排序是不会导致任何检索结果的减少

而正因为有了排序,把最相关的排到最前面,我们可以很快的发现X文献

这样我们可以不加任何限制,没有漏检(r/ and di/)就能发现X文献,如果不能在前20-100篇发现,我们可以考虑加一个限制要素,少许漏检可能。

一个限制要素的检索结果集可能是50万,没有关系,通过语义排序也会把最相关的排到前面。所以,使用语义检索,是通过算法帮助大家在没有漏检,或很少漏检的条件下,快速完成任务。

下面我们做个EPO案例回溯分析

这个问题很典型,我们回答一下。

当使用 r/ and di/时,大家可能会感到无法控制检索结果和检索方向。

我们认为,你一定先给计算机一个run,让他帮你先找20-100篇看看。如果你发现不是你要的结果,这个时候,你再来控制检索方向。当然,如果你觉得4-5个检索要素没有问题,你可以用4-5个检索要素。

即使是4-5个检索要素,获取了200篇文献,你也应该加个r/,对这200个结果进行自动排序!通过排序,你的结果一个也不会少,但是你非常有可能是在第一位(8%的可能,而不排序是1/200=0.5%的可能)看到对比文件了。

因为,语义排序是根据你的布尔检索式定义的结果排序的,一个不多,一个不少!

事实上,有了语义排序,大家不用4-5个检索式,漏检的可能就会大大减少!

文献多,靠排序!





案子很复杂,大家耐心等等。





我们今天主要是想找出这个US对比文件,4830974A。
我们假设这里都不是X文献,
patentics有个小功能,很方便,可以帮助大家很快找到检索结果列表中的某一专利。

输入公开号,点击“查找专利”,就可以在检索结果中查找该专利。
弹出对话框表示该专利不在前400个结果的列表中。点“确定”,
深绿表示的4830970,被插进去了,而且计算了与本申请的相关度是92%

好了,看了前20-100篇都不是要的,我们就加检索策略来进行控制检索方向。

必须声明,我不是半导体审查员,我不知道检索策略怎么做,但是我会从这个检索报告中拷贝出来1-2个简单关键词,
我先加了 and b/break*,
大家看,一个关键词限制是383497篇。我们看看结果如何?
结果跑到了240位左右。

我们不甘心,再加一个关键词,slope*



结果是在24位吧
这个案例最后是195篇,找出来的。

最坏的结果,用patentics,一直找到195篇,你加个r/就会省你的好多功夫,不是看195篇,而是第一篇就能看到!

我们几乎把这些EPO的典型案例都做了,有个比较。
@minifish 对,20-100篇,还有,我们下了很大功夫,为了快速浏览,帮助大家飞快获得一个全局的概貌。

刚才有人问1键看图功能。www.patentics.com/scn.htm

下次介绍如何利用聚类来发现检索结果中的文本主题的分布。

还有,大家一定要记住我们的一些基本命令
特别是通配符,我们是*,你们的是+,大家看看就行。

化学元素等词短,包含的语义信息不如描述类的词多。所以,这个时候你可能要在比较早的阶段,加关键词限定了。

还有,建议大家在开始浏览前,先看看本申请的主权的技术特征的分解。
这些分解,往往表示了该申请的语义表示的精准性。像这个申请,4个主题比人(小学5年级的)分得还好,第一主题是计算机有关,第二是机械,第三是光学,第四是大家都知道的。

这样的案子,你就能马上结束战斗,因为我们的算法掌握主题的意思,学得很好。但是也有一些案例,东拉西扯的,人也看不出个名堂来,真的难为我们的计算机,还要啃下去,可能人要多干预了!

问题?

我们下次还准备用patentics分析一下SIPO的国际检索报告漏检,被EPO发现的一些案子!而且我们去找EPO找出的X文献,用的是中国的申请号。就是说,SIPO审查员看到的是中文的中国申请,而不是EPO审查员看的英文文本!

@minifish 同一检索策略单库检索好,还是多库同时检索好?

用单库好,如果你能确定对比文件只会在某库出现,就选该库。这也是对算法的一个帮助。中国库,就不要同时选授权库,因为中国的申请和授权是完全重复的。而美国的是申请和授权不一定重复,所以美国要选2个。最后结果,可以用and o/pat把申请、授权重复去掉。

所以,像刚才的检索式还可优化,r/ and di/ and b/and o/pat

r/EP1041642 and di/ep1041642 and b/(break* and slop*) and o/pat

大家的工作流程,先中国申请,后美国授权,申请,再ep,jp,美国的发明无论是内容,文本形式都是最好的。

这是参考,我不是审查员,不一定正确,仅从我们的软件处理角度考虑。

有意入patentics微信检索、分析技术讨论群者,请加管理员微信,有管理员拉您进群。

微信公众号:patentics_public (←长按复制)

www.patentics.com  sales@patentics.com


    关注 Patentics智能语义


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册