检索排序语义

广东审协中心二次微群培训

我们今天4个群合并，进一步深入介绍一下语义检索。我们先做几个关于patentics语义排序的解答，然后，做一...

我们今天4个群合并，进一步深入介绍一下语义检索。

我们先做几个关于patentics语义排序的解答，然后，做一个审查员都知道的EPO回溯分析。

问题1. 每次输入 r/公开号 and di/公开号输出最相关的400条，是不是漏检？

答：和布尔检索一样，漏检是相对在案子上花费的时间而言。如果时间允许，可以一直看下去，那和所有布尔检索一样，patentics的语义排序是不可能有漏检。因为，你可以通过限定条件，andctop/nnnn来控制你打算浏览最相关的nnnn条。如，

r/CN104254812 and di/CN104254812 and ctop/100000

就是对最相关的100000条排序。

当没有ctop/nnnn定义时，就是俗定的400条。

问题2. patentics语义排序与现有布尔检索有什么区别？

答：我们还是继续拿上面的问题来解释。如果时间允许，根据布尔检索的检索结果（全部数据库中全部文献，NNNN），是必须从头看到尾的，因为结果中的每一篇文献都是一样重要的，任意一篇为X对比文献的可能性是个常数，1/NNNN。

而如果采用语义排序，根据大量的实测统计分析，我们知道第一篇是X对比文献的可能性是8%，前20篇有X对比文献的可能性是27%。

这样，最好的情况，你不用把你的检索结果看完，就能找到对比文件。

如果你打算看20篇，概率是27%。而且，我们的测试假设了除了审查员给定的对比文件，其它都不算。实际是，审查员找出的X文献不是穷尽的，还会有其它的被排序排到前面。

最坏的情况是X对比文件没有被排进前nnnn条。比如，400条。这个时候，我们必须指出，这不是检索的结束！我们给出最相关的400个，也不是表示去全部把它看完。因为有了统计结果，我们可以用来指导我们的浏览策略。

比如说，看20篇是27%的可能，看40篇是33%，加了6%，多看一倍。

所以许多审查员说1/4的运气其实和统计对上。问题是再看20篇值不值？这个就和领域有关了。

一般的方法是，看了20篇，如果没有结果，就考虑加限制。加限制，当然会导致漏检。问题是，布尔系统需要靠加限制来把结果限定到能浏览的范围，而语义检索排序，是靠自动理解文本的意思来进行排序，本身没有靠添加限制来完成操作，不会带来任何漏检！

所以大家一定要清楚，排序是不会导致任何检索结果的减少！

而正因为有了排序，把最相关的排到最前面，我们可以很快的发现X文献

这样我们可以不加任何限制，没有漏检（r/ and di/）就能发现X文献，如果不能在前20-100篇发现，我们可以考虑加一个限制要素，少许漏检可能。

一个限制要素的检索结果集可能是50万，没有关系，通过语义排序也会把最相关的排到前面。所以，使用语义检索，是通过算法帮助大家在没有漏检，或很少漏检的条件下，快速完成任务。

下面我们做个EPO案例回溯分析

这个问题很典型，我们回答一下。

当使用 r/ and di/时，大家可能会感到无法控制检索结果和检索方向。

我们认为，你一定先给计算机一个run，让他帮你先找20-100篇看看。如果你发现不是你要的结果，这个时候，你再来控制检索方向。当然，如果你觉得4-5个检索要素没有问题，你可以用4-5个检索要素。

即使是4-5个检索要素，获取了200篇文献，你也应该加个r/,对这200个结果进行自动排序！通过排序，你的结果一个也不会少，但是你非常有可能是在第一位（8%的可能，而不排序是1/200=0.5%的可能）看到对比文件了。

因为，语义排序是根据你的布尔检索式定义的结果排序的，一个不多，一个不少！

事实上，有了语义排序，大家不用4-5个检索式，漏检的可能就会大大减少！

文献多，靠排序！

案子很复杂，大家耐心等等。

我们今天主要是想找出这个US对比文件，4830974A。

我们假设这里都不是X文献，

patentics有个小功能，很方便，可以帮助大家很快找到检索结果列表中的某一专利。

输入公开号，点击“查找专利”，就可以在检索结果中查找该专利。

弹出对话框表示该专利不在前400个结果的列表中。点“确定”，

深绿表示的4830970，被插进去了，而且计算了与本申请的相关度是92%

好了，看了前20-100篇都不是要的，我们就加检索策略来进行控制检索方向。

必须声明，我不是半导体审查员，我不知道检索策略怎么做，但是我会从这个检索报告中拷贝出来1-2个简单关键词，

我先加了 and b/break*，

大家看，一个关键词限制是383497篇。我们看看结果如何？

结果跑到了240位左右。

我们不甘心，再加一个关键词，slope*

结果是在24位吧

这个案例最后是195篇，找出来的。

最坏的结果，用patentics，一直找到195篇，你加个r/就会省你的好多功夫，不是看195篇，而是第一篇就能看到！

我们几乎把这些EPO的典型案例都做了，有个比较。

@minifish 对，20-100篇，还有，我们下了很大功夫，为了快速浏览，帮助大家飞快获得一个全局的概貌。

刚才有人问1键看图功能。www.patentics.com/scn.htm

下次介绍如何利用聚类来发现检索结果中的文本主题的分布。

还有，大家一定要记住我们的一些基本命令

特别是通配符，我们是*，你们的是+，大家看看就行。

化学元素等词短，包含的语义信息不如描述类的词多。所以，这个时候你可能要在比较早的阶段，加关键词限定了。

还有，建议大家在开始浏览前，先看看本申请的主权的技术特征的分解。

这些分解，往往表示了该申请的语义表示的精准性。像这个申请，4个主题比人（小学5年级的）分得还好，第一主题是计算机有关，第二是机械，第三是光学，第四是大家都知道的。

这样的案子，你就能马上结束战斗，因为我们的算法掌握主题的意思，学得很好。但是也有一些案例，东拉西扯的，人也看不出个名堂来，真的难为我们的计算机，还要啃下去，可能人要多干预了！

问题？

我们下次还准备用patentics分析一下SIPO的国际检索报告漏检，被EPO发现的一些案子！而且我们去找EPO找出的X文献，用的是中国的申请号。就是说，SIPO审查员看到的是中文的中国申请，而不是EPO审查员看的英文文本！

@minifish 同一检索策略单库检索好，还是多库同时检索好？

用单库好，如果你能确定对比文件只会在某库出现，就选该库。这也是对算法的一个帮助。中国库，就不要同时选授权库，因为中国的申请和授权是完全重复的。而美国的是申请和授权不一定重复，所以美国要选2个。最后结果，可以用and o/pat把申请、授权重复去掉。

所以，像刚才的检索式还可优化，r/ and di/ and b/and o/pat

r/EP1041642 and di/ep1041642 and b/(break* and slop*) and o/pat

大家的工作流程，先中国申请，后美国授权，申请，再ep，jp，美国的发明无论是内容，文本形式都是最好的。

这是参考，我不是审查员，不一定正确，仅从我们的软件处理角度考虑。

有意入patentics微信检索、分析技术讨论群者，请加管理员微信，有管理员拉您进群。