文献排序检索

广东审协中心首次微群培训

根据许多审查员的建议，我们最近开发了一个新的界面，http://www.patentics.com/scn....

根据许多审查员的建议，我们最近开发了一个新的界面，

http://www.patentics.com/scn.htm

除了大家常用的 http://www.patentics.com/searchcn.htm以外。

这个界面的特点是，把显示专利的附图，摘要等都在一个屏幕显示

建议，如果大家觉得同时浏览附图对于加快理解速度的，建议考虑采用scn的页面

而且，老的界面没有办法同时看摘要

对于中国专利系统，都可以。公开号最好，但是中国申请号，也可以用。

常见逻辑符，and, or, andnot。

有2种方法浏览全文

1.是直接点击公开号

我们的图都是超链接的

第二种浏览全文的方法是，点击按钮，按篇浏览全部结果。

下面我们再特别介绍一下与符图浏览有关的3个按钮，

第一个是多图对比按钮。有时浏览文献，发现该图有用，可以点击保存在图片剪贴板，

当看到另一篇有用，同样操作，最后点击Search可以同时浏览、比较这些被选中的专利

这个是多个专利、多个图的比较。

第二个是浏览下一个附图。第3个是对图转动。

我们下面介绍一下一般的工作流程

刚才的多图比较，可以同时浏览摘要、权项等等。

我们介绍一个比较典型的案例。

专利局机械部有个案子，cn200710146226.2，我们在这里还原一下采用patentics的检索步骤。

滚动到第3篇。

非常相关，可惜这篇时间不对。

@城中大亭是的我们有许多案子是一个公开号或申请号就可

我们继续检索，当时检索组就是在中国案子里没有发现合适对比文件

数据库选择，一般对于中国文献，选“中国申请”即可。因为中国授权是与中国申请重复的。

这也是对计算机算法的一个帮助

库越多，文献越多，需要排除的越多。

所以如果大家找中国对比文献，就选“中国申请”。如与台湾有关的案子，可以选“中国台湾申请”。

这个案子去美国库找

选择英文数据库，我们一般选“美国授权”，“美国申请”，因为美国申请、授权不一定重复。如果你认为很可能在欧洲，那选EP，或一起

在这里，我们应该对排序文献的时间进行限定。

r/cn200710146226.2 anddi/cn200710146226.2

这是对所有cn200710146226.2申请日之前公开的美国专利、申请排序, 按本专利的语义（意思）排序。

其实，这篇对比文件已经在里面了，不过不在最前面。

选数据库时，不要同时选英文(us,ep)和中文的cn。

我们有1000万中国申请的英文全文翻译，叫“中国英文”，是中国申请的英文翻译全文。可以与其他英文库同时用。

我们对美国排序结果，加个限制，可以是关键字，IPC、UPC、CPC、申请人等等的检索条件。我们在这里找一个英文的关键词。

我们再回到原来的中国文献的检索，我们希望通过浏览那些与本专利相关的其它中国申请的的英文翻译来找出英文关键词。

回到那个界面，第3篇，点击标题。点击右上角的“复制”按钮，同时按下CTRL键。

这样，我们就可以马上找到这个中国申请的英文翻译。

点击英文翻译的标题，点击“索引”

这是本专利的关键技术要素的英文翻译。我们把这个词加到检索条件，并选美国库。

r/cn200710146226.2 anddi/cn200710146226.2 and b/grille

第2篇就是对比文件。

这个对比文件是2天，5个审查员找出的，最后机械部专门开会交流的。

我们现在再来介绍，最常用的方法，

r/公开号、申请号 and di/时间或公开号、申请号

如果觉得这个案子比较直接，不用去看看案子的整体情况（申请日后的）

r/ and di/ 是一个方法。

现在，我们要回答大家，这样进行检索，找到x文献的比率如何？

我们做了大量测试，包括SIPO的国际检索报告ISR。审查员都会给出X文献的公开号。所以，我们做了一个自动测试方法，一个一个输入所有这些有对比文件的公开号，取排序最相关的前400个。然后，再与检索报告中的X文献比对被命中的位置，最后的统计结果是,

TOP 1: 4184 7.4045

解释一下，

TOP1是第一位，X文献被排在这个位置的是7.4%

就看一篇，只要输入公开、申请号就可；

TOP20是27.2%

所以大家看第一屏，1/4可能就是X对比文件在里面

所以看起来好像看20篇最合适，再看20篇，命中率增加6.7%

所以，我们一般建议大家，不加检索限制条件，只有r/ and di/

看一屏

至于当人的结果和计算的结果不匹配时，我们只能通过计算机分析。有2个可能，1是算法有偏，2.是人有偏。

我们在这里的测试，假设人是正确、唯一的，除了审查员给出的，其它相关的都不算。

我们又用了一个程序来查为什么不匹配。这个程序，计算算法找出的最相关的20篇的技术要素与本专利的匹配数的平均值。

每一篇专利文献，我们都有机器标引的技术要素。如果，本专利是20个要素，我们的20篇平均有16个与本专利的20个相匹配，而对比文件有14个相配，我们就认为是计算机算法比人更准。如果计算机的技术要素平均匹配数不如人的技术要素匹配数，那我们认为人的结果比算法好。

我们做了测试，比如说，那些在第一位被命中的对比文献，与本专利的技术要素的匹配数要比在第2位命中的文献的技术要素匹配数高。

所以我们做出来的试验，对于那些没有命中，最后算法匹配的个数要比人的结果..

4列，4组意思（主题）

计算机自动聚类的

在权力要求项，把mouse停在上面

第一组是计算机联想，不一定有该关键词的

象 r/ and di/是在全部数据库里排序,如选中国申请，就是1000多万数据中排序。所以纠偏的方法就是用大家的检索策略，去初步限定排序范围。

采用语义排序，你的限定范围可以很宽，50万中排序，相对于1000万的排序，已经很好了。加一个词，限制到50万，传统的方法不行，还要限制。但是用语义排序，已经是很好了。许多方法类，特别是电信，很多简化词。

化学符号，我们就当成一个字符串，就像“电动机”一样。没有特殊处理。

关于我们的命中率对IPC部的分布，我们做过实验。最好的是机器、实体类。方法类、制药类要差一些，但是最多好像也就是40个点里的1-2个百分点。

所以，要保证大家的对比文件都能在patentics里快速找到，后面加个限制，如b/ , icl/等。

我们在做一些算法，就是希望帮助大家在检索策略、浏览全文，理解发明上有帮助。

B/(a or b)

最好是这样。排序可以是全文（用公开号）表示，也可以用一段或几段话。

全部字段说明，

http://www.patentics.com/web/product/sc/s2.htm

关于语义排序，大家就就记住 r/ and di/， r/ and da/。

r/ and da/，da/是该时间前申请的文献。

4列主题是根据意思算法自动聚类的。后面的数是该词的出现频率数（文档数）。所有在词后面出现的.n都是词频数。

一般先用 r/ 浏览一下，可以看看整体的排序情况。

经常会有这样的案子，用and di/限定，都不相关，但是在之后的，其实都是很相关。这就告诉你，可能这个案子的对比文件不一定在中国库里了。因为这里的排序是准的。像前面的例子，如果全部都看了，r/ 不太相关，就要加个限制，调整方向。

在这里，之后很相关指的是在该申请日之后的文献。

把主题中的认为相关的词继续检索，对的，就是你通常的检索策略，只是可以考虑的简单。关键点是，任何一次检索，都要进行排序，而且排序是一定不会产生漏检的。

有没有或者说能不能提供一个这样的方法——就是在用公开号排序后，我们人工再补入一个明确、不进行拓展的关键词，对公开号排序的结果进行再次限定。任何你给出的关键词，都是不做任何扩充的。ref/可以的，但必须是个公开号。

r/ and di/ and (通常的检索策略)。我们的检索命令 abst/xy, aclm/xy， ttl/xy，spec/xy，a/xy是摘要、标题、权利要求包含关键词xy的文献。此外，我们还把图例词都解析了，大家可以用 fig/cdma去检索图例中包含关键词 cdma的文献。

欢迎大家在这里随时提出问题，我们都会及时解答