[数据处理]用excel进行申请人类型分析
如何利用excel获取申请人类型分析所需数据。...
大家好,之前的[数据处理]教程介绍了:
- 利用if、mid、find函数从“申请日”和“优先权信息”中获取申请年份信息,以及利用数据透视表快速统计各申请年份申请量数据(相关阅读☞[数据处理] 用excel进行申请趋势分析);
- 利用if、len、mid函数从“申请号”、“公开号/公告号”中获取申请类型信息,以及利用数据透视表快速统计不同申请类型各申请年份的申请量数据(相关阅读☞[数据处理]用excel进行申请类型分析);
- 利用分列拆分申请人名称,以及利用数据透视表、自定义筛选,规范和统计各申请人的申请量数据(相关阅读☞[数据处理]用excel进行申请人排名分析)
以下是源xls数据
实际上,在专利请求书上,申请人是需要填写申请人类型信息的,如果数据库提供申请人类型信息,则可直接使用,但并不是所有数据库都提供该信息,如上图所示,获取的xls数据中仅有申请人名称信息,并没有申请人类型信息。
一般来说,获取申请人类型信息的方式有以下两种:
- 从提供申请人类型信息的数据库中下载相应文献的申请人类型数据,再利用vlookup函数合并两个数据库的数据。
- 从已知的申请人名称中手工获取申请人类型信息。
一般来说,
- 如果申请人名称中含有“公司”、“株式会社”、“厂”等,则认为该申请人的类型为“公司”;
- 如果申请人名称中含有“大学”、“学校”、“学院”等,则认为该申请人的类型为“学校”;
- 如果申请人名称中含有“研究所”、“研究院”等,则认为该申请人的类型为“研究所”;
- 如果申请人名称为姓名,则认为该申请人的类型为“个人”。
- 将存在多位申请人的专利申请拆分为多件
- 根据上述原则自定义筛选申请人名称,标引申请人类型数据
就中国专利而言,中国人的姓名普遍为3个字,我们可以在4个字以上的申请人名称中筛选,避免因为个人申请人姓名带来的误差。
进一步将数据处理的流程细化为:
- 将存在多位申请人的专利申请拆分为多件,并合并至1列
- 区分申请人名称的长度是大于等于4,还是小于4
- 根据上述原则自定义筛选长度大于等于4的申请人名称,标引申请人类型数据
- 检查长度小于4的申请人名称
Step1 将存在多位申请人的专利申请拆分为多件,并合并至1列
具体操作参见☞[数据处理]用excel进行申请人排名分析,此处不再赘述。
Step2 区分申请人名称的长度是大于等于4,还是小于4
插入3个空白列,空白列分别命名为“名称长度大于等于4”、“名称长度小于4”、“申请人类型”。
申请人名称长度大于等于4的判断:=IF(LEN(A2)>=4,A2,"")
申请人名称长度小于4的判断:=IF(LEN(A2)
关注 专利分析可视化
微信扫一扫关注公众号