从大数据看美国四十年专利发展趋势

 

小编按今天我们特别介绍从大数据来分析美国四十年专利发展趋势。 Ed Flinchem是TurboPatent...



小编按
今天我们特别介绍从大数据来分析美国四十年专利发展趋势。

Ed Flinchem是TurboPatent的首席数据科学家。 Ed在TurboPatent的大数据和分析工作做了一系列开拓性的研究工作,重点是通过将专利制度的非结构化和部分结构化数据转化为可操作的信息和预测来实现价值。他也是预测性文本输入法的共同发明者,T9是一种基于大数据和机器学习的产品,成为历史上最广泛分布的软件之一。在开发T9之前,他曾在学术和政府实验室担任开发创新软件,以推进物理海洋学和地球物理学研究与教学,获得大规模数据分析,统计学,地理信息系统,卫星遥感,流体动力学和数字信号方面的专业知识处理。 Ed在布朗大学获得物理学学士学位。作为无线技术专家,他还共同创立了Melodeo,他指导开发世界上第一个移动音乐和播客下载服务,并开发了大量的专利组合。
专利申请的文本是一个丰富的数据库:历史,经济,科学和技术的反映(从某种意义上说,也包括专利法)。 出现在专利的名称和专利申请中出现的词汇的趋势如同动画词汇云。从与物体相联系的词汇到信息的范畴,分析揭示了一个强大,长达40年专利发展趋势与转变:其结果令人振奋。

为了揭示和形象般展示这个趋势,我们分析了从美国专利局四十年(1977-2016)的数据库。从专利的题目到数据的抓取到493兆字节,大约有770万个记录和5980万词汇。

我们将480个月的每个专利的题目分解,去除常规的停止词汇,专利专有的停止词汇。去除停止词汇使得语义的内容分析时词汇的意义加大。

将所剩的词汇成一元生成每月的排列,并以出现次数以多到少的排列。 每个月每50个最常出现的词汇又排成一个名单。至少一个月里出现有相同的。 前63词汇是图像化的集聚。每平均7个月变化一次,以图像表示。 通过HTML,每个词汇以字符大小表示出现的频率,字符大则出现频率大。

主要的变化是蓝色的词汇和桔红色的词汇在图示上提示着在四十年的专利变化从‘物质’,‘成分’和‘阀门’到信息的词汇如‘展示’,‘图像’和‘过程’)。例如,我们从一个特定,清楚的例子就是‘燃烧’和‘通讯’词汇出现的变化。如图1显示:



Figure 1. Frequencies of “combustion” and “communication” in patent titles over time.

使用主成分分析法(PCA)的机器学习技巧对于四十年的趋势产生了一个更全面和客观的模型。PC A是没有监管员的机器学习技巧:即不需要清晰的指令去指导其行为。 PCA算法的功能是自动识别数据集的最重要的“组件”,组件是一组权重,每个变量一个。

在这种情况下,这些变量是63个目标单词每个月的频率。 主要组件将模拟各种词之间最大的变化量,通过时间相关。 第二组件将模拟较小量的变化,等等。 一般来说,当许多变量的数据集中存在相关性时,PCA发现的一小部分组件可以解释或模拟数据中总体变异性的不成比例的大部分。 因此,PCA通常被称为模式识别的手段,其中主要组件作为识别的模式。

在这种情况下,特别是,第一个组件捕获数据中72%的差异。 第一个组件是一个强大的信号,与第二个组件很好分离,占16%的差异。 第一个组件为63个目标词中的29个(随时间增加的那些)中的29个分配正数,而剩下的34个单词则赋予负权重。 检查最大权重(正数和负数)的单词显示出词语的含义和关联的显著一致性(图2)。



Figure 2. The leading principal component with its words sorted by weight.

为了查看数据中主要主组件的大图形轮廓,我们绘制了63个单词的完整列表,其大小与单个月份的频率成正比,并根据其主要主组件中的数字权重进行着色。 图3和图4分别显示了1977年1月和2016年12月的数据。 正权重为橙色阴影,负权重为蓝色。 接近零的权重为灰色。



Figure 3. All 63 target words colored according to their weights in the leading principal component (orange for positive, blue for negative, gray when near zero). Size is proportional to the observed frequency in January 1977.



Figure 4. All 63 target words colored according to their weights in the leading principal component (orange for positive, blue for negative, gray when near zero). Size is proportional to the observed frequency in December 2016.ready to use –

一些单词,特别是“光学”和“车辆”,其次是“电影”和“录音”,权重接近零,呈灰色。 权重的绝对值低意味着相关词的频率随时间的变化与主导主组件所捕获的其他图形相对不相关。

重申一下,单一最大趋势(72%的差异)涉及40多年的准稳定相关增长,将近一半的目标词,与剩余词语相关的逆趋势相反,而少数词语以不相关的方式改变。 我们可以将组件1捕获的模式绘制为趋势线(图5)。



Figure 5. A time-series plot of component 1.

除了捕捉专利的趋势并将其趋势可视化之外,专利文本的计算分析的实际应用比较多,包括技术单位预测(因此,预测在一段时间内实施的持续时间的预测),主题分类,语义搜索,新颖性分析,资格/ 101预测, 和结构一致性/稳定性分析。 体量大的专利制度中的申请不限于专利文本。 审查员在办公室行动中的言论文字也是一个肥沃的调查领域。 作为一门学科,知识产权专业的数据科学技术的商业意义才刚刚开始,未来无疑是光明的。

仲路国平投资管理咨询有限公司业务包括:

风险管理-企业外部风险管理(公共关系、法律法规、合规经营、危机处理和企业社会责任)

对外投资(寻找标的、尽职调查、议价谈判、整合等)

技术转让(专利搜索、专利转让等)。

请联系我们:info@peakofperfect.com 

网址:www.mhctec.com   


技术鎃



微信ID:Tecpie




1.点击历史信息,查看更多内容

2.长按右侧二维码,关注技术鎃


长按二维码关注

感谢您抽出 

·

来阅读此文
更多精彩请点击【阅读原文】哦
↓↓↓


    关注 技术鎃


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册