Hadoop之父Doug Cutting的传奇人生(上)

 

Hadoop之父DougCutting在大数据世界里是神一般的人物。他开创的Hadoop开源平台,倡导构建...



Hadoop之父Doug Cutting在大数据世界里是神一般的人物。他开创的Hadoop开源平台,倡导构建的Hadoop生态系统,给大数据和分布式计算带来革命性的变化!他身上的硅谷极客情怀,让无数人赞叹、膜拜!

众所周知,Hadoop的吉祥物是Cutting儿子的大象毛绒玩具。在许多人心目中,Cutting几乎就是横空出世、脑洞大开般地开创了Hadoop。今年是Hadoop十周年,随着对Hadoop大数据技术认识的不断深入,我深切地感受到,罗马不可能是一天建成的,Cutting也不可能顿悟般在极短的时间里构建出Hadoop。

国内中文网站上对Doug Cutting在Hadoop之前的经历介绍不多,大多只简单介绍了他做Lucene和Nutch开源软件的经历。对Lucene之前的经历涉及更少。当我有一天想做一个《Hadoop简史》系列时,我对Cutting的早期经历产生了强烈的兴趣。我几乎是以粉丝朝圣的心态,在各大英文网站上,用了一周的全部业余时间,搜集、篇译、整理出这一篇文章。

早年经历——出身斯坦福的IT精英


Doug Cutting 1985年毕业于美国斯坦福大学。在上大学之前,他对IT并没有什么认识。然而,斯坦福大学是硅谷的发源地之一,培育了大批IT互联网精英。雅虎创始人杨致远、谷歌创始人布林和佩奇都毕业于斯坦福大学。在这里,学习软件,走上IT之路对当时CUTTING这样的年轻人来说是再自然不过的事情了。

毕业之后,Cutting到施乐PARC研究中心工作。Xerox PARC是当时IT牛人汇萃之地,曾诞生出世界上最早的鼠标和图标操作系统,启发了乔布斯的苹果OX和盖茨的视窗Windows。

在Xerox PARC,CUTTING一开始为施乐的激光扫描仪开发了应用程序。这个程序是基于系统底层开发的,让Cutting很有成就感,这是他最早的“平台”级的作品。

可以说,Xerox对 Cutting后来研究搜索技术起到了决定性的影响。这段时间,他开始涉及到一些搜索技术。其中包括一个高性能的文本检索引擎,一些创新的搜索范式,高级语言分析方法和文本摘要算法。期间他发表了七篇论文,获得了六项专利。用Cutting自己的话说——“我的研究生是在Xerox读的。”



早期的苹果公司,从施乐PARC研究中心挖了许多人才。1992年,CUTTING离开施乐,来到了苹果公司的先进技术集团(ATG)工作了四年。作为苹果技术部门的核心人员之一,他开发了一种先进的内容检索引擎(软件代号为V-Twin)。这是苹果Copland操作系统的一部分,自动检索文件内容,使得整个文件系统可以高效地搜索。这是当时最先进的信息检索技术。Copland操作系统项目后来被苹果公司中止了,但V-Twin检索引擎仍被用于其他的苹果软件上。

加盟EXCITE——搜索技术的顶级人才


九十年代初,美国的互联网革命开始孕育。1994年,斯坦福大学的两位研究生杨致远和大卫•费罗创办雅虎网站,引起广泛关注。

一年后,6个斯坦福的大学生创建Excite搜索引擎,使用静态统计的方法来分析词之间的关系来使搜索引擎更具效率。EXCITE功能强大、界面友好,是当时最流行的搜索引擎之一。在九十年代,Excite是极其知名的门户网站,知名度仅次于雅虎。

此外,EXCITE还最早推出了新闻聚合网站——My Excite,聚合了上百家新闻媒体和财经资讯,向网民推送个性化的内容。十五年之后,张一鸣在中国创办“今日头条”。让我们看到了EXCITE创新精神的延续。
96年,作为美国最资深的搜索技术专家之一,Cutting受邀加盟EXCITE,担任总工程师和首席架构师。他给EXCITE带进了许多新的技术,使EXCITE成为当时最好的搜索之一。他接手了Excite核心搜索技术的升级工作,使Excite的网页索引从二百万网页增长到五千万网页,大幅优化搜索性能,增加词组搜索功能,并创建了自然语言检索功能。

有一段鲜为人知的故事。在Cutting供职于EXCITE期间,有两位斯坦福的研究生——拉里•佩奇和谢尔盖•布林曾来拜访EXCITE,兜售他们研发出来的搜索技术。但他们的Demo软件只能检索几百万网页,被Excite当时的搜索技术甩出几条街。这两个年轻人回去之后痛定思痛,升级了自己的底层架构,开发出了反向排序之后再存储的搜索结构设计,97年创业,取名为Google!

正是一批又一批的斯坦福精英、硅谷英雄,成为了IT互联网时代的弄潮儿!

LUCENCE和NUTCH的创始人




Doug Cutting是一个很有技术情怀的人。出于个人兴趣,他一直在业余时间从事一些Internet底层架构的研究,发布在自己的博客和BBS论坛上。

97年,他开始在家里用周末两天的时间,用Java创作一个文本搜索的开源函数库,目标是为各种中小型应用软件加入全文检索功能。不久之后,Lucene诞生了。2000年,Lucene成为Apache开源社区的一个子项目。

Lucene从问世之后,引发了开源社群的巨大反响,程序员们不仅使用它构建全文检索应用,而且将之集成到各种系统软件中去,以及构建Web应用。Wikipedia用Lucene建立了一个站内的强大搜索功能,用以检索wikipedia站内数以千万的词条。IBM的商业软件Web Sphere也采用了Lucene作为全文索引引擎。Lucene以其开放源代码的特性、优异的索引结构、良好的系统架构获得了越来越多的应用。



互联网泡沫在2000年破裂,大批互联网公司在疯狂扩张后,资金链断裂,股价暴跌,不得不关闭网站,大量裁员。Excite就是其中之一。Doug Cutting被迫于2000年8月离开公司。

此时,Lucene的影响力越来越大,Cutting决定不再从事一份全职的工作,在家中全力以赴完善Lucene。一些大公司也开始关注Lucene。他得到了来自Yahoo、IBM等公司的与Lucene项目相关的一些兼职合同,并以此为生。

2004年,Cutting再接再厉,在 Lucene的基础上将开源思想继续深化,和Apache开源伙伴Mike Cafarella合作开发了一款可以代替当时的主流搜索的开源搜索引擎,被命名为Nutch。Nutch是一个建立在Lucene核心之上的Web搜索的应用程序,可以下载下来直接使用。它在Lucene的基础上加了网络爬虫和一些Web相关的功能,其目的就是从一个简单的站内检索推广到全球网络的搜索上,就像Google和Yahoo一样。

Nutch在业界的影响力比Lucene更大。大批网站采用了Nutch平台,大大降低了技术门槛,使低成本的普通计算机取代高价的WEB服务器成为可能。甚至有一段时间在硅谷有了一股用Nutch低成本创业的潮流。


    关注 大数据漩涡


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册