导语:英国BBC网站周二刊登题为《乔纳森·弗莱切:被遗忘的搜索引擎之父》(Jonathon Fletcher: forgotten father of the search engine)的评论文章称,虽然乔纳森·弗莱切的大名并不为多数人所知,但全世界首个现代搜索引擎却出自他的手笔。尽管因为种种原因,令他的项目没有持续下去,但他开发的技术却为后来的所有网络搜索引擎奠定了基础。
乔纳森·弗莱切(Jonathon Fletcher)
以下为文章全文:
在 Google 迎来15岁生日之际,这家网络巨头已经成为了信息检索的代名词。
然而,如果你在谷歌上搜索乔纳森·弗莱切(Jonathon Fletcher)的名字,却无法立刻了解他在万维网发展历程中所扮演的角色。当然,也几乎没有什么信息将他誉为“现代搜索引擎之父”。
但在20年前,在苏格兰斯特灵大学的一间电脑实验室里,正是弗莱切发明了世界上首个采用网络爬虫技术的搜索引擎——无论是谷歌、必应还是雅虎(28.23, 0.16, 0.57%),当今的所有大型搜索引擎工具都使用了这项技术。
解决搜索问题
1993年,网络世界刚刚萌芽。全世界首款广受欢迎的浏览器Mosaic发布不久,全球网页总数仅有几千个。但即使是在那时,如何检索网络信息仍是一个未解难题。
Mosaic有一个名叫What’s New的页面,可以在新网站创建后索引这些内容。但问题在于,如果要让Mosaic的开发者发现自己的网站,站长们就必须写信给该浏览器所在的美国伊利诺伊大学香槟分校国家超级计算机应用中心(NCSA)。
彼时,乔纳森·弗莱切还是斯特灵大学的明星毕业生,刚刚得到了格拉斯哥大学的博士全额奖学金。但就在他启程前,格拉斯哥大学的奖学金却取消了,弗莱切似乎走进了死胡同。
“我突然之间必须自谋生路,所以我回到斯特灵大学,在技术部找了一份工作。”他回忆说。
就是在那个岗位上,他邂逅了万维网和Mosaic的What’s New页面。
更好的方式
在为斯特灵大学建设网络服务器时,弗莱切发现What’s New页面存在一个本质缺陷。由于网页是手工添加的,所以无法追踪内容变化。所以,链接很快就会过期,还可能被错误标记。
“如果你想知道有什么变化,就必须回过头去亲自查看。”弗莱切提到Mosaic的链接时说,“我有计算机学位,而且我觉得应该可以有一种更好的方式,所以我决定写一个程序来帮助我查找内容。”
于是,便有了世界上第一个网络爬虫。
弗莱切将他的发明命名为JumpStation。他汇集了一个网页的索引,然后利用网络爬虫展开搜索。这本质上就是一套全自动的程序,可以汇集它所访问和索引的所有链接和所有网页。直到遍历了所有内容,这套程序才会停止。
10天后,也就是1993年12月21日,JumpStation遍历了所有网页,索引了2.5万个页面。
而今天,谷歌的页面索引量超过了1万亿。
搜索的诞生
弗莱切很快为这个索引开发了一款易于使用的搜索工具,然后将他的网站提交到Mosaic的What’s New页面。于是,全世界第一个现代搜索引擎正是运营了。
“我认为,他是真正的‘网络搜索引擎之父’。”曾经研究过信息检索历史的墨尔本皇家理工学院教授马克·桑德森(Mark Sanderson)说,“很早以前就有人用电脑搜索信息,网络诞生前肯定也有搜索引擎,但乔纳森的搜索引擎却第一个具备了所有现代搜索引擎的元素。”
然而,当联合创始人谢尔盖·布林(Sergey Brin)和拉里·佩奇(Larry Page)成为家喻户晓的明星时,现居中国香港的弗莱切却并没有因为自己在互联网发展过程中所扮演的角色受到太大认可。
这或许与他最终放弃了那个项目有很大关系。随着JumpStation的增长,投资需求也越来越大——而斯特灵大学却不愿提供这种支持。
“它使用了共享服务器,磁盘空间不多,而当时的磁盘又小又贵。”弗莱切解释说。
控制磁盘空间
到了1994年6月,JumpStation索引了27.5万个网页。由于存储空间捉襟见肘,迫使弗莱切只能索引网页的标题和头文件,不能索引全部内容。然而,尽管做出了这种妥协,但JumpStation还是不堪重负。
弗莱切也感到筋疲力尽。“这不是我份内的事情,”他说,“我的工作是让学生的实验室正常运行,干些系统管理和技术方面的零活儿。”
这时,一份来自东京的工作邀请,提供了弗莱切无法拒绝的丰厚待遇。斯特灵大学几乎完全没有挽留他和JumpStation的意思。
“我显然没能成功说服他们认可JumpStation的潜力。”弗莱切说,“我当时做了我认为正确的事情,但我20年来总会时不时地回首往事。”
斯特灵大学计算机和数学系主任雷斯利·史密斯(Leslie Smith)至今仍然记得弗莱切,他承认,JumpStation“领先于那个时代”。他还对BBC说:“斯特灵大学的同事都很高兴他正在因为自己取得的成就获得应有的认可。”
展望未来
尽管弗莱切的遭遇令人失望,但他开辟的这项技术却成为后来所有搜索引擎的基础。
“1993年的网络世界还很小,”桑德森教授说,“当时只要上过网的人,应该都知道JumpStation。”
“到了1994年年中,人们才逐渐意识到搜索引擎的重要性。谷歌直到1998年才诞生,他们所做的也不过是乔纳森早在1993年就做过的事情。”
几周前,弗莱切因为他的这项成就在都柏林的一次会议上获得了一些认可,他当时与来自微软(31.23, 0.04, 0.13%)、雅虎和谷歌的代表们共同出席了一个座谈会。但在演讲中,他的重点却放在了未来。
“在我看来,网络不会永远存在下去。”他对听众说,“但寻找信息却会成为一个永恒的话题。”
“搜索内容和寻找信息的愿望并不受制于任何媒介。”他说。
当今的媒介为那些追随弗莱切步伐的人创造了巨额财富,但他并不感到遗憾。“我的父母为我骄傲,我的妻子以我为豪,我的孩子因我而荣,这对我来说都是无价之宝,所以我很幸福。”
来自:http://tech.sina.com.cn/i/2013-09-05/09558710214.shtml
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/43543.html