分享

搜索引擎、网络爬虫

 文明圣殿 2016-05-05
夜色渐深,亨利洗了个澡,穿着睡衣躺在床上。虽然已经到了深夜十一二点钟,但亨利仍是睡不着。他一想起今天发生的事情,便觉得懊恼。他起床打开电脑,随意浏览网站,突然在斯坦福大学bbs论坛里面发现一个帖子,题目是“FTP文件检索软件Isearch”。

    亨利打开之后,看了看,当时就震惊了!

    这个FTP文件检索软件Isearch是几个斯坦福大学学生自己开发出来的检索软件,它是一个可搜索的FTP文件名列表,用户必须输入精确的文件名才能搜索,然后Isearch会告诉用户哪一个FTP地址可以下载这个文件。亨利之所以震惊,是因为Isearch虽然还不是搜索引擎,但是从它的工作原理上看,它是所有搜索引擎的祖先!

    全球在线还没有搜索功能,类似于搜索框之类的设计还没开始!全球在线现在只是简单的将一些流量比较大的网站挂了上去!亨利非常仔细的看完了这道帖子,心中默默记下发帖之人的联系方式。
“大家都知道,比尔·乔伊斯和卢克·斯托之前制作了一个软件叫做Isearch,这个软件的主要功能是检索FTP的文件名,从而下载。但我们要做是搜索引擎,这个搜索引擎可以自动地从网络上收集信息,经过整理过后,提供给用户进行查询的系统。所以,做这个搜索引擎的主要难点,第一是如何从网络上收集信息。第二是如何整理信息得到优质信息。我们的搜索引擎必须准确,快速,提供给用户最需要的信息!”

    亨利拿起笔在黑板上画了一幅图,说道:“互联网就好比是蜘蛛网,我们要开发一个可以在蜘蛛网上自由爬行的程序,顺着Web上网页的链接地址,将其一个个网页的内容读取,并将这些网页抓到系统来进行分析,放入数据库中。至于这个程序的名字,就叫网络爬虫!所以,我们当前的第一任务就是开发网络爬虫!!”

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多