共 17 篇文章 |
|
如何提高google网站PR值。说它错是因为-Google的Pagerank系统不单考虑一个网站的外部链接质量,也会考虑其数量.比方说,对一个有一定PR值的网站X来说,如果你的网站Y是它的唯一一个外部链接,那么Google就相信网站X将你的网站Y视做它最好的一个外部链接,从而会给你的网站Y更多的分值。在Google上随便找个词搜索,你会发现,Google所提供的搜... 阅25 转0 评0 公众公开 14-01-08 09:40 |
大型网站的Google排名策略大型网站的Google排名策略。大型网站,千万别盲目的修改标签,标签对于大型网站而言,不是特别重要的,所以大型网站在设计标签的时候一定要注意以下几个方面:网页简介标签:因为google搜索引擎对大型网站的更新速度非常快,所以网页简介标签对于最底层的内页就不用考虑了。关键词标签:关键词标签对于google已经没有... 阅22 转0 评0 公众公开 13-12-11 18:55 |
Nutch 0.8笔记--Google式的搜索引擎实现Nutch 0.8笔记--Google式的搜索引擎实现 Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而且很容易集成到自己的应用之中。nutch的文档不多,而且多是安装文档,要深入nutch,就必须一字不漏的... 阅43 转0 评0 公众公开 13-12-07 18:44 |
NUTCH研究系列4——剖析NUTCH爬虫3NUTCH研究系列4——剖析NUTCH爬虫3.Fetch命令:net.nutch.fetcher.Fetcher.net.nutch.fetcher.Fetcher类中的main()函数的功能主要是读取参数,实例化一个Fetcher对象,设置选项,然后调用run()函数。Run()函数逐个的实例化抓取线程FetcherThread对象,然后触发各个线程的start()函数,在其共初始化threadCount... 阅48 转0 评0 公众公开 13-12-06 08:59 |
NUTCH研究系列2——剖析NUTCH爬虫NUTCH研究系列2——剖析NUTCH爬虫。对于整个网络网页的抓取,你需要利用下面的命令逐步进行:$ bin/nutch admin db -create.$ bin/nutch inject db ...$ bin/nutch admin db -create.$ bin/nutch net.nutch.tools.- bin/nutch admin db -create.如果我们想在自己的程序中使用爬虫功能,那么我们可以将这个类拷... 阅25 转0 评0 公众公开 13-12-06 08:58 |
Nutch研究系列1——安装Nutch研究系列1——安装。最近着手开始研究Nutch,以前在Linux上曾经对Nutch鼓捣过一段时间,但当时纯粹是出于一种好奇和玩乐的心态,并没有对其进行过深入的探讨和研究。详细的安装指南请参考朱春雷:Nutch在windows中安装之细解和Nutch使用之锋芒初试。果然就成功了,Nutch真是欺负windows啊,哈哈。 阅37 转0 评0 公众公开 13-12-06 08:57 |
Nutch爬虫工作流程及文件格式详细分析Nutch爬虫工作流程及文件格式详细分析。一次爬行会产生很多个segment,每个segment内存储的是爬虫Crawler在单独一次抓取循环中抓到的网页以及这些网页的索引。但是需要注意的是,Lucene中的segment和Nutch中的不同,Lucene中的segment是索引index的一部分,但是Nutch中的segment只是WebDB中各个部分网页的... 阅60 转0 评0 公众公开 13-12-06 08:55 |
Nutch爬虫实验运行及抓取数据分析(二)Nutch爬虫实验运行及抓取数据分析(二)Raw content被放置于Content标识段之内,是Fetcher从网络上抓取的网页的原始文本数据,包括了完整的网页头数据和网页体。上篇文章说过最终的索引是通过对segments的索引进行合并和除去重复建立的,所以你可以利用Luke来查看最后一个segment的索引你会发现,索引中... 阅264 转1 评0 公众公开 13-12-06 08:54 |
Nutch爬虫实验运行及抓取数据分析(一)Nutch爬虫实验运行及抓取数据分析(一)命令如下:echo ''http://keaton/tinysite/A.html'' > urls.接下来,我们执行下面的命令行来运行Crawler:bin/nutch crawl urls -dir crawl-tinysite -depth 3 >& crawl.log.URL: http://keaton/tinysite/A.html.URL: http://keaton/tin... 阅751 转0 评0 公众公开 13-12-06 08:53 |