土土书屋的图书馆

他的首页他的馆藏他的动态馆友反馈关于他分享对话

土土书屋

文章		关注		粉丝		访问		贡献

关注

粉丝

访问

贡献

他的首页

他的馆藏

他的动态

馆友反馈

关于他

共 17 篇文章

显示摘要

每页显示

条

如何提高google网站PR值

如何提高google网站PR值。说它错是因为－Google的Pagerank系统不单考虑一个网站的外部链接质量，也会考虑其数量.比方说，对一个有一定PR值的网站X来说，如果你的网站Y是它的唯一一个外部链接，那么Google就相信网站X将你的网站Y视做它最好的一个外部链接，从而会给你的网站Y更多的分值。在Google上随便找个词搜索，你会发现，Google所提供的搜...

阅25 转0 评0 公众公开 14-01-08 09:40

大型网站的Google排名策略

大型网站的Google排名策略大型网站的Google排名策略。大型网站，千万别盲目的修改标签，标签对于大型网站而言，不是特别重要的，所以大型网站在设计标签的时候一定要注意以下几个方面：网页简介标签：因为google搜索引擎对大型网站的更新速度非常快，所以网页简介标签对于最底层的内页就不用考虑了。关键词标签：关键词标签对于google已经没有...

阅22 转0 评0 公众公开 13-12-11 18:55

Nutch 0.8笔记--Google式的搜索引擎实现

Nutch 0.8笔记--Google式的搜索引擎实现Nutch 0.8笔记--Google式的搜索引擎实现 Nutch是一个基于Lucene，类似Google的完整网络搜索引擎解决方案，基于Hadoop的分布式处理模型保证了系统的性能，类似Eclipse的插件机制保证了系统的可客户化，而且很容易集成到自己的应用之中。nutch的文档不多，而且多是安装文档，要深入nutch，就必须一字不漏的...

阅43 转0 评0 公众公开 13-12-07 18:44

NUTCH研究系列4——剖析NUTCH爬虫3

NUTCH研究系列4——剖析NUTCH爬虫3NUTCH研究系列4——剖析NUTCH爬虫3.Fetch命令：net.nutch.fetcher.Fetcher.net.nutch.fetcher.Fetcher类中的main()函数的功能主要是读取参数，实例化一个Fetcher对象，设置选项，然后调用run()函数。Run()函数逐个的实例化抓取线程FetcherThread对象，然后触发各个线程的start()函数，在其共初始化threadCount...

阅48 转0 评0 公众公开 13-12-06 08:59

NUTCH研究系列3——剖析NUTCH爬虫2

NUTCH研究系列3——剖析NUTCH爬虫2NUTCH研究系列3——剖析NUTCH爬虫2.

阅32 转0 评0 公众公开 13-12-06 08:59

NUTCH研究系列2——剖析NUTCH爬虫

NUTCH研究系列2——剖析NUTCH爬虫NUTCH研究系列2——剖析NUTCH爬虫。对于整个网络网页的抓取，你需要利用下面的命令逐步进行：$ bin/nutch admin db -create.$ bin/nutch inject db ...$ bin/nutch admin db -create.$ bin/nutch net.nutch.tools.- bin/nutch admin db -create.如果我们想在自己的程序中使用爬虫功能，那么我们可以将这个类拷...

阅25 转0 评0 公众公开 13-12-06 08:58

Nutch研究系列1——安装

Nutch研究系列1——安装Nutch研究系列1——安装。最近着手开始研究Nutch，以前在Linux上曾经对Nutch鼓捣过一段时间，但当时纯粹是出于一种好奇和玩乐的心态，并没有对其进行过深入的探讨和研究。详细的安装指南请参考朱春雷：Nutch在windows中安装之细解和Nutch使用之锋芒初试。果然就成功了，Nutch真是欺负windows啊，哈哈。

阅37 转0 评0 公众公开 13-12-06 08:57

Nutch爬虫工作流程及文件格式详细分析

Nutch爬虫工作流程及文件格式详细分析Nutch爬虫工作流程及文件格式详细分析。一次爬行会产生很多个segment，每个segment内存储的是爬虫Crawler在单独一次抓取循环中抓到的网页以及这些网页的索引。但是需要注意的是，Lucene中的segment和Nutch中的不同，Lucene中的segment是索引index的一部分，但是Nutch中的segment只是WebDB中各个部分网页的...

阅60 转0 评0 公众公开 13-12-06 08:55

Nutch爬虫实验运行及抓取数据分析（二）

Nutch爬虫实验运行及抓取数据分析（二）Nutch爬虫实验运行及抓取数据分析（二）Raw content被放置于Content标识段之内，是Fetcher从网络上抓取的网页的原始文本数据，包括了完整的网页头数据和网页体。上篇文章说过最终的索引是通过对segments的索引进行合并和除去重复建立的，所以你可以利用Luke来查看最后一个segment的索引你会发现，索引中...

阅264 转1 评0 公众公开 13-12-06 08:54

Nutch爬虫实验运行及抓取数据分析（一）

Nutch爬虫实验运行及抓取数据分析（一）Nutch爬虫实验运行及抓取数据分析（一）命令如下：echo ''http://keaton/tinysite/A.html'' > urls.接下来，我们执行下面的命令行来运行Crawler：bin/nutch crawl urls -dir crawl-tinysite -depth 3 >& crawl.log.URL: http://keaton/tinysite/A.html.URL: http://keaton/tin...

阅751 转0 评0 公众公开 13-12-06 08:53

他的文章
他的书籍

筛选

不限类型

网文

撰写

文档

不限 Word PPT Excel RTF PDF TXT

思维导图

相册

音乐

视频

显示摘要不显示摘要

每页10条每页30条每页50条

返回
顶部