一、背
景
在当前信息空前爆炸的时代,人们不再担心信息的匮
乏,而是为筛选有用的信息付出大量的代价。那么如何采集有用的信息呢?现在有RSS、
博客等服务,但是并不能完全满足我们的需求,因为很多信息并不是以格式化的数据形式提供出来,于是聪明的工程师想出了精确搜索的方法,从而出现大量的垂直
搜索网站(比如酷讯),确实火了一把。当然我们无法得知他们是怎么实现的,但是我们也可以实现这种精确采集,开源的Web-Harvest就是类似的技术,之前曾经接触过,故写出来分享
给大家。
二、WebHarvest简
介
Web-Harvest
是一个用Java 写
的开源的Web 数据提取工具。它提供了一
种从所需的页面上提取有用数据的方法。为了达到这个目的,你可能需要用到如XSLT,XQuery,和
正则表达式等操作text/xml 的相关
技术。Web-Harvest 主要着眼于
目前仍占大多数的基于HMLT/XML 的
页面内容。另一方面,它也能通过写自己的Java 方
法来轻易扩展其提取能力。
Web-Harvest 的主要目的是加强现有数据提取技术的应用。它的目
标不是创造一种新方法,而是提供一种更好地使用和组合现有方法的方式。它提供了一个处理器集用于处理数据和控制流程,每一个处理器被看作是一个函数,它拥
有参数和执行后同样有结果返回。而且处理是被组合成一个管道的形式,这样使得它们可以以链式的形式来执行,此外为了更易于数据操作和重用,Web-Harvest 还提供了变量上下方用于存储已经声明的变量。以下的图表就描述了这种管
道式处理器的执行情况:
![]() 一、配
置语言
每个提取过程都被定义在了一个或多个基于XML 的配置文件中,而且被描述为特定的或是结构化的XML 元素中。为了更好地说明,下面列举了一个配置文件来进行说明:
<config
charset=”gbk”>
<!–
页面爬取开始,按照关键词:“玩具”来搜
索 –>
<var-def
name=”start” >
<html-to-xml>
<http url=”http://www.baidu.com/s?wd=玩具“/>
</html-to-xml>
</var-def>
<!–
获取竞价排名的企业网站列表 –>
<var-def
name=”urlList” >
<xpath expression=”//div[@class='r']“>
<var name=”start”/>
</xpath>
</var-def>
<!–
循环 urlList ,并把结果写入到XML文件中 –>
<file
action=”write” path=”baidu/catalog.xml” charset=”utf-8″>
<![CDATA[
<catalog> ]]>
<loop
item=”item” index=”i”>
<list><var name=”urlList”/></list>
<body>
<xquery>
<xq-param name=”item” type=”node()”><var
name=”item”/></xq-param>
<xq-expression><![CDATA[
declare variable $item as node() external;
let $name := data($item//span/font[1]/text()[1])
let $url := data($item//span/font[2]/text())
return
<website>
<name>{normalize-space($name)}</name>
<url>{normalize-space($url)}</url>
</website>
]]></xq-expression>
</xquery>
</body>
</loop>
<![CDATA[
</catalog> ]]>
</file>
</config>
上述的配置文件包含了三段。
第一段的执行步骤:
2. 清除下载内容里面的HTML 以产生XHTML;
3.
第二段的执行步骤:
1. 用XPath 表达式从所给的URL 里
面提取搜索结果;
2. 用一个新的变量“urlList”来保存上面的搜索结果;
第三段是利用上一段的搜索结果来提取相应的信息:
1. 循环里面迭代每一个item;
2. 获取每个item的name和url;
3. 将其保存在文件系统里;
有了配置文件(把该配置文件保存为:baidu.xml),
我们再往前一步,写几行代码:
import
java.io.IOException;
import org.webharvest.definition.ScraperConfiguration; import org.webharvest.runtime.Scraper; public class Test {
public static void main(String[] args) throws IOException {
ScraperConfiguration config = new
ScraperConfiguration(”c:/baidu.xml”);
Scraper scraper = new Scraper(config, “c:/tmp/”); scraper.setDebug(true); long startTime = System.currentTimeMillis(); scraper.execute(); System.out.println(”time elapsed: ” + (System.currentTimeMillis() - startTime)); } } 让我们执行一下,看看结果:
<catalog>
<website>
<name>上海</name>
<url>www.liqiang-toy.com</url>
</website>
<website>
<name>多样型</name>
<url>www.yonglangplay.com</url>
</website>
<website>
<name>卡通</name>
<url>www.tbs88.com</url>
</website>
<website>
<name>芝麻</name>
<url>c49.txooo.js.cn</url>
</website>
<website>
<name>童博士</name>
<url>www.cfsj8.cn</url>
</website>
<website>
<name>充气</name>
<url>www.xmcaili.com</url>
</website>
<website>
<name>木制</name>
<url>www.tengyuetoys.com</url>
</website>
<website>
<name>米多迪</name>
<url>b146.txooo.com</url>
</website>
</catalog>
是不是很酷。爬虫就这么简单。
二、深
入考虑
不知道大家看到上面的配置、代码和结果是否感觉很熟悉。是否和Java通过Ibatis读
取数据库数据的方式类似。
那我们是否可以实现这样的机制呢,把整个互联网作为我们的庞大的
数据库,我们随意的读取。
Web-Harvest提
供了一个 ScraperContext , 可以在该上下文中设置Java对象,可以通过Java对
象收集相应的结果数据,(比如:设置Map,可以通过Map收集数据)
Scraper 提
供了这样的方法:
scraper.getContext().put(“resDataSet”, new ResultDataSet());
ResultDataSet是
收集数据的Java对象。
那么我们就可以这么做:
a)
首先设置要访问的网页的路径
scraper.getContext().put(“startPageHref”, “http://www.baidu.com/s?cl=3&wd=儿
童玩具“);
b)
第二步,设置要收集返回数据的容器
scraper.getContext().put(“resDataSet”, new ResultDataSet());
c)
在配置文件中就可以这样设置数据
${resDataSet.addRecord(“searchResult”,“totalSearchResult”,totalSearchResult)};
d)
爬取操作执行完毕后,即可返回数据:
ResultDataSet resultDataSet = (ResultDataSet)scraper.getContext().get(“resDataSet”);
Ok,我
们就可以随心所欲的使用这些数据,详细请看附件。
三、分
页机制处理
a)
来由介绍
现在的信息量很大,在展示的时候都是通过分页处理
的。比如:
![]() 那我们怎么处理呢?分页提取数据我们得明确几件事情
1.
分页器的处理,比如:页码、页大小、记录数或页数。
2.
“下一页”的地址的构造
3.
每页数据的爬取
不同的网站的分页机制都不一样,我们如何处理呢?当
然我们不能通过硬编码的方式来处理,我们就通过Web-Harvest的
配置文件来实现。
Web-Harvest 本身的配置文件结构为:
<config charset=”gbk”>
配置信息
</config>
对这个结构进行扩展:
<web-harvest-config>
<!–
生成分页器配置 –>
<config
charset=”gbk” id=”pagination”>
配置信息
</config>
<!–
组装下一页地址 –>
<config
charset=”gbk” id=”urlnav”>
配置信息
</config>
<!–
抓取列表数据 –>
<config
charset=”gbk” id=”listData”>
配置信息
</config>
</web-harvest-config>
我们就可以通过三个config项来处
理
l
第一步,通过 id=”pagination”
的配置生成分页器
l
第二步,通过已经生成的分页器加上 id=”urlnav” 的配置构造下一页的URL
l
第三步,通过 id=”listData”
的配置提取需要的数据
一、Web-Harvest的
优缺点
优点:
l
Web-Harvest是
一个使用比较方便的抓取信息的API库,目前是1.0版
本
l
扩展性好,只要修改配置文件即可
l
上手较快,使用方便。
l
缺点:
l
处理过程比较多,对应的速度较慢
二、其
他使用过或者正在尝试的精确抓取数据的方式
a)
使用HTMLParser
HTMLParser可
以分析HTML 源码中的TAG(比如Table,DIV等),还可以自己定义TAG(比如:ENET),
通过查找特定的Tag,提取相应的数据。由
于没有很多的中间处理过程,速度较快,缺点是有很多的硬编码,难以扩展。或许能找出一个特定的表达式可以快速的提取数据。
b)
使用HTMLClean
该方式还是走HTML->XML的路线,首先通过HtmlClean把抓取的网页内容转化为XML格式数据,然后通过XPATH、XSL等
方式对XML数据进行转化,达到收集数据的
目的。Web-Harvest是类似的方
式,但是我们可以精简化,提高抓取的效率。
三、使
用爬虫碰到的问题
a)
网站对频繁抓取数据的爬虫进行IP限制问题
考虑使用IP代理,但是速度难以忍受,故现在在考虑分布式的抓取数据的方式
四、相
关参考
http://web-harvest.
|
|
来自: ShangShujie > 《我的图书馆》