分享

森特搜索引擎

 老庄走狗 2005-11-23




  森特搜索引擎是杭州森特信息技术有限公司开发的一套以Internet信息抓取为目的的跨平台软件,主要用于指定网络信息的抓取,实现在用户自定义的规则下,自动从互联网上的http服务器(或其它服务器)上抓取指定信息,并自动从网页中分析解析出信息并整理存为数据库格式。

 

 

森特搜索引擎――信息抓取系统 的工作流程分为四个阶段:

◎  信息规划:设定信息来源,确立信息获取任务;

◎  信息采集:从互联网抓取网页信息,并进行标准化分析处理;

◎  信息分析:对采集的信息进行数据挖掘,包括自动分类、自动提取关键词和自动消重;

◎  信息管理:按照用户的需要将信息及分析结果存储下来。


  森特搜索引擎-信息抓取系统主要包括信息采集、信息检索过滤和信息发布三大模块,主要有如下的功能特色:

  ◆对目标网站进行信息自动抓取,支持各种标准格式信息资源的采集,如 HTML页面、文本信息、图片等。

  ◆抓取速度快,系统采用多线程并发搜索技术,用户可根据需要设置并发线程的数目。

  ◆搜集到的信息可以按照不同的分类方式,并且保留原文链接。用户可以按照日期、来源、标题进行检索、浏览。

  ◆ 可以对抓取的信息定义关键字,对网页内容进行过滤,并可进行组合检索和二次检索,检索到的信息可以进行数据批量导出。


 
 



    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多