TRS 网络信息雷达(TRS RDA)
系统概述:
从事信息研究和情报分析的人们早已把互联网上的搜索引擎做为查询信息的重要手段之一。但是人们会发现,搜索引擎无法满足政府和企业级用户的更高层次需求,TRS网络信息雷达系统为解决此类问题提供了集成化的解决方案。TRS网络信息雷达系统的基本目标就是跟踪和监控最新事件的消息和报道,进而建立即时信息的资料库并提供信息服务。可以简单地把它理解为实时信息的搜索引擎,但是它包含解决上述问题的更丰富的特色功能——
- 可定制性:系统维护人员可以自行设定雷达的监控范围(网站或频道主页),在监控范围内的网页一旦发上变化,系统就会自动把最新的内容采集到本地
- 智能化:系统内部融合了中文信息处理的最新成果,将自动分类、排重、相似性检索等功能有机结合在系统中,为用户提供高质量的信息服务。
- 实用性:系统可对网页进行内容分析和过滤,自动去除广告、版权、栏目等无用信息,精确获取内容主体;对繁体网页统一自动转换为简体存储。
- 通用性:系统提供智能分类训练器,用户可以按照本行业的业务要求重新定义分类,从而可以适用于各行各业对信息自动分类的要求。
- 开放性:采集到的网页信息经过各种自动标引和加工处理后统一存储到数据库中,方便应用的定制开发和与其它系统的集成;可以把信息导入TRS采编发系统进行发布。
- 持续性:由于采集到的信息被妥善地存储在数据库系统中,这些信息的生命周期被有效延长,成为长期可供服务的信息资源,不会随着原始网站上信息的更迭而消失,TRS网络信息雷达系统长期使用后会形成与用户业务相关且内容丰富的信息资料库。
- 信息服务:对所有信息提供统一分类导航、全方位信息检索功能,检索结果可以按时间排序,保证把最新的信息传递给用户;用户可以直接查阅本地资料库中经过内容过滤的信息内容,一般不再需要下载原网页观看,访问速度不再受互联网接入带宽的限制。
总之,TRS网络信息雷达系统力求为信息工作者提供实时、单一入口、自动分类、可追踪和再利用的信息服务系统。
功能特点和性能指标:
1、强大的信息实时监控和采集功能
- 维护人员可方便指定监控的目标站点或页面;
- 采用多线程并发搜索技术,采集过程高效准确;
- 提供高效的更新手段,已经采集过的信息不会重复采集,更新时只获取前次采集后更新的网页;
- 维护人员可方便设定信息监控的时间周期,包括指定一天之内的多个定点执行时间,或者设定两次更新之间的时间间隔,以分钟为单位,并可设置为不间断运行;
- 对采集的网页信息提供多种分类手段:用户自定义分类和智能自动分类;
- 支持按内容对采集的网页信息进行自动排重,实现不重复新闻发布;
- 支持对网页中表格内容的自动判断和获取;
- 引入日期变量,使用户可精确定位带有日期信息的栏目或频道;
- 引入页码变量,可有效采集按一定翻页规则从数据库发布出来的信息;
- 支持BIG5内码网页和Unicode内码网页自动转换为GBK统一管理;
- 采集过程成熟可靠,容错性强,完成初始设定后可长时间稳定运行;
- 可以灵活设定采集结果的存储方式,具有开放性;
- 自动过滤网页中的正文内容,剔除垃圾信息。
2、智能化自动分类和相似性检索技术
- 采用统计学习理论和支持向量机实现,具有较高的准确性以及与语言无关的特性,可以实现中文、英文或者中英文混合分类和相似检索以及其它语种的自动分类和相似检索等功能;
- 可对采集的网页进行基于内容的自动分类,不需人工干预;
- 自动分类的准确率基本可以满足信息粗加工或大多数应用的实用要求;
- 提供分类训练工具,允许用户自行根据自己的分类需求和数据特点设定分类结构和生成特征模板,适应不同行业的需求。
- 利用相似性检索技术作为内容重复网页的判断依据,准确性高。
3、灵活的信息发布方式
- 对采集的信息可及时通过Web服务器发布到提供服务的网站上,页面刷新的频率可由最终用户调节;
- 按分类导航信息,把从各网站采集的不同风格的信息统一导航;
- 提供发布管理功能,各分类和频道所发布的信息可以由管理员完全控制;
- 支持自动发布和人工发布两种方式,在自动发布方式下,采集到的网页将自动发布到网站上,人工发布方式下,采集到的网页需要经过维护人员的选择才能发布到网站上;
- 支持专题新闻定制,用户可以通过定义关键词来设定专题;
- 对于所有信息,用户既可以查阅本地数据库中经过自动过滤的内容,也可以对照查阅原网页;
- 提供和内容编辑流转系统的无缝集成,目前支持TRS 网络采编发系统4.1版本。
4、配备强大TRS内容检索引擎
- 提供包括全文检索、日期检索、标题检索、关键词检索、文件大小检索、URL检索在内的多种检索入口,方便用户使用多种方式定位感兴趣的网页。
- 采用最优秀的中文检索核心技术,检索速度可达每秒50亿汉字,实现海量信息的无延迟检索。
- 检索结果可按相关度、日期、网页大小等多种方式排序输出;
- 自动识别简体和繁体文件,并提供动态内码转换,使用户可以同时浏览简体和繁体文件;
- 支持中英文混合检索,中文实现按词检索;
- 提供二次检索功能。
性能指标:
1分钟内获取数百个最新网页
每小时可以搜索10万以上的网页[注:和带宽有关]
内容自动分类准确性达90%
100万篇网页数据库的检索响应时间为毫秒级
应用范围:
网上新闻联播
互联网信息在企业内网和专网上的信息转播
网络新闻监测和分析
企业竞争情报采集和跟踪
信息安全检查和过滤
具有特殊分类需求的行业应用,特别是新闻、情报、行业信息中心等
增值信息服务中的信息采集和加工
运行平台: PC Server/Windows 2000,其它平台可定制。
|