共 196 篇文章 |
|
这种方法可以处理被他们称之为具有 HLRT 结构的网页:头分隔符、左右分隔符(在每个待抽取的事实的左右)和尾分隔符。系统寻找标记信息点开始和结尾的统一的分隔符,以及那些把表格信息与其他周围信息分开的分隔符。归纳算法是:把标记好的网页作为输入,然后搜索由" HLRT 分装器模型"定义的分装器空间( space of wrappers ),反复... 阅606 转10 评0 公众公开 09-05-28 16:29 |
IE 的前身是文本理解。结构化文本 :此种文本是一种数据库里的文本信息,或者是根据事先规定的严格格式生成的文本。因此,对于半结构化文本不能使用传统的 IE 技巧,同时,用来处理结构化文本的简单的规则处理方法也不能奏效。有些研究者把所有网页都归入半结构化文本,但 Hsu[31] 对网页类型做了颇有用的定义:若能通过识别分隔符或信息点顺序... 阅802 转17 评0 公众公开 09-05-28 16:26 |
对于网上信息源来说,这些缺点尤为明显,因为网页数量庞大,内容和结构繁杂,而且新的信息源不断增加,旧的信息还会改变,因此,帮助生成自动抽取网页信息的分装器的技术变得非常重要。用于 IE 的机器学习方法有很多,如符号化学习法, ILP (归纳逻辑设计法),分装器归纳法,统计法和语法归纳法。尤其是 ILP 方法,专门研究从例子中归纳一阶... 阅569 转12 评0 公众公开 09-05-28 16:19 |
基于Sphinx+MySQL的千万级数据全文检索架构设计基于Sphinx+MySQL的千万级数据全文检索架构设计。尽量方便前端Web工程师,只需要一条简单的SQL语句"SELECT ...FROM myisam_table JOIN sphinx_table ON (sphinx_table.sphinx_id=myisam_table.id) WHERE query=''...'';"即可实现高效搜索。创建一张Sphinx类型表,将MyI... 阅1023 转6 评0 公众公开 08-12-18 13:41 |
其他 Google 服务,诸如 Gmail,Google Docs,Google Picasa Web 等等,无不充分体现了云计算的强大力量。这时,你可以直接将照片或视频上传到 Google Picasa Web 或 YouTube 网站上,让更多的朋友分享美好时光......这一切,都只需要在浏览器中完成,所有数据都存储在"云"中,诸如文档编辑、日程安排、照片处理等操作都由"云&q... 阅157 转4 评0 公众公开 08-05-17 20:03 |
迄今为止Salesforce.com是企业应用软件领域中最为知名的供应商,但是软件即服务(SaaS)在人力资源管理软件方面运用比较普遍,还有诸如Workday这样的ERP软件供应商。网络服务与软件即服务(SaaS)是密切相关的,网络服务供应商提供API能帮助开发商通过网络拓展功能性,而不只是提供成熟的应用软件。服务商业平台是软件即服务(SaaS)和管理服务... 阅256 转41 评0 公众公开 08-05-09 17:32 |
中国互联网向何处去之三:中国搜索引擎的出路在哪里 -中国互联网向何处去之三:中国搜索引擎的出路在哪里。这种情况也不复杂,查询分析系统一旦发现"最小语境含义表达单位(语境根)"库中没有,那么分析出查询关键词里面包含有那些词是"最小语境含义表达单位(语境根)"库中有的,按照"文字上尽可能多符合"的原... 阅90 转1 评0 公众公开 08-04-17 13:42 |
Content Delivery Networks (CDN) Research Directory.Some of the blistering areas of research for Content Networks are: CDN placement, Content Selection, Request Routing and Resource Optimization, Content Outsourcing, Content Replication and Caching, Traffic Congestion and Load Dissemination, CDN peering, Content Pricin... 阅262 转3 评0 公众公开 07-11-21 14:24 |
本文主要叙述如何通过引入Commons-VFS项目来扩展Lucene的索引文件存储方式。protected void finalize() throws IOException {close();@Overridepublic void deleteFile(String name) throws IOException {FileObject file = this.fileManager.resolveFile(directory, name);@Overridepublic void renameFile(String name1, String name2) throw... 阅46 转自凡尘一滴 公众公开 07-11-11 20:20 |