海量在线的搜索引擎最大特点是智能,它善于理解用户输入的内容,如果像前面例子中说的,一个搜索引擎动辄就搜出成百上千条相关信息,对于用户是没有意义的,没人有耐心从如此多的信息中再进行手工查询。海量在线智能搜索引擎的核心就是“中文智能分词功能”。 众所周知,表面看,中文组成的最小单位是字,但是,其具有语义的最小单位是词。如何将一个个没有语义的字组成具有含义的词,看似简单,却非常重要。因为只要这样,才能让搜索变得有效,而且智能化。据了解,中文自动分词准确率低主要受以下几方面难题的困扰:词表收录、分词规范、未登录词识别、歧义切分。海量在线以“砌词”为突破口,巧妙地解决了困扰分词最大的问题—未登录词的识别问题,使海量分词在开放语料测试中的准确率达到99.5%,分词效率600万字/分钟,基本上达到实用要求。 目前,海量在线高质量的“水”—智能搜索引擎技术已经和若干知名厂商合作。例如,不久前,微软中国公司与海量在线的技术源泉—天津海量科技发展有限公司达成合作意向,微软中国公司协助海量科技在中国推广企业级中文搜索引擎新解决方案DESE(嵌入式数据库搜索引擎SQL Server版本),此外,其核心产品之一—海量MP3音乐搜索引擎也正在某些知名的音乐网站发挥着出色的作用。 |
|