倒排序索引实验

funson 2007-10-14

展开全文

倒排序索引实验

倒排序索引实验，无意义，无价值，纯粹为了理清思路

ReverseOrderIndex.rar 测试代码下载

class Word 为主要被索引的词，
其中
        public IList<string> FileList; 该词所在的文件列表
        public IList<TF> Degree; 该词在对应的文件中出现的次数以及位置索引
        public IList<int> Position;该词在文件中出现的位置
        public IList<int> Number; 该词在对应的文件中出现的次数

整个流程思路：

1.对测试用的文本文件进行分词，（分词可使用网上免费的分词组件，修改class Segment即可）
2.统计词频，
3.将词相关信息加入到索引中（通过文件保存Dictionary中的数据）。

为简单起见全部使用Dictionary 实现，鄙视自己一下 -_-!!

4.通过文件保存Dictionary中的数据。作为持久化索引
5.读出被保存的索引，放到Dictionary中
6.之后变得简单了。。。

引用一下：Lucene 2.1研究：倒排序基本常识
下面是信息检索研究中常用的几个相关量：

N：文档集合的大小

M：词项集合的大小

S_j=|PL（t_j）|：词项t_j所涉及文档的个数

DF（t_j）=s_j/N：词项t_j的文档频率

IDF（t_j）=-logDF（t_j）：倒置文档频率；其值越小表示出现的频率越高

f_i,j：第j个词项t_j在第i个文档d_i中出现的次数

T_N= f_i,j：系统所有文档分解后包含词项的总量（包括重复，即一个多重集（multi-set））