共 4 篇文章 |
|
2. 有10个文件,每个文件1G,每个文件的每一行存放的都是用户的query,每个文件的query都可能重复。对每个小文件,统计每个文件中出现的词以及相应的频率(可以采用trie树/hash_map等),并取出出现频率最大的100个词(可以用含100个结点的最小堆),并把100词及相应的频率存入文件,这样又得到了5000个文件。方案1:首先根据用hash并求模,将... 阅141 转2 评0 公众公开 10-11-19 14:58 |
什么是哈希函数 哈希(Hash)函数在中文中有很多译名,有些人根据Hash的英文原意译为"散列函数"或"杂凑函数",有些人干脆把它音译为"哈希函数",还有些人根据Hash函数的功能译为"压缩函数"、"消息摘要函数"、"指纹函数"、"单向散列函数"等等。哈希函数的安全性 ... 阅3607 转44 评0 公众公开 10-11-16 18:42 |
while (*str){hash = (hash << OneEighth) + (*str++);} // ELF Hash unsigned int ELFHash(char *str){unsigned int hash = 0;} // DJB Hash unsigned int DJBHash(char *str){unsigned int hash = 5381;} // AP Hash unsigned int APHash(char *str){unsigned int hash = 0;i++){if ((i & 1) == 0){hash ^= ((hash << 7) ^ (... 阅64 转1 评0 公众公开 10-11-16 18:34 |