import hashlib hash算法其实就是给指定字符串一个唯一身份标识data = 'python38' 创建hash对象md5 = hashlib.md5() 向hash对象中添加需要做hash运算的字符串md5.update(data.encode()) 获取字符串的hash值res = md5.hexdigest() hash 值可以用来校验从网站下载的文件是否被动过手脚,官网会给处一个文件的hash值hash 还可以用来做url地址的去重,保存更多的url,布隆过滤器更牛逼(保存大数据)的去重:url集合去重,url-hash去重,url布隆过滤器去重;simhash进行海量文本去重,编辑距离print(res) |
|