版权声明:原创文章,欢迎转载但请备注来源及原文链接 https://blog.csdn.net/levy_cui/article/details/53129506
1、使用jieba先对中文文档进行分词处理
需要处理的clean_data.csv文件内容(三列)
http://you./travels/1322/1360550.html 地中海邮轮+罗马深度自由行 宅猫行天下
http://you./travels/1400/1600356.html 柏林&安纳西 老鼠m
sys.setdefaultencoding("utf-8")
wf = open('clean_title.txt','w+')
for line in open('/root/clean_data/clean_data.csv'):
item = line.strip('\n\r').split('\t') //制表格切分
tags = jieba.analyse.extract_tags(item[1]) //jieba分词
tagsw = ",".join(tags) //逗号连接切分的词
输出的clean_title.txt内容
邮轮,地中海,深度,罗马,自由纳西,柏林签证,步行,三天,批准申根,手把手,签证,申请,如何赞爆,法兰,穿越,葡萄酒,风景,河谷,世界欧洲颜色,一种,国家,一个水族箱,帕劳,七日,上帝奥林匹亚,跑步圣托,
2、统计词频
with open('/root/clean_data/clean_title.txt') as wf,open("word.txt",'w') as wf2: //打开文件
word_lst.append(word.split(',')) //使用逗号进行切分
if item2 not in word_dict: //统计数量
wf2.write(key+' '+str(word_dict[key])+'\n') //写入文档
结果:
根据词汇数量排序查看:
cat word.txt |sort -nr -k 2|more