使用python对中文文档进行词频统计

dbn9981 2018-09-24

展开全文

1、使用jieba先对中文文档进行分词处理

需要处理的clean_data.csv文件内容（三列）

http://you./travels/1322/1360550.html 地中海邮轮+罗马深度自由行宅猫行天下
http://you./travels/1400/1600356.html 柏林&安纳西老鼠m

import sys
reload(sys)
sys.setdefaultencoding("utf-8")
import jieba
import jieba.analyse
wf = open('clean_title.txt','w+')
for line in open('/root/clean_data/clean_data.csv'):
    item = line.strip('\n\r').split('\t') //制表格切分
    # print item[1]
    tags = jieba.analyse.extract_tags(item[1]) //jieba分词
    tagsw = ",".join(tags) //逗号连接切分的词
    wf.write(tagsw)
wf.close()

输出的clean_title.txt内容

邮轮,地中海,深度,罗马,自由纳西,柏林签证,步行,三天,批准申根,手把手,签证,申请,如何赞爆,法兰,穿越,葡萄酒,风景,河谷,世界欧洲颜色,一种,国家,一个水族箱,帕劳,七日,上帝奥林匹亚,跑步圣托,
里尼,文明古国,探访,爱琴海,魅力,希腊

2、统计词频

#!/usr/bin/python
# -*- coding:utf-8 -*-
word_lst = []
word_dict= {}
with open('/root/clean_data/clean_title.txt') as wf,open("word.txt",'w') as wf2: //打开文件
    for word in wf:
        word_lst.append(word.split(',')) //使用逗号进行切分
        for item in word_lst:
             for item2 in item:
                if item2 not in word_dict: //统计数量
                    word_dict[item2] = 1
                else:
                    word_dict[item2] += 1
    for key in word_dict:
        print key,word_dict[key]
        wf2.write(key+' '+str(word_dict[key])+'\n') //写入文档

结果：

最后 4
欧洲幽蓝 1
集美 1
葡萄牙法多 1
工地 1
知道湖光山色 1
神圣 7
欧洲少女瑞士加游 1

根据词汇数量排序查看：

cat word.txt |sort -nr -k 2|more

神圣 7
最后 4
欧洲幽蓝 1
集美 1
葡萄牙法多 1
工地 1
知道湖光山色 1
欧洲少女瑞士加游 1

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： dbn9981 > 《临时适用》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

dbn9981

关注对话

TA的最新馆藏

【Insight Time】浅谈 AlphaFold 与蛋白质结构预测
氨基酸的结构
田慧蓉：工业互联网安全框架白皮书介绍｜2018工业互联网峰会
C++ 调试配置的项目设置
重磅！2023年国家科技奖初评结果公布，301项通过（附全名单）
Blackwell NVIDIA Hopper架构继任者代号泄露

喜欢该文的人也喜欢更多

热门阅读换一换