搜索

分享

QQ空间 QQ好友新浪微博微信

如何构建停用词列表

株野 2017-08-14

展开全文

在实际使用机器学习文本分类算法(比如lda, bayes, k-means)的过程中，会发现文档的预处理非常重要，如果包含太多杂词，则算法效果往往会大打折扣。预处理中，停用词过滤是非常关键的一步，但就目前而言，并没有完全自动一步到位的实现，而且针对不同领域停用词可能还有变化。但是大体有些规律可以遵循，加上人工干预，应该能达到不错的效果。

下面是一些可行的停用词过滤方法，供参考：

1.词频

将训练集中的高频和低频词汇找出，然后经过人工干预，提出认为可用的词，剩下即为停用词。

2. 文档频率DF

如果一个词在文档集中出现的频率太高，那么可以认为这种词不会具有太大的表征意义，可以过滤。而对于过于低频的，也可以酌情丢掉。

3. 语法剔除，比如：

  Running
  Runner
  Runs
  Ran

可以归类为run这个词

4. 过滤包含数字，以及特殊字符的词，比如：

hello'
*he

computer2

5. 将所有英文词汇转为lowercase

6. 搜集网络上一些公开的停用词表

  http://www./stop-words.PHP
  http://www./stop-words.php
  http://snowball./algorithms/english/stop.txt

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：株野 > 《中文分词》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

株野

关注对话

TA的最新馆藏

[转] Project Server(PWA)的使用
Exchange 2019中启用自动转发到外部域
Windows Server 更新服务 (WSUS)
Exchange Server部署搭建
VBA FSO对象模型详解
Project Server 2013新手入门（十三）PWA安全模式切换

喜欢该文的人也喜欢更多

热门阅读换一换