分享

第14集参考资料

 第一资料收藏馆 2014-02-24

词库软件 的应用

[正则表达式基本知识】


1.匹配单个单词:\b单词\b
 he→\bhe\b


2.将每行第一个字符删除:^.→空
 行首:^
 任意单个字符:.


3.将每行第一个字母删除:^[a-z]或^\l→空
 匹配范围内的字符:[ ]
 匹配单个字母:[a-z](可不区分大小写)或\l(小写)或\u(大写)
 匹配数字:[0-9]或\d
 匹配中文:[\x{4e00}-\x{9fa5}]


4.将每行前两个字母删除:^\l{2}→空
 最少匹配n次,最多匹配m次:{n,m}
 匹配n次:{n}


5.将所有编码删除:^\l{1,4}_或^\l+_→空(“_”指空格)
 匹配1次或多次:+
 匹配0次或多次:*
 匹配0次或1次:?
 非贪婪模式:+?或*?或??或{n,m}?
 【贪婪模式】:在整个表达式匹配成功的前提下,尽可能多地匹配;
 【非贪婪模式】:在整个表达式匹配成功的前提下,尽可能少地匹配。


6.将所有空行删除:^[_\t]*\n→空
 【空行】:含有零个或零个以上空格或制表符,不含其他字符的行)
 将行末的空格删除:_+$→空(行末:$)
 换行符:\n


7.每行前面加两个全角空格:^→(两个全角空格)


8.转义符
 匹配 ^$.*+?\ 等字符需要用转义符:
 \^  \$  \.  \*  \+  \?  \\
 其他转义符:\n换行 \t制表符


9.将前300字调整为每字一行:.→\0\n
 引用整个表达式:\0


10.将前300调整为每字一/两行交替:(.{2})(.)→\1\n\2\n
 子表达式分组:( )
 引用第z个表达式(z=1,2,3...):\z


11.去掉词库中的生僻字
 ①~.→空(去掉生僻字)
 ② +$→空(去掉行末空格)
 ③^\l{1,4}\n(去掉纯编码行)

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多