词库软件 的应用
[正则表达式基本知识】
1.匹配单个单词:\b单词\b he→\bhe\b
2.将每行第一个字符删除:^.→空 行首:^ 任意单个字符:.
3.将每行第一个字母删除:^[a-z]或^\l→空 匹配范围内的字符:[ ] 匹配单个字母:[a-z](可不区分大小写)或\l(小写)或\u(大写) 匹配数字:[0-9]或\d 匹配中文:[\x{4e00}-\x{9fa5}]
4.将每行前两个字母删除:^\l{2}→空 最少匹配n次,最多匹配m次:{n,m} 匹配n次:{n}
5.将所有编码删除:^\l{1,4}_或^\l+_→空(“_”指空格) 匹配1次或多次:+ 匹配0次或多次:* 匹配0次或1次:? 非贪婪模式:+?或*?或??或{n,m}? 【贪婪模式】:在整个表达式匹配成功的前提下,尽可能多地匹配; 【非贪婪模式】:在整个表达式匹配成功的前提下,尽可能少地匹配。
6.将所有空行删除:^[_\t]*\n→空 【空行】:含有零个或零个以上空格或制表符,不含其他字符的行) 将行末的空格删除:_+$→空(行末:$) 换行符:\n
7.每行前面加两个全角空格:^→(两个全角空格)
8.转义符 匹配 ^$.*+?\ 等字符需要用转义符: \^ \$ \. \* \+ \? \\ 其他转义符:\n换行 \t制表符
9.将前300字调整为每字一行:.→\0\n 引用整个表达式:\0
10.将前300调整为每字一/两行交替:(.{2})(.)→\1\n\2\n 子表达式分组:( ) 引用第z个表达式(z=1,2,3...):\z
11.去掉词库中的生僻字 ①~.→空(去掉生僻字) ② +$→空(去掉行末空格) ③^\l{1,4}\n(去掉纯编码行)
|