分享

java正则表达式提取匹配字符

 跃来跃去 2010-08-24
正好遇到了一个问题需要将字符串中特定的字符全部提取出来。这个如果按照常规的字符串处理的话是很繁琐的。于是想到使用正则表达式来完成。
 
    public static void main(String[] args) {
        StringBuffer sb = new StringBuffer(500);
        InputStreamReader read = null;
        BufferedReader reader = null;    //定义BufferedReader
        try {
            File source = new File("D:\\workspace\\TradingPartnerSystem\\tps-web\\target\\tps-web.war\\demo\\vmToHtml.vm");
            read = new InputStreamReader(new FileInputStream(source),"gbk");
            reader = new BufferedReader(read);
            int line;
            while((line = reader.read()) != -1) {
                sb.append(reader.readLine());
            }
            /**
             * http://topic.csdn.net/u/20100824/13/f13a510a-46b4-48ce-8e04-a08c0750dd49.html?1037260202
             * \\u007d => }
             * \\u007B=> {
             */
            String find = "(?<=\\u007B).*?(?=\\u007D)";//"\\u007B.*?\\u007D";//"\\u007B((?>[^\\u007D]+))\\u007D";
            Pattern p = Pattern.compile(find);
            Matcher matcher = p.matcher(sb.toString());
            while(matcher.find()) {
                System.out.println(matcher.group());
            }
        } catch(Exception e) {
        }
    }
 
vmToHtml.vm文件如下:
<html>
    <head></head>
    <body>
        <div>${test}</div>
        <div>${test2}</div>
    </body>
</html>
 
最后要将${test}和${test2}提取出来。
 
刚开始使用的是:\\u007B.*\\u007D
发现每次提取出来的都是一个大的串:{test}</div><div>${test2}
后来在csdn上问了问原来是贪婪匹配在搞鬼。于是将正则修改为:\\u007B.*?\\u007D。这样就可以将{test},{test2}提取出来了。
后来一兄台锦上添花提供了:(?<=\\u007B).*?(?=\\u007D) 将提取出来的{test}中的花括号也去掉了。就更完美了。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多