分享

JAVA去除HTML标签

 Blex 2011-06-22
public static String getonerow(String HTMLStr)  
    {  
        String htmlStr = HTMLStr;  
        String textStr = "";  
        java.util.regex.Pattern p_script;  
        java.util.regex.Matcher m_script;  
        java.util.regex.Pattern p_style;  
        java.util.regex.Matcher m_style;  
        java.util.regex.Pattern p_html;  
        java.util.regex.Matcher m_html;  
        try 
        {  
            String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>";   
            String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>";   
            String regEx_html = "<[^>]+>";  
            p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);  
            m_script = p_script.matcher(htmlStr);  
            htmlStr = m_script.replaceAll("");   
            p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);  
            m_style = p_style.matcher(htmlStr);  
            htmlStr = m_style.replaceAll("");   
            p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);  
            m_html = p_html.matcher(htmlStr);  
            htmlStr = m_html.replaceAll("");  
            textStr = htmlStr.replaceAll(" ", "");  
            textStr = htmlStr.replaceAll("<",  "<");  
            textStr = htmlStr.replaceAll(">",  ">");  
            textStr = htmlStr.replaceAll("®", "®");  
            textStr = htmlStr.replaceAll("&", "&");  
        }  
        catch (Exception e)  
        {  
            System.err.println("Html2Text: " + e.getMessage());  
        }  
        return textStr;  
    } 

本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/happyycm/archive/2010/06/03/5644987.aspx

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章