分享

Java实现poi方式读取word文件内容(不带格式)

 马自达的图书馆 2018-05-02

声明:文章为原创,代码也是经过网上查询整理的,如有雷同,合情合理偷笑,博主很诚实。

1.此技术分享实现Java程序从word文档中读取文本内容保存为字符串,很简单。

2.准备工作:poi的jar包,我用的是3.16版本,官网上下载就可以,找不到的可以留言联系我。

















3.直接上代码

  1. package com.poi.test;  
  2.   
  3. import java.io.File;  
  4. import java.io.FileInputStream;  
  5. import java.io.InputStream;  
  6.   
  7. import org.apache.poi.POIXMLDocument;  
  8. import org.apache.poi.POIXMLTextExtractor;  
  9. import org.apache.poi.hwpf.extractor.WordExtractor;  
  10. import org.apache.poi.openxml4j.opc.OPCPackage;  
  11. import org.apache.poi.xwpf.extractor.XWPFWordExtractor;  
  12.   
  13. public class testPoi {  
  14.     /** 
  15.      * 读取word文件内容 
  16.      *  
  17.      * @param path 
  18.      * @return buffer 
  19.      */  
  20.   
  21.     public String readWord(String path) {  
  22.         String buffer = "";  
  23.         try {  
  24.             if (path.endsWith(".doc")) {  
  25.                 InputStream is = new FileInputStream(new File(path));  
  26.                 WordExtractor ex = new WordExtractor(is);  
  27.                 buffer = ex.getText();  
  28.                 ex.close();  
  29.             } else if (path.endsWith("docx")) {  
  30.                 OPCPackage opcPackage = POIXMLDocument.openPackage(path);  
  31.                 POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage);  
  32.                 buffer = extractor.getText();  
  33.                 extractor.close();  
  34.             } else {  
  35.                 System.out.println("此文件不是word文件!");  
  36.             }  
  37.   
  38.         } catch (Exception e) {  
  39.             e.printStackTrace();  
  40.         }  
  41.   
  42.         return buffer;  
  43.     }  
  44.   
  45.     public static void main(String[] args) {  
  46.         // TODO Auto-generated method stub  
  47.         testPoi tp = new testPoi();  
  48.         String content = tp.readWord("D:\\test01.doc");  
  49.         System.out.println("content===="+content);  
  50.     }  
  51.   
  52. }  

4.测试

4.1源文件内容(源文件位置:D:\test01.doc)

4.2测试结果

需要word文档中的任何内容,解析就可以了。


博主写博客经验较少,写的不好还请见谅,如有任何疑问可留言或者到“写给读者的话”分类中查看我的联系方式,转载请标明出处,谢谢。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多