有时候我们可能想获取PDF文档中某个指定区域内的文本而不是全部的文本,因此这篇文章将介绍一个针对该需求的解决方案,该方案所使用的组件是Spire.PDF。它不仅支持获取PDF文档中指定矩形区域内的文本,还支持获取指定页面或全部页面内的文本和图片。 下面是本方案所使用的示例文档截图,接下来我将使用Spire.PDF组件获取选中区域内的文本。 首先创建一个C#控制台应用程序,引用Spire.Pdf.dll到工程中并添加以下命名空间: using System.Drawing;using System.IO;using System.Text;using Spire.Pdf; 详细步骤如下: 步骤1:创建一个PdfDocument类的实例并加载PDF文档。 PdfDocument pdf = new PdfDocument();pdf.LoadFromFile('Input.pdf'); 步骤2:获取第一页。 PdfPageBase page =pdf.Pages[0]; 步骤3:从第一页的指定矩形区域内提取文本,并保存到一个txt文件中。该矩形区域通过X Y坐标以及宽度和高度指定。 string text = page.ExtractText(newRectangleF(50, 50, 500, 100)); StringBuilder sb = new StringBuilder();sb.AppendLine(text);File.WriteAllText('Extract.txt',sb.ToString()); 运行效果: 完整代码: using System.Drawing;using System.IO;using System.Text;using Spire.Pdf;namespace Extract_text_from_given_rectangle_in_PDF{ class Program { static void Main(string[] args) { //创建PdfDocument实例 PdfDocument pdf = new PdfDocument(); //加载PDF文档 pdf.LoadFromFile('Input.pdf'); //获取第一页 PdfPageBase page = pdf.Pages[0]; //从第一页的指定矩形区域内提取文本 string text = page.ExtractText(new RectangleF(50, 50, 500, 100) ); //保存文本到.txt文件 StringBuilder sb = new StringBuilder(); sb.AppendLine(text); File.WriteAllText('Extract.txt', sb.ToString()); } }}
|
|
来自: goodwangLib > 《C#》