精品深夜寂寞黄,一区二区三区在线看,黄片大全在线观看

Spire.PDF圖片和圖形教程：如何獲取PDF文檔中的文本和圖片

翻譯|使用教程|編輯：李顯亮|2019-07-11 09:45:56.580|閱讀 1120 次

概述：Spire.PDF是一個專業的PDF組件，能夠獨立地創建、編寫、編輯、操作和閱讀PDF文件。文本和圖片是PDF文檔的重要組成部分。本文將介紹如何通過編程的方式使用C#獲取PDF文檔中的文本和圖片并保存到本地路徑，以及如何從指定的頁面區域提取文本。

# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>

【下載Spire.PDF最新試用版】

Spire.PDF是一個專業的PDF組件，能夠獨立地創建、編寫、編輯、操作和閱讀PDF文件，支持 .NET、Java、WPF和Silverlight。Spire.PDF的PDF API擁有豐富的功能，如安全設置（包括數字簽名）、PDF文本/附件/圖片提取、PDF文件合并/拆分、元數據更新、章節和段落優化、圖形/圖像描繪和插入、表格創建和處理、數據導入等等。

文本和圖片是PDF文檔的重要組成部分。本文將介紹如何通過編程的方式使用C#獲取PDF文檔中的文本和圖片并保存到本地路徑，以及如何從指定的頁面區域提取文本。

C# 如何提取 PDF 文檔中的文本和圖片

提取PDF文檔中的文本

//實例化一個PdfDocument對象
PdfDocument doc = new PdfDocument();

//加載PDF文檔
doc.LoadFromFile("測試文檔.pdf");

//實例化一個StringBuilder 對象
StringBuilder content = new StringBuilder();

//提取PDF所有頁面的文本
foreach (PdfPageBase page in doc.Pages)
{
    content.Append(page.ExtractText());
}

//將提取到的文本寫為.txt格式并保存到本地路徑
String fileName = "獲取文本.txt";
File.WriteAllText(fileName, content.ToString());

提取 PDF 文檔中的圖片

//加載PDF文檔
PdfDocument doc = new PdfDocument();
doc.LoadFromFile("測試文檔.pdf");

ListListImage = new List();

for (int i = 0; i < doc.Pages.Count; i++)
{
    // 實例化一個Spire.Pdf.PdfPageBase對象
PdfPageBase page = doc.Pages[i];

    // 獲取所有pages里面的圖片
    Image[] images = page.ExtractImages();
    if (images != null && images.Length > 0)
    {
        ListImage.AddRange(images);
    }

}

// 將提取到的圖片保存到本地路徑
if (ListImage.Count > 0)
{
    for (int i = 0; i < ListImage.Count; i++)
    {
        Image image = ListImage[i];
        image.Save("image" + (i + 1).ToString() + ".png", System.Drawing.Imaging.ImageFormat.Png);
    }
  
}

C# 從 PDF 頁面的指定區域內提取文本

有時我們可能需要獲取PDF頁面中某個區域內的文本而不是全部的文本。以下是示例文檔截圖，紅色矩形區域是即將提取文本的區域。

//創建PdfDocument實例  
PdfDocument pdf = new PdfDocument();  
//加載PDF文檔  
pdf.LoadFromFile("Input.pdf");  
   
//獲取第一頁  
PdfPageBase page = pdf.Pages[0];  
   
//從第一頁的指定矩形區域內提取文本  
string text = page.ExtractText(new RectangleF(50, 50, 500, 100) );  
   
//將文本寫入.txt文件  
StringBuilder sb = new StringBuilder();  
sb.AppendLine(text);  
File.WriteAllText("Extract.txt", sb.ToString());

效果圖

Extract-Text-from-a-Specific-Rectangular-Area-in-PDF-2.png