日韩欧美在线图片精品,国产亚洲欧美在线精品电影,亚洲国产网站在线观看

LEADTOOLS如何在eDiscovery應(yīng)用程序中工作（上）

翻譯|使用教程|編輯：莫成敏|2019-08-06 16:22:46.370|閱讀 494 次

概述：eDiscovery對于軟件開發(fā)人員來說是一個(gè)巨大的市場，在法律程序的任何階段都充滿了機(jī)會，本篇文章主要講述LEADTOOLS如何在eDiscovery應(yīng)用程序中工作?，F(xiàn)在就來跟著來了解一下吧~

# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>

LEADTOOLS Document Imaging Suite SDK是LEADTOOLS SDK中各種特點(diǎn)的精選組合，它用于在企業(yè)級文檔自動解決方案中建立端到端的文檔圖像應(yīng)用程序，而這些文檔圖像應(yīng)用程序需要有捕捉、表格識別和處理、存檔、注釋和顯示功能。

點(diǎn)擊下載LEADTOOLS Document Imaging Suite SDK免費(fèi)版

eDiscovery對于軟件開發(fā)人員來說是一個(gè)巨大的市場，在法律程序的任何階段都充滿了機(jī)會，本篇文章主要講述LEADTOOLS如何在eDiscovery應(yīng)用程序中工作?，F(xiàn)在就來跟著來了解一下吧~

LEADTOOLS Document Imaging SDK具有廣泛的成像技術(shù)，非常適合任何eDiscovery應(yīng)用程序。最簡單的單一服務(wù)專家、端到端商業(yè)ECM、以及介于兩者之間的一切，都可以找到為其應(yīng)用添加世界級成像技術(shù)所需的一切。

與EDRM作為一般指南和流程的工作方式，以及可以跳過或重新審視的步驟大致相同，下面概述的成像技術(shù)并不是一組強(qiáng)制性的功能。在大多數(shù)情況下，這些技術(shù)的順序遵循企業(yè)級ECM中的典型使用流程，但可以進(jìn)行修改和重組，以匹配任何開發(fā)團(tuán)隊(duì)的目標(biāo)和創(chuàng)造力。

掃描

ECM和eDiscovery應(yīng)用程序中最重要的元素之一就是能夠?qū)⒓堎|(zhì)文檔數(shù)字化。沒有什么比掃描更有效地獲得紙質(zhì)文檔的高質(zhì)量數(shù)字復(fù)制。即使這是公司為法庭所做的一切準(zhǔn)備，由于簡化了電子文件的運(yùn)輸和共享，掃描可以節(jié)省大量的時(shí)間和資金。一個(gè)U盤可以代替數(shù)百甚至數(shù)千磅的紙張，這些紙張從一個(gè)辦公室運(yùn)送到另一個(gè)辦公室，然后運(yùn)送到法庭。

LEADTOOLS包含高級類，可以使用TWAIN驅(qū)動程序或SANE后端從任何掃描儀中輕松獲取圖像。請考慮以下代碼段，該代碼段提示用戶選擇TWAIN源，然后將獲取的圖像加載到查看器中。

private void GetImageFromTwainSource()
{
 _twainSession.SelectSource(string.Empty);
 _twainSession.AcquirePage += new EventHandler(
 twainSession_AcquirePage);
 _twainSession.Acquire(TwainUserInterfaceFlags.Show);
}
private void twainSession_AcquirePage(object sender, TwainAcquirePageEventArgs e)
{
 imageViewer.Image = e.Image;
}

文檔清理和預(yù)處理

考慮成像SDK時(shí)另一個(gè)非常重要的功能是它能夠清理掃描圖像。清理圖像有兩個(gè)主要好處，每個(gè)都對整個(gè)eDiscovery過程產(chǎn)生巨大的影響

首先，可能最明顯的是，文檔本身更具可讀性。這對人眼來說很棒，但對電腦更好。只有幾個(gè)像素分隔了小寫l、大寫L和數(shù)字1。人眼仍然可以閱讀帶有劃線或折痕的文本，但即使是最好的OCR引擎也會返回胡言亂語。

第二，是存儲空間。許多壓縮算法通過比較相鄰像素來完成其工作。對于構(gòu)成大多數(shù)掃描文檔的黑白圖像尤其如此。執(zhí)行清除灰塵斑點(diǎn)、打孔、線條、邊框等的圖像清理功能，會對運(yùn)行長度和由單一顏色組成的塊的大小產(chǎn)生深遠(yuǎn)影響，從而允許非常高的壓縮率達(dá)到92％以上的臟圖像的壓縮大小。

screenshot_54_副本.jpg

圖1：使用LEADTOOLS清理臟圖像。兩者都使用CCITT G4壓縮，但干凈的圖像僅為12kb，而不是146kb

OCR

光學(xué)字符識別對于任何想要加強(qiáng)eDiscovery游戲的公司來說都是必不可少的。雖然掃描和清潔圖像可以完成工作并合法覆蓋基礎(chǔ)，但OCR具有競爭優(yōu)勢，是許多其他技術(shù)的重要基石。

以前靜態(tài)圖像在轉(zhuǎn)換為PDF、Microsoft Word或任何其他可搜索文本格式時(shí)都可以變?yōu)榛顒訝顟B(tài)。能夠搜索數(shù)字存儲文檔的內(nèi)容是eDiscovery中的一項(xiàng)重要資產(chǎn)，特別是在處理、審查和分析階段。LEADTOOLS可以創(chuàng)建圖像文本PDF，這在eDiscovery中非常有用，因?yàn)楦袷綄⒃紙D像保留在文本圖層的頂部，使其既可以搜索也可以與原始圖像保持不變。即使TIFF仍然是ECM中的首選文件格式，OCR也可以為這些靜態(tài)圖像注入可以搜索或索引的元數(shù)據(jù)，以便在需要時(shí)更容易引用。

LEADTOOLS使OCR非常簡單。將磁盤上的源文件轉(zhuǎn)換為可搜索的PDF只需三行代碼即可完成

IOcrEngine ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.LEAD, false);
ocrEngine.Startup(null, null, null, null);
ocrEngine.AutoRecognizeManager.Run(@"C:?InputFile.tif", @"C:?OutputFile.pdf", DocumentFormat.Pdf, null, null);

形式

表單識別是OCR的一種專門實(shí)現(xiàn)，它經(jīng)過精心調(diào)整，可以從文檔中提取特定的信息，而不是捕獲整個(gè)文檔。組織可能有各種各樣的表單，從就業(yè)時(shí)提交的稅表到發(fā)票和發(fā)給客戶的賬單。就其本質(zhì)而言，表單有很多重復(fù)的信息，也許唯一相關(guān)的數(shù)據(jù)是申請人、客戶、員工等填寫的數(shù)據(jù)。因此，在ECM中存檔這些表格的最有效和最有用的方法是，從這些字段中提取數(shù)據(jù)，并將它們索引到數(shù)據(jù)庫中或?qū)⑵淞泶鏋樵獢?shù)據(jù)。

LEADTOOLS能夠處理表單的分類和處理。在分類時(shí)，LEADTOOLS會將傳入的文檔與主模板庫（即表單的空白、未填充版本）進(jìn)行比較。然后一旦找到匹配項(xiàng)，它將執(zhí)行分區(qū)OCR以從填好的表單中提取數(shù)據(jù)

screenshot_55_副本.jpg

圖2：使用LEADTOOLS Forms Recognition顯示提取的字段

本教程內(nèi)容較多，后半部分內(nèi)容請點(diǎn)擊這里~

想要購買該產(chǎn)品正版授權(quán)，或了解更多產(chǎn)品信息請點(diǎn)擊

掃描關(guān)注慧聚IT微信公眾號，及時(shí)獲取最新動態(tài)及最新資訊

標(biāo)簽：

本站文章除注明轉(zhuǎn)載外，均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載，但請務(wù)必注明出處、不得修改原文相關(guān)鏈接，如果存在內(nèi)容上的異議請郵件反饋至chenjj@ke049m.cn

上一篇：TeeChart for PHP教程（九）：圖表的導(dǎo)出和導(dǎo)入下一篇：思維導(dǎo)圖TheBrain基礎(chǔ)實(shí)用教程（4）——理解思想的關(guān)系

相關(guān)產(chǎn)品

控件

產(chǎn)品功能：位圖圖像處理

源碼：非開源

產(chǎn)品編號：10781

當(dāng)前版本：v23 [銷售以商家最新版為準(zhǔn)，如需其他版本，請來電咨詢]

開發(fā) 商： LEADTOOLS

正式授權(quán)

">LEADTOOLS Document Suite Developer Toolkit

LEADTOOLS Document Imaging Suite SDK是LEADTOOLS SDK中各種特點(diǎn)的精選組合，這套強(qiáng)大的工具利用了LEAD行業(yè)領(lǐng)先的圖像處理技術(shù)來智能地識別文檔的特征，而根據(jù)文檔的特征可以識別掃描的或傳真的任何類型的表格圖像。

控件

產(chǎn)品功能：位圖圖像處理

源碼：非開源

產(chǎn)品編號：10782

當(dāng)前版本：v23 [銷售以商家最新版為準(zhǔn)，如需其他版本，請來電咨詢]

開發(fā) 商： LEADTOOLS

正式授權(quán)

">LEADTOOLS Document Imaging Developer Toolkit

多語言的文檔圖像處理控件，支持光符識別處理、條形碼掃描識別等。