翻譯|使用教程|編輯:莫成敏|2019-08-06 16:22:46.370|閱讀 494 次
概述:eDiscovery對于軟件開發(fā)人員來說是一個(gè)巨大的市場,在法律程序的任何階段都充滿了機(jī)會,本篇文章主要講述LEADTOOLS如何在eDiscovery應(yīng)用程序中工作?,F(xiàn)在就來跟著來了解一下吧~
# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
LEADTOOLS Document Imaging Suite SDK是LEADTOOLS SDK中各種特點(diǎn)的精選組合,它用于在企業(yè)級文檔自動解決方案中建立端到端的文檔圖像應(yīng)用程序,而這些文檔圖像應(yīng)用程序需要有捕捉、表格識別和處理、存檔、注釋和顯示功能。
點(diǎn)擊下載LEADTOOLS Document Imaging Suite SDK免費(fèi)版
eDiscovery對于軟件開發(fā)人員來說是一個(gè)巨大的市場,在法律程序的任何階段都充滿了機(jī)會,本篇文章主要講述LEADTOOLS如何在eDiscovery應(yīng)用程序中工作?,F(xiàn)在就來跟著來了解一下吧~
LEADTOOLS Document Imaging SDK具有廣泛的成像技術(shù),非常適合任何eDiscovery應(yīng)用程序。最簡單的單一服務(wù)專家、端到端商業(yè)ECM、以及介于兩者之間的一切,都可以找到為其應(yīng)用添加世界級成像技術(shù)所需的一切。
與EDRM作為一般指南和流程的工作方式,以及可以跳過或重新審視的步驟大致相同,下面概述的成像技術(shù)并不是一組強(qiáng)制性的功能。在大多數(shù)情況下,這些技術(shù)的順序遵循企業(yè)級ECM中的典型使用流程,但可以進(jìn)行修改和重組,以匹配任何開發(fā)團(tuán)隊(duì)的目標(biāo)和創(chuàng)造力。
掃描
ECM和eDiscovery應(yīng)用程序中最重要的元素之一就是能夠?qū)⒓堎|(zhì)文檔數(shù)字化。沒有什么比掃描更有效地獲得紙質(zhì)文檔的高質(zhì)量數(shù)字復(fù)制。即使這是公司為法庭所做的一切準(zhǔn)備,由于簡化了電子文件的運(yùn)輸和共享,掃描可以節(jié)省大量的時(shí)間和資金。一個(gè)U盤可以代替數(shù)百甚至數(shù)千磅的紙張,這些紙張從一個(gè)辦公室運(yùn)送到另一個(gè)辦公室,然后運(yùn)送到法庭。
LEADTOOLS包含高級類,可以使用TWAIN驅(qū)動程序或SANE后端從任何掃描儀中輕松獲取圖像。請考慮以下代碼段,該代碼段提示用戶選擇TWAIN源,然后將獲取的圖像加載到查看器中。
private void GetImageFromTwainSource()
{
_twainSession.SelectSource(string.Empty);
_twainSession.AcquirePage += new EventHandler(
twainSession_AcquirePage);
_twainSession.Acquire(TwainUserInterfaceFlags.Show);
}
private void twainSession_AcquirePage(object sender, TwainAcquirePageEventArgs e)
{
imageViewer.Image = e.Image;
}文檔清理和預(yù)處理
考慮成像SDK時(shí)另一個(gè)非常重要的功能是它能夠清理掃描圖像。清理圖像有兩個(gè)主要好處,每個(gè)都對整個(gè)eDiscovery過程產(chǎn)生巨大的影響
首先,可能最明顯的是,文檔本身更具可讀性。這對人眼來說很棒,但對電腦更好。只有幾個(gè)像素分隔了小寫l、大寫L和數(shù)字1。人眼仍然可以閱讀帶有劃線或折痕的文本,但即使是最好的OCR引擎也會返回胡言亂語。
第二,是存儲空間。許多壓縮算法通過比較相鄰像素來完成其工作。對于構(gòu)成大多數(shù)掃描文檔的黑白圖像尤其如此。執(zhí)行清除灰塵斑點(diǎn)、打孔、線條、邊框等的圖像清理功能,會對運(yùn)行長度和由單一顏色組成的塊的大小產(chǎn)生深遠(yuǎn)影響,從而允許非常高的壓縮率達(dá)到92%以上的臟圖像的壓縮大小。

圖1:使用LEADTOOLS清理臟圖像。兩者都使用CCITT G4壓縮,但干凈的圖像僅為12kb,而不是146kb
OCR
光學(xué)字符識別對于任何想要加強(qiáng)eDiscovery游戲的公司來說都是必不可少的。雖然掃描和清潔圖像可以完成工作并合法覆蓋基礎(chǔ),但OCR具有競爭優(yōu)勢,是許多其他技術(shù)的重要基石。
以前靜態(tài)圖像在轉(zhuǎn)換為PDF、Microsoft Word或任何其他可搜索文本格式時(shí)都可以變?yōu)榛顒訝顟B(tài)。能夠搜索數(shù)字存儲文檔的內(nèi)容是eDiscovery中的一項(xiàng)重要資產(chǎn),特別是在處理、審查和分析階段。LEADTOOLS可以創(chuàng)建圖像文本PDF,這在eDiscovery中非常有用,因?yàn)楦袷綄⒃紙D像保留在文本圖層的頂部,使其既可以搜索也可以與原始圖像保持不變。即使TIFF仍然是ECM中的首選文件格式,OCR也可以為這些靜態(tài)圖像注入可以搜索或索引的元數(shù)據(jù),以便在需要時(shí)更容易引用。
LEADTOOLS使OCR非常簡單。將磁盤上的源文件轉(zhuǎn)換為可搜索的PDF只需三行代碼即可完成
IOcrEngine ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.LEAD, false); ocrEngine.Startup(null, null, null, null); ocrEngine.AutoRecognizeManager.Run(@"C:?InputFile.tif", @"C:?OutputFile.pdf", DocumentFormat.Pdf, null, null);
形式
表單識別是OCR的一種專門實(shí)現(xiàn),它經(jīng)過精心調(diào)整,可以從文檔中提取特定的信息,而不是捕獲整個(gè)文檔。組織可能有各種各樣的表單,從就業(yè)時(shí)提交的稅表到發(fā)票和發(fā)給客戶的賬單。就其本質(zhì)而言,表單有很多重復(fù)的信息,也許唯一相關(guān)的數(shù)據(jù)是申請人、客戶、員工等填寫的數(shù)據(jù)。因此,在ECM中存檔這些表格的最有效和最有用的方法是,從這些字段中提取數(shù)據(jù),并將它們索引到數(shù)據(jù)庫中或?qū)⑵淞泶鏋樵獢?shù)據(jù)。
LEADTOOLS能夠處理表單的分類和處理。在分類時(shí),LEADTOOLS會將傳入的文檔與主模板庫(即表單的空白、未填充版本)進(jìn)行比較。然后一旦找到匹配項(xiàng),它將執(zhí)行分區(qū)OCR以從填好的表單中提取數(shù)據(jù)

圖2:使用LEADTOOLS Forms Recognition顯示提取的字段
本教程內(nèi)容較多,后半部分內(nèi)容請點(diǎn)擊這里~
想要購買該產(chǎn)品正版授權(quán),或了解更多產(chǎn)品信息請點(diǎn)擊
掃描關(guān)注慧聚IT微信公眾號,及時(shí)獲取最新動態(tài)及最新資訊

本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@ke049m.cn