原創(chuàng)|行業(yè)資訊|編輯:陳俊吉|2016-08-03 10:00:22.000|閱讀 462 次
概述:數(shù)據(jù)挖掘?yàn)閺拇罅繑?shù)據(jù)中提取出有用的信息提供先進(jìn)的分析技術(shù)。本系列的文章談到了將 InfoSphere Warehouse 數(shù)據(jù)挖掘與 IBM Cognos報(bào)告相結(jié)合的總體架構(gòu)和商業(yè)機(jī)遇。這種集成使公司中的不同人員可以利用數(shù)據(jù)挖掘的結(jié)果。本系列的第 1 篇文章介紹基本的集成架構(gòu),并提供一個(gè)簡(jiǎn)短的技術(shù)案例研究,使您基本了解如何完成這種集成。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關(guān)鏈接:
數(shù)據(jù)挖掘使專家、分析師和用戶可以洞察大量數(shù)據(jù)集中存在的模式,并使之成為日常業(yè)務(wù)流程中的一部分。在過(guò)去,數(shù)據(jù)挖掘一直是統(tǒng)計(jì)和數(shù)據(jù)分析專家的任務(wù)。另一方面,數(shù)據(jù)挖掘的結(jié)果又常常與公司中各種不同的用戶有關(guān)聯(lián)。
考慮以下場(chǎng)景。您收集關(guān)于符合特定的人口特征(例如年齡、職業(yè)和居住地點(diǎn))的客戶以及過(guò)去的事務(wù)(例如售出的產(chǎn)品以及合同)的數(shù)據(jù)。商場(chǎng)營(yíng)銷部門希望針對(duì)具有相似特點(diǎn)的特定客戶群開(kāi)發(fā)新的定制產(chǎn)品。如何發(fā)現(xiàn)那樣的獨(dú)特用戶群?數(shù)據(jù)集群為這個(gè)問(wèn)題提供了一個(gè)解決方案。它自動(dòng)根據(jù)數(shù)據(jù)集的屬性或特征對(duì)數(shù)據(jù)集進(jìn)行分組。然后,分析師查看這些組,并交互式地對(duì)它們進(jìn)行微調(diào),直到滿足他/她的需要。而市場(chǎng)營(yíng)銷專家將發(fā)現(xiàn),有一群為數(shù)不多、但是在經(jīng)濟(jì)上有重大意義的客戶,他們的年齡超出了平均年齡,不使用 Internet 銀行。根據(jù)這樣的信息,可以為這些客戶開(kāi)發(fā)專門的產(chǎn)品。在分析過(guò)程中,一個(gè)關(guān)鍵的步驟就是讓用戶理解數(shù)據(jù)集群步驟的結(jié)果。專業(yè)的分析師通常并不擅長(zhǎng)低級(jí)的數(shù)據(jù)庫(kù)編程。
如何將數(shù)據(jù)挖掘的結(jié)果交付給需要它的分析師和雇員?如何顯示結(jié)果,以反映用戶所涉及的業(yè)務(wù)流程?如何滿足安全性需求,使每個(gè)用戶只看到他/她應(yīng)該看到的內(nèi)容。對(duì)于這些問(wèn)題,要想給出令人滿意的答案,必須將視角從統(tǒng)計(jì)分析轉(zhuǎn)變到實(shí)際的終端用戶以及他/她所涉及的業(yè)務(wù)流程上來(lái)。InfoSphere Warehouse 是企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的強(qiáng)有力的基礎(chǔ)。InfoSphere Warehouse 直接在存儲(chǔ)數(shù)據(jù)的底層 DB2 數(shù)據(jù)庫(kù)中提供數(shù)據(jù)挖掘功能。整個(gè)數(shù)據(jù)挖掘功能可以通過(guò)一個(gè)容易使用的、基于 Eclipse 的工具平臺(tái)來(lái)訪問(wèn),而且部署任務(wù)可以直接在工具中觸發(fā)。
是報(bào)告解決方案中的領(lǐng)先者之一。在很多公司中,報(bào)告扮演著一個(gè)重要的角色,因?yàn)樗兄谝圆煌姆绞綖椴煌哪繕?biāo)人群合并和可視化相關(guān)信息。報(bào)告的結(jié)果通常是通過(guò)對(duì)存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中的信息應(yīng)用基本的算術(shù)運(yùn)算而得到的(例如,每月的平均銷售額)。對(duì)于高級(jí)的分析,例如上面的例子,則超出了報(bào)告框架的范圍和能力。因此,可以將兩者相結(jié)合,既使用 InfoSphere Warehouse 的可伸縮的、高級(jí)的分析功能,又使用 IBM Cognos 已有的、先進(jìn)的報(bào)告功能。接下來(lái)的小節(jié)展示如何靈活地將 IBM InfoSphere Warehouse Data Mining 與 IBM Cognos 相結(jié)合,以實(shí)現(xiàn)這個(gè)目標(biāo)。這種集成不需要任何復(fù)雜的編程或設(shè)置,只需使用純 DB2 SQL 就能完成。
接下來(lái)的小節(jié)簡(jiǎn)要地介紹 InfoSphere Warehouse 和的基本架構(gòu)。然后將描述如何集成它們。最后,通過(guò)一個(gè)簡(jiǎn)單的、逐步講解的來(lái)自醫(yī)療保健領(lǐng)域的例子來(lái)演示這種集成。這個(gè)系列接下來(lái)的文章將描述這種集成的一些更高級(jí)的技巧和概念。
InfoSphere Warehouse 以 DB2 作為數(shù)據(jù)存儲(chǔ)。它提供了數(shù)據(jù)庫(kù)分區(qū)功能(DPF),以便以可伸縮的、安全的、高性能的方式存儲(chǔ)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),并將在線事務(wù)處理(OLTP)數(shù)據(jù)庫(kù)的優(yōu)點(diǎn)與大型數(shù)據(jù)倉(cāng)庫(kù)的存儲(chǔ)需求相結(jié)合。InfoSphere Warehouse 提供了很多不同的用于倉(cāng)庫(kù)管理和分析的工具。這些分析組件有:
InfoSphere Warehouse Design Studio 是基于 Eclipse 的工具平臺(tái),用于為數(shù)據(jù)挖掘和文本分析設(shè)計(jì)工作負(fù)載規(guī)則、數(shù)據(jù)轉(zhuǎn)換流和分析流。然后,可以將這些流部署到 InfoSphere Warehouse 管理控制臺(tái),以根據(jù)需要進(jìn)行調(diào)度和運(yùn)行。InfoSphere Warehouse 數(shù)據(jù)挖掘是用 DB2 存儲(chǔ)過(guò)程和用戶定義函數(shù)構(gòu)建的,以利用 DB2 作為執(zhí)行環(huán)境,從而獲得高性能的數(shù)據(jù)庫(kù)內(nèi)執(zhí)行。可以通過(guò) SQL 接口或通過(guò) InfoSphere Warehouse 的挖掘流訪問(wèn)它。
數(shù)據(jù)挖掘是一項(xiàng)從大型數(shù)據(jù)集中發(fā)現(xiàn)有用信息的任務(wù)。一個(gè)典型的場(chǎng)景是醫(yī)療保健,本文將用它作為實(shí)例。如今可以收集到大量的衛(wèi)生保健數(shù)據(jù),這些數(shù)據(jù)描述很多不同的病人數(shù)年來(lái)的狀態(tài)。這種數(shù)據(jù)的一個(gè)重要用途是在早期發(fā)現(xiàn)潛伏性疾病的指標(biāo)。例如,出于這個(gè)目的,可以收集患有心臟病的病人的數(shù)據(jù),并分析什么因素與這種疾病有關(guān),例如血壓和體重。這種數(shù)據(jù)必須在收集后進(jìn)行轉(zhuǎn)換,使之能用于數(shù)據(jù)挖掘。更具體而言,需要有一個(gè)表,每個(gè)病人對(duì)應(yīng)于其中的一行記錄,表中有一些列,表示關(guān)于病人的信息。而且,還應(yīng)該有一個(gè)專門的列表明這個(gè)病人是否真正患病。圖 1 顯示了一種可能的模式:

基于這種數(shù)據(jù),InfoSphere Warehouse 中的存儲(chǔ)過(guò)程可以構(gòu)建一個(gè)模型,對(duì)于任何新的病人,該模型可以預(yù)測(cè)他/她是否可能有潛伏性心臟病。這個(gè)過(guò)程稱作 “建模”。這樣得到的 XML 數(shù)據(jù)挖掘模型存儲(chǔ)在數(shù)據(jù)庫(kù)中,可以通過(guò) SQL/XQuery 進(jìn)行訪問(wèn)。這個(gè)模型可用于兩個(gè)目的:首先,可以從這個(gè)模型提取信息,以洞察哪些是心臟病的重要指標(biāo)以及其他統(tǒng)計(jì)信息。其次,可以將該模型自動(dòng)應(yīng)用到新的數(shù)據(jù)記錄上。因此,對(duì)于在心臟病這一列上還沒(méi)有值的任何記錄,可以自動(dòng)添加這個(gè)值,另外再添加一個(gè)表示預(yù)測(cè)的置信度的一個(gè)值。這個(gè)過(guò)程稱作 “評(píng)價(jià)”。圖 2 通過(guò)示意圖顯示了這個(gè)過(guò)程:

InfoSphere Warehouse 幾乎包含目前所有數(shù)據(jù)挖掘算法的極為高效的實(shí)現(xiàn)。要調(diào)用數(shù)據(jù)挖掘,首先要將數(shù)據(jù)寫到一個(gè)表中。然后創(chuàng)建一個(gè)模型,再將這個(gè)模型應(yīng)用到目標(biāo)值尚且未知的記錄上,以產(chǎn)生一個(gè)預(yù)測(cè)和該預(yù)測(cè)的置信度值。所有數(shù)據(jù)挖掘函數(shù)都是作為常規(guī)的 SQL 命令來(lái)調(diào)用的,后面您將看到這一點(diǎn)。這樣便很容易集成到幾乎所有的設(shè)置中,例如 Web 服務(wù)。
IBM Cognos 11 Business Intelligence 提供一套完整的商業(yè)智能(BI)功能,并且基于一個(gè)靈活的面向服務(wù)架構(gòu)(SOA)。它的主要功能有報(bào)告、分析、指示板(dashboard)和計(jì)分卡(scorecarding)。
報(bào)告用于聚合關(guān)于業(yè)務(wù)流程的相關(guān)數(shù)據(jù),并將它分發(fā)給最能從這種特定信息中受益的人。在數(shù)據(jù)挖掘環(huán)境中,這意味著將結(jié)果傳遞給最能從生成的業(yè)務(wù)洞察力中受益的人。
創(chuàng)建和發(fā)布業(yè)務(wù)報(bào)告所需的 Cognos 8 組件有:
要將這種數(shù)據(jù)放入報(bào)告中,需要執(zhí)行兩個(gè)步驟:
能夠從關(guān)系數(shù)據(jù)源創(chuàng)建報(bào)告是 InfoSphere Warehouse 數(shù)據(jù)挖掘與 IBM Cognos 集成的關(guān)鍵。
如前所述,報(bào)告的內(nèi)容由一個(gè)關(guān)系數(shù)據(jù)源交付的一個(gè)結(jié)果集組成。一個(gè)特定報(bào)告的內(nèi)容由針對(duì)一個(gè)或多個(gè)數(shù)據(jù)源的一個(gè)(動(dòng)態(tài)的)SQL 查詢決定。可以通過(guò)以下方式,利用這個(gè)基本的通信模式將數(shù)據(jù)挖掘與 Cognos 報(bào)告集成:
圖 3 總結(jié)了所有這些案例中使用的調(diào)用模式。

可以通過(guò)一個(gè)存儲(chǔ)過(guò)程調(diào)用來(lái)調(diào)用數(shù)據(jù)挖掘,數(shù)據(jù)挖掘?qū)⒃跀?shù)據(jù)庫(kù)中創(chuàng)建一個(gè) XML 挖掘模型。可以根據(jù)新的數(shù)據(jù)記錄這個(gè)模型,或者將模型信息提取到一個(gè)表中。然后,Cognos 可以使用這些表。從 Cognos 報(bào)告中,用戶可以通過(guò)調(diào)用數(shù)據(jù)庫(kù)上相應(yīng)的存儲(chǔ)過(guò)程,交互式地調(diào)用數(shù)據(jù)挖掘。
這種集成帶來(lái)了很多好處:
接下來(lái)的小節(jié)是這種集成的一個(gè)逐步講解的例子,這也是最簡(jiǎn)單的例子:對(duì)數(shù)據(jù)庫(kù)中的記錄進(jìn)行評(píng)價(jià),并將結(jié)果顯示在一個(gè) Cognos 報(bào)告中。模型信息的提取和從 Cognos 中對(duì)數(shù)據(jù)挖掘的動(dòng)態(tài)調(diào)用將在本系列接下來(lái)的文章中談到。
這個(gè)例子分析一家醫(yī)院的病人數(shù)據(jù)。這家醫(yī)院的心臟科有他們的病人的主記錄,以及一些度量指標(biāo),例如心率、血壓、膽固醇等。這家醫(yī)院針對(duì)四種不同的心臟病對(duì)病人進(jìn)行檢查。病人的記錄中有一個(gè)列表明他們是否患有四種心臟病之一,y 表示是,n 表示否。圖 1 中描繪了相應(yīng)的心臟病數(shù)據(jù)庫(kù)表。這個(gè)表可以在 InfoSphere Warehouse 附帶的例子中找到。
分析的目標(biāo)是預(yù)測(cè)新的病人患上這四種心臟病之一的風(fēng)險(xiǎn)。如果風(fēng)險(xiǎn)較高,則應(yīng)該立即進(jìn)行體檢。
這里啟用了風(fēng)險(xiǎn)管理,雖然沒(méi)有針對(duì)這四種心臟病之一做過(guò)專門的檢查,但是已經(jīng)從一些早期的在其他地方做的體檢得到度量指標(biāo)。
首先,基于 HEART 表創(chuàng)建一個(gè)預(yù)測(cè)模型,通過(guò)該模型可以預(yù)測(cè)病人患上心臟病的風(fēng)險(xiǎn)。
創(chuàng)建一個(gè) Data Warehouse 項(xiàng)目:
右鍵單擊 Project Explorer,并選擇 New > Data Warehouse Project(如下面的圖 4 所示)。

在接下來(lái)的向?qū)е校斎腠?xiàng)目名稱,例如:AdvancedAnalytics。然后單擊 Finish。
創(chuàng)建一個(gè)空的挖掘流:
創(chuàng)建挖掘流:
這時(shí)會(huì)打開(kāi) Mining Flow 編輯器。在挖掘編輯器的右側(cè)可以看到一個(gè)面板,其中有一些操作符(見(jiàn)圖 5)。可以通過(guò)將這些操作符拖放到編輯器畫布上來(lái)構(gòu)建一個(gè)挖掘流。

為了創(chuàng)建用于預(yù)測(cè)病人患病風(fēng)險(xiǎn)的挖掘模型,可遵循以下步驟:
現(xiàn)在,挖掘流已經(jīng)可以執(zhí)行了。
執(zhí)行挖掘流:
可以執(zhí)行整個(gè)挖掘流編輯器,或者通過(guò)右鍵單擊一個(gè)操作符并選擇 Run to this step… 只執(zhí)行挖掘流中特定的路徑。在這個(gè)場(chǎng)景中,右鍵單擊 Tester 操作符,選擇 Run to this step…,然后單擊 Finish。這個(gè)流生成一個(gè)模型,該模型預(yù)測(cè)患上心臟病的風(fēng)險(xiǎn),并將它存儲(chǔ)在數(shù)據(jù)庫(kù)中。先在 80% 的數(shù)據(jù)上對(duì)它進(jìn)行訓(xùn)練,然后在剩下的數(shù)據(jù)上對(duì)它進(jìn)行測(cè)試。這樣可以估計(jì)該模型在新數(shù)據(jù)上執(zhí)行的效果。這里只需右鍵單擊 Tester 操作符的 Test Result 端。您也可以看看模型本身。為此,右鍵單擊 Predictor 操作符的 Model 端。
評(píng)價(jià)是指將之前經(jīng)過(guò)學(xué)習(xí)的模型應(yīng)用到新數(shù)據(jù)上。新的數(shù)據(jù)沒(méi)有分類別(這里是指還沒(méi)有做過(guò)心臟病檢查),評(píng)價(jià)過(guò)程根據(jù)挖掘模型將一個(gè)預(yù)測(cè)賦給每個(gè)新的記錄。
為評(píng)價(jià)創(chuàng)建一個(gè)新的挖掘流:
執(zhí)行與創(chuàng)建新的挖掘流中相同的步驟,但是為它提供另一個(gè)名稱,例如 Classify New Patients。
創(chuàng)建評(píng)價(jià)流:
為了創(chuàng)建用于對(duì)新病人分類的評(píng)價(jià)流,可執(zhí)行以下步驟:
執(zhí)行這個(gè)流后,下方的視圖會(huì)顯示有評(píng)價(jià)信息的表中的示例數(shù)據(jù)(見(jiàn)圖 6)。如果向右滾動(dòng),可以看到 scorer 添加的兩個(gè)列。

第一個(gè)附加的列 PREDICTED_CLASS 包含預(yù)測(cè)。它表明挖掘模型將當(dāng)前病人歸為哪種類型,將患上(y)還是不會(huì)患上(n)這種病。第二個(gè)附加的列 CLASS_CONFIDENCE 包含介于 0 到 1 之間的數(shù)字,它表明 scorer(根據(jù)模型)對(duì)于預(yù)測(cè)有多大的確定性。1 表示 “100% 確信預(yù)測(cè)的類別是正確的”。
在使用挖掘結(jié)果創(chuàng)建報(bào)告之前,需要定義應(yīng)該使用哪些資源(數(shù)據(jù)庫(kù)、表或視圖???。Framework Manager 還允許通過(guò)定義連接和新列(用表達(dá)式)來(lái)增加數(shù)據(jù)源。
這個(gè)簡(jiǎn)單的例子創(chuàng)建一個(gè) Cognos Framework Manager 報(bào)告。定義有評(píng)價(jià)信息的結(jié)果表,并發(fā)布元數(shù)據(jù)。
打開(kāi) Framework Manager 并創(chuàng)建一個(gè)新項(xiàng)目:

在 Project Viewer 的左側(cè),可以瀏覽新創(chuàng)建的項(xiàng)目。現(xiàn)在,定義一個(gè)附加列,以組合評(píng)價(jià)流創(chuàng)建的 2 個(gè)預(yù)測(cè)列的洞察力。其思想是以一種容易理解的方式為醫(yī)生提供挖掘出的洞察力。
為此,執(zhí)行以下步驟:

IF ( [DWESAMP].[NEW_PATIENT_CLASSIFICATION].[PREDICTED_CLASS] = 'y')
THEN (IF ([DWESAMP].[NEW_PATIENT_CLASSIFICATION].[CLASS_CONFIDENCE]>0.83)
THEN('necessary') ELSE('maybe'))
ELSE (IF([DWESAMP].[NEW_PATIENT_CLASSIFICATION].[CLASS_CONFIDENCE] > 0.9)
THEN('not necessary')
ELSE('maybe'))

創(chuàng)建一個(gè)包并發(fā)布它:
Cognos Report Studio 是一個(gè)完全基于 Web 的應(yīng)用程序。可以通過(guò)從桌面雙擊 Internet Explorer 圖標(biāo)(左上角)啟動(dòng) Report Studio。
為創(chuàng)建一個(gè)簡(jiǎn)單的挖掘報(bào)告,必須執(zhí)行以下步驟:

圖 11 顯示最后的報(bào)告。最右邊的列顯示風(fēng)險(xiǎn)類別。

本文描述了可以將 InfoSphere 數(shù)據(jù)挖掘簡(jiǎn)單地集成到 報(bào)告中的基本架構(gòu)。集成對(duì)于接受數(shù)據(jù)挖掘有重要的影響,因?yàn)榻Y(jié)果的使用者不必知道關(guān)于挖掘過(guò)程的任何細(xì)節(jié)。本文提供了源于衛(wèi)生保健部門的一個(gè)實(shí)用的例子,這個(gè)例子展示了如何通過(guò)很少的開(kāi)發(fā)實(shí)現(xiàn)簡(jiǎn)單的集成。
除此之外,還有其他可能性。接下來(lái)的文章將討論一些更高級(jí)的話題,例如鉆取、framework manager 中度量指標(biāo)的使用以及從 Cognos 報(bào)告中動(dòng)態(tài)調(diào)用數(shù)據(jù)挖掘。
詳情請(qǐng)咨詢!
客服熱線:023-66090381
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@ke049m.cn