原創(chuàng)|行業(yè)資訊|編輯:陳俊吉|2016-10-11 10:04:01.000|閱讀 431 次
概述:Apache Hadoop 2.0正式發(fā)布,這是Hadoop領域巨大的里程碑,因為它開啟了史無前例的數(shù)據(jù)存儲方式革命。Hadoop保留它典型的“大數(shù)據(jù)”基礎技術,但它是否適合當下數(shù)據(jù)庫及數(shù)據(jù)倉庫的使用方式?又是否有一種通用模式可以切實降低固有的使用復雜性呢?
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
正式發(fā)布,這是Hadoop領域巨大的里程碑,因為它開啟了史無前例的數(shù)據(jù)存儲方式革命。Hadoop保留它典型的“”基礎技術,但它是否適合當下數(shù)據(jù)庫及數(shù)據(jù)倉 庫的使用方式?又是否有一種通用模式可以切實降低固有的使用復雜性呢?
Hadoop使用的一般模式
Hadoop最初的構想是為像Yahoo、Google、Facebook等這樣的公司以非常低的成本來解決大量數(shù)據(jù)的存儲問題。現(xiàn)在,它正被越來 越多地引入企業(yè)環(huán)境中處理新不同數(shù)據(jù)類型。機器生成的數(shù)據(jù)、傳感器數(shù)據(jù)、社交數(shù)據(jù)、網(wǎng)絡日志等數(shù)據(jù)類型呈指數(shù)級增長,而且這些數(shù)據(jù)也常常(但不總是)是非 結構化。正是由于這種類型的數(shù)據(jù)將人機對話從“數(shù)據(jù)分析”帶到“”:因為挖掘這些數(shù)據(jù)可以得到商業(yè)優(yōu)勢。
分析應用程序以各種形式流行起來,最重要的是可以定向解決一個垂直行業(yè)的需要。乍一看,他們彼此似乎在行業(yè)和垂直上沒有關系,但是實際上,當在基礎設施層面觀察時,會出現(xiàn)一些非常清晰的模式,也就是以下3種模式:
Pattern 1:數(shù)據(jù)精煉廠
使用Hadoop的“數(shù)據(jù)精煉廠”模式使組織能夠將這些新數(shù)據(jù)源納入他們常用BI和分析應用程序。例如,我可能有一個應用程序,它能夠在ERP和CRM系統(tǒng)中查看客戶建立在上面的數(shù)據(jù)。但是如何才能從他們的web session(基于我們網(wǎng)站)中發(fā)現(xiàn)他們的興趣所在?“數(shù)據(jù)精煉廠”,這個使用模式正是顧客期望的。
這里的關鍵概念是Hadoop是被用來提取大量數(shù)據(jù)以便更容易管理。然后生成的數(shù)據(jù)被加載到現(xiàn)有數(shù)據(jù)系統(tǒng),這些數(shù)據(jù)可以使用傳統(tǒng)的工具訪問,但是別 忘了,這些操作都是建立在更豐富的數(shù)據(jù)集上。從某些方面來說,這是最簡單的用例,因為無需對傳統(tǒng)途徑進行大的修改,企業(yè)就可以清晰的從Hadoop上獲 益。無論垂直與否,精煉廠概念仍然適用。在金融服務領域,我們看到組織提煉交易數(shù)據(jù)以便更好地了解市場,分析和從復雜的組合中尋找價值。
能源公司使用大數(shù)據(jù)來分析不同地區(qū)的消費水平以便更好地預測生產(chǎn)水平。零售企業(yè)(任何面向消費者組織)經(jīng)常使用精煉廠來洞察網(wǎng)絡人氣。電信公司使用精煉廠調(diào)用電話記錄來提 取有用信息細節(jié)以便優(yōu)化計費方式。最后,在昂貴的,任務關鍵的垂直設備上,我們常常發(fā)現(xiàn)Hadoop被用來預測分析和主動的故障識別。在通信技術中,這可 能是一個網(wǎng)絡的基站。特許經(jīng)營餐廳中可以用來監(jiān)控冷藏庫的數(shù)據(jù)。
Pattern 2: 用Apache Hadoop來探索數(shù)據(jù)
第二個最常見的用例我們稱之為“數(shù)據(jù)探索”。在這種情況下,組織在Hadoop上獲取和存儲大量的新數(shù)據(jù),然后直接探索這些數(shù)據(jù)。因此不是使用 Hadoop作為暫存區(qū)域進行處理然后將數(shù)據(jù)轉移到企業(yè)數(shù)據(jù)倉庫(就像使用精煉廠用例一樣),數(shù)據(jù)是保存在Hadoop上然后直接探索。
數(shù)據(jù)探索用例通常是在企業(yè)開始可以探索以前被丟棄的數(shù)據(jù)(如網(wǎng)絡日志,社交媒體數(shù)據(jù)等等)并構建全新的分析應用程序然后直接使用這些數(shù)據(jù)。
幾乎每一個垂直系統(tǒng)都可以享受到探索用例的優(yōu)越性。在金融服務領域,我們可以用探索用例來執(zhí)行取證或識別欺詐。職業(yè)體育團隊將利用數(shù)據(jù)科學來分析交易和年 度草案,就像我們在電影《Moneyball》看到的。總之數(shù)據(jù)科學和探索可以用來發(fā)現(xiàn)新的商業(yè)機會或新的見解,這在Hadoop之前是不可能實現(xiàn)的。
Pattern 3: 挖掘應用程序
第三個也是最后一個用例是“挖掘應用程序”。在這種情況下,存儲在Hadoop中的數(shù)據(jù)決定了應用程序的用途。例如,通過挖掘存儲的所有網(wǎng) 絡會話數(shù)據(jù),當用戶重返網(wǎng)站時,我們可以為他們定制個性體驗。通過挖掘Hadoop中存儲的這些數(shù)據(jù),我們可以從會話歷史找到很多有用的價值。比如通過用 戶的歷史記錄來提供一個及時反饋。
這個用例是世界上許多大型網(wǎng)站如Yahoo、Facebook等業(yè)務的基礎。通過定制的用戶體驗,他們可以有效與他們的競爭對手區(qū)分。這是雅虎Hadoop的第二個用例,就如當初它意識到Hadoop能夠幫助改善廣告位置一樣。這個概念轉變了大型的網(wǎng)站,同時也正在使傳統(tǒng)的企業(yè)改善銷售,而一些小組織甚至也使用這些概念在零售網(wǎng)點實現(xiàn)動態(tài)定價。
正如你所預料的那樣,隨著組織熟悉在Hadoop上提煉和探索數(shù)據(jù),最后的這種最典型的用例正在被普遍采用或接受。但與此同時,這也暗示了今后Hadoop能做什么,并且隨著時間的推移和發(fā)展,傳統(tǒng)的數(shù)據(jù)庫應用程序將逐漸被Hadoop應用程序取代。
當然任何涉及到新平臺技術,在進入IT企業(yè)環(huán)境時都有一定的復雜性,Hadoop也不例外。無論你是使用Hadoop來改進或是探 索,還是豐富你的數(shù)據(jù),與現(xiàn)有IT基礎架構的兼容將是關鍵。這就是為什么目前Hadoop生態(tài)系統(tǒng)和能集成不同供應商之間解決方案得以顯著增長。 Hadoop有潛力在企業(yè)數(shù)據(jù)領域產(chǎn)生深遠影響,通過理解常見的使用模式,您將可以極大地減少其復雜性。
詳情請咨詢!
客服熱線:023-66090381
本站文章除注明轉載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@ke049m.cn