原創(chuàng)|大數(shù)據(jù)新聞|編輯:鄭恭琳|2020-09-07 10:21:08.783|閱讀 283 次
概述:分布式消息系統(tǒng)是用于構(gòu)建實(shí)時(shí)數(shù)據(jù)管道和流應(yīng)用程序。具有橫向擴(kuò)展、容錯(cuò)、速度快等優(yōu)點(diǎn)。分布式流處理框架是一種構(gòu)建在分布式計(jì)算框架上的實(shí)時(shí)計(jì)算處理框架,它擴(kuò)展了分布式計(jì)算框架處理大規(guī)模流式數(shù)據(jù)的能力。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關(guān)鏈接:
GetInsight是慧都自主研發(fā)、應(yīng)用最靈活的大數(shù)據(jù)平臺。能夠幫助您隨時(shí)找到您想要的數(shù)據(jù),使數(shù)據(jù)得到安全、穩(wěn)定和高效的管理與應(yīng)用。GetInsight是企業(yè)大數(shù)據(jù)解決方案的重要組成部分,除了提供完整的大數(shù)據(jù)功能組件,我們還提供組件自定義搭配,為企業(yè)選擇滿足方案需要的大數(shù)據(jù)功能組件,使您的大數(shù)據(jù)解決方案成本降到最低,從而高品質(zhì)的解決您的大數(shù)據(jù)需求問題。
了解什么是GetInsight,請點(diǎn)擊這里查看GetInsight的基礎(chǔ)介紹>>
本文主要跟大家介紹GetInsight的分布式消息系統(tǒng)和分布式流處理框架。

分布式消息系統(tǒng)是一個(gè)分布式消息隊(duì)列:生產(chǎn)者、消費(fèi)者的功能。它提供了類似于JMS的特性,但是在設(shè)計(jì)實(shí)現(xiàn)上完全不同,此外它并不是JMS規(guī)范的實(shí)現(xiàn)。
分布式消息系統(tǒng)是用于構(gòu)建實(shí)時(shí)數(shù)據(jù)管道和流應(yīng)用程序。具有橫向擴(kuò)展、容錯(cuò)、速度快等優(yōu)點(diǎn)。
分布式消息系統(tǒng)對消息保存時(shí)根據(jù)主題進(jìn)行歸類,發(fā)送消息者成為生產(chǎn)者,消息接受者成為消費(fèi)者,此外分布式消息系統(tǒng)集群有多個(gè)實(shí)例組成,每個(gè)實(shí)例(server)成為broker。無論是分布式消息系統(tǒng)集群,還是生產(chǎn)者和消費(fèi)者都依賴于分布式協(xié)調(diào)工具來保證系統(tǒng)可用性集群保存一些meta信息。
GetInsight分布式消息系統(tǒng)的特性
GetInsight分布式消息系統(tǒng)的功能
在大數(shù)據(jù)平臺上,分布式消息系統(tǒng)主要是用來處理實(shí)時(shí)流數(shù)據(jù),作為一個(gè)消息中間件來使用,用來接收其他組件或服務(wù)實(shí)時(shí)產(chǎn)生的消息數(shù)據(jù),這可以是大量的,產(chǎn)生的速度也可以是很快的,分布式消息系統(tǒng)提供了主題的概念,它會根據(jù)消息的主題分類存儲起來,提供了持久化機(jī)制,容錯(cuò)機(jī)制,處理的速度效率非常快。然后結(jié)合大數(shù)據(jù)平臺上其他的組件如分布式流處理框架來對消息系統(tǒng)上的消息進(jìn)行消費(fèi)。消費(fèi)的處理是在消費(fèi)者角色端進(jìn)行。
GetInsight分布式消息系統(tǒng)的應(yīng)用場景
日志收集,分布式消息系統(tǒng)可以收集各種服務(wù)的log,通過消息系統(tǒng)以統(tǒng)一接口服務(wù)的方式開放給各種consumer,例如Hadoop、Hbase、Solr等。
運(yùn)營指標(biāo):Kafka也經(jīng)常用來記錄運(yùn)營監(jiān)控?cái)?shù)據(jù)。包括收集各種分布式應(yīng)用的數(shù)據(jù),生產(chǎn)各種操作的集中反饋,比如報(bào)警和報(bào)告。
作為一個(gè)大量的,高吞吐量的數(shù)據(jù)采集系統(tǒng)的數(shù)據(jù)緩沖,因?yàn)楫?dāng)信息采集平臺將這些變化的數(shù)據(jù)信息寫入或更新到數(shù)據(jù)庫時(shí)候,會給數(shù)據(jù)庫代理非常大的壓力,甚至可以直接將數(shù)據(jù)庫掛掉。所以就可以使用分布式消息系統(tǒng)來作為一個(gè)中間件,對實(shí)時(shí)的大量的數(shù)據(jù)進(jìn)行緩沖,然后再寫入到數(shù)據(jù)庫中。
數(shù)據(jù)中心處理過的數(shù)據(jù)需要實(shí)時(shí)共享給幾個(gè)不同的機(jī)構(gòu)。我們常采用的方法是將數(shù)據(jù)批量存放在數(shù)據(jù)采集機(jī),分支機(jī)構(gòu)定時(shí)來采集;或是分支機(jī)構(gòu)通過JDBC、RPC、HTTP或其他機(jī)制實(shí)時(shí)從數(shù)據(jù)中心獲取數(shù)據(jù)。這兩種方式都存在一定的問題,前者在于實(shí)時(shí)性不足,還牽涉到數(shù)據(jù)完整性問題;后者在于,當(dāng)數(shù)據(jù)量很大的時(shí)候,多個(gè)分支機(jī)構(gòu)同時(shí)讀取數(shù)據(jù),會對數(shù)據(jù)中心的造成很大的壓力,也造成很大的資源浪費(fèi)。所以也可以用到分布式消息系統(tǒng)來解決這兩個(gè)問題。
分布式流處理框架是一種構(gòu)建在分布式計(jì)算框架上的實(shí)時(shí)計(jì)算處理框架,它擴(kuò)展了分布式計(jì)算框架處理大規(guī)模流式數(shù)據(jù)的能力。
分布式流處理框架在內(nèi)部的處理機(jī)制是:接收實(shí)時(shí)流的數(shù)據(jù),并根據(jù)一定的時(shí)間間隔拆分成一批批的數(shù)據(jù),然后通過分布式計(jì)算框架處理這些批數(shù)據(jù),最終得到處理后的一批批結(jié)果數(shù)據(jù)。對應(yīng)的批數(shù)據(jù),在計(jì)算框架內(nèi)核對應(yīng)一個(gè)RDD實(shí)例,因此,對應(yīng)流數(shù)據(jù)的DStream可以看成是一組RDDs,即RDD的一個(gè)序列。通俗點(diǎn)理解的話,在流數(shù)據(jù)分成一批一批后,通過一個(gè)先進(jìn)先出的隊(duì)列,然后分布式計(jì)算框架從該隊(duì)列中依次取出一個(gè)個(gè)批數(shù)據(jù),把批數(shù)據(jù)封裝成一個(gè)RDD,然后進(jìn)行處理。
分布式流處理框架對數(shù)據(jù)的處理其實(shí)并不是真正意義上的實(shí)時(shí),并不是真正來一條數(shù)據(jù)就處理一條數(shù)據(jù),而是根據(jù)分隔的時(shí)間片(例如1秒鐘)來做到的準(zhǔn)實(shí)時(shí),把每一個(gè)時(shí)間片內(nèi)到達(dá)的數(shù)據(jù)看做一組數(shù)據(jù)進(jìn)行處理。所以,分布式流處理框架能做到的就是在秒級別的實(shí)時(shí)相應(yīng)。
GetInsight分布式流處理框架的特性
GetInsight分布式流處理框架的功能
對數(shù)據(jù)來源的實(shí)時(shí)流數(shù)據(jù)進(jìn)行實(shí)時(shí)的處理,通過設(shè)置時(shí)間間隔的方式來滿足不同業(yè)務(wù)需求對實(shí)時(shí)性的不同要求,間隔設(shè)置得越小,實(shí)時(shí)性就會越高。但是數(shù)據(jù)的處理是需要時(shí)間的,雖然分布式流處理框架的數(shù)據(jù)處理能力非常強(qiáng),而且處理的速度特別快,但是當(dāng)數(shù)據(jù)量大到一定程度,也是需要時(shí)間來處理的,所以這個(gè)時(shí)間間隔設(shè)置得需要合理,不能夠太短,太短就會導(dǎo)致異常。
GetInsight分布式流處理框架的應(yīng)用場景
分布式流處理技術(shù)應(yīng)用場景主要體現(xiàn)在三個(gè)大的方面:實(shí)時(shí)營銷、實(shí)時(shí)服務(wù)、實(shí)時(shí)監(jiān)控以及實(shí)時(shí)同步應(yīng)用場景。
實(shí)時(shí)營銷:根據(jù)特定消費(fèi)者當(dāng)前的個(gè)性需求,為其提供商品,該商品在被消費(fèi)過程中可自動收集顧客信息,分析、了解消費(fèi)者的偏好和習(xí)慣,自動調(diào)整產(chǎn)品功能,實(shí)時(shí)地適應(yīng)消費(fèi)者變化著的需求,金融、電商以及廣告等行業(yè)有較多應(yīng)用場景體現(xiàn)。金融:根據(jù)客戶信用卡消費(fèi)記錄,掌握客戶的消費(fèi)習(xí)慣和偏好,預(yù)測客戶未來的消費(fèi)需求,并為其推薦個(gè)性化的金融產(chǎn)品。電商:根據(jù)電商平臺用戶瀏覽商品的分類、價(jià)格區(qū)間、品牌等因素對用戶進(jìn)行個(gè)性化推薦促成交易。廣告:根據(jù)客戶的查詢偏好、瀏覽歷史、地理位置等綜合語義決定插入什么廣告、在什么位置插入這些廣告能得到最佳效果。電商平臺、非電商業(yè)務(wù)系統(tǒng)以及外部數(shù)據(jù)共同描繪出用戶畫像,當(dāng)用戶訪問電商網(wǎng)站、電商APP等觸點(diǎn)時(shí),根據(jù)用戶畫像為用戶進(jìn)行商品、商戶等個(gè)性化實(shí)時(shí)推薦。再根據(jù)用戶操作進(jìn)行推薦算法以及畫像修正。
實(shí)時(shí)服務(wù):對消費(fèi)者動態(tài)需求的快速反應(yīng),隨時(shí)滿足消費(fèi)者在消費(fèi)過程中新產(chǎn)生的需求,提高消費(fèi)者的滿意程度,培養(yǎng)消費(fèi)者對企業(yè)的忠誠度并提升企業(yè)的競爭力,社交、電信以及交通等行業(yè)有較多應(yīng)用場景體現(xiàn)。社交:實(shí)時(shí)分析用戶的狀態(tài)信息,及時(shí)提供最新的用戶分享信息到相關(guān)的朋友,準(zhǔn)確地推薦朋友,推薦主題,提升用戶體驗(yàn),并能及時(shí)發(fā)現(xiàn)和屏蔽各種欺騙行為。交通:實(shí)時(shí)接收用戶使用手機(jī)軟件發(fā)送的約車請求,司機(jī)根據(jù)約車請求進(jìn)行接單(或派單),到達(dá)目的地后進(jìn)行實(shí)時(shí)結(jié)算服務(wù)。電信:用戶流量、資費(fèi)實(shí)時(shí)統(tǒng)計(jì)做到個(gè)性化提醒服務(wù);套餐、終端、閱讀、動漫等根據(jù)用戶畫像進(jìn)行個(gè)性化推薦服務(wù)。由于打車服務(wù)是典型的基于LBS(地理位置實(shí)時(shí)定位系統(tǒng))的應(yīng)用,實(shí)時(shí)性要求高且用戶請求服務(wù)器并發(fā)量大。司機(jī)每隔幾秒鐘上報(bào)一次經(jīng)緯度,乘客發(fā)單時(shí),圈選出附近司機(jī),將訂單推送給司機(jī),司機(jī)接單,開始服務(wù)。
實(shí)時(shí)監(jiān)控:實(shí)時(shí)監(jiān)控一般是指利用軟件或硬件采集信息,并用采集到的信息對系統(tǒng)、環(huán)境、硬件等運(yùn)行狀態(tài)進(jìn)行實(shí)時(shí)的監(jiān)控。制造:對機(jī)械運(yùn)行狀態(tài)信息進(jìn)行實(shí)時(shí)監(jiān)控,分析出可能產(chǎn)生問題的部件進(jìn)行預(yù)警。交通:通過傳感器實(shí)時(shí)感知車輛、道路的狀態(tài),并分析和預(yù)測一定范圍、一段時(shí)間內(nèi)的道路流量情況,以便有效地進(jìn)行分流、調(diào)度和指揮。金融:信用卡詐騙、保險(xiǎn)詐騙、證券交易詐騙、程序交易等需要實(shí)時(shí)跟蹤發(fā)現(xiàn)。
實(shí)時(shí)同步:對一些異構(gòu)數(shù)據(jù)庫之間進(jìn)行實(shí)時(shí)數(shù)據(jù)同步,當(dāng)然,需要用到分布式流處理框架的實(shí)時(shí)同步一般是產(chǎn)生數(shù)據(jù)量比較快,數(shù)據(jù)量很大的情況下,由于傳統(tǒng)的同步方法一試沒有消息中間件來緩沖大量的數(shù)據(jù),而是對數(shù)據(jù)類型的轉(zhuǎn)換需要時(shí)間,不能滿足實(shí)時(shí)性的要求,所以就可以用到分布式流處理框架結(jié)合分布式消息系統(tǒng)來滿足。消息系統(tǒng)負(fù)責(zé)緩沖實(shí)時(shí)數(shù)據(jù),流處理框架負(fù)責(zé)處理實(shí)時(shí)數(shù)據(jù),進(jìn)行類型轉(zhuǎn)換計(jì)算等,然后寫入到目標(biāo)數(shù)據(jù)庫或者文件中,由于分布式流處理框架是基于分布式就算框架的,而分布式計(jì)算框架是基于內(nèi)存的,且是分布式運(yùn)行,多以速度非常快,能夠滿足實(shí)時(shí)性要求,所以,分布式流處理框架也可以用來做實(shí)時(shí)同步工具。

關(guān)于慧都大數(shù)據(jù)分析平臺
慧都大數(shù)據(jù)分析平臺「GetInsight®」升級發(fā)布,將基于企業(yè)管理駕駛艙、產(chǎn)品質(zhì)量分析及預(yù)測、設(shè)備分析及預(yù)測等大數(shù)據(jù)模型的構(gòu)建,助力企業(yè)由傳統(tǒng)運(yùn)營模式向數(shù)字化、智能化的新模式轉(zhuǎn)型升級,抓住數(shù)據(jù)經(jīng)濟(jì)的發(fā)展勢頭,提供管理效能,精準(zhǔn)布局未來。了解更多,請聯(lián)系。
慧都大數(shù)據(jù)專業(yè)團(tuán)隊(duì)為企業(yè)提供商業(yè)智能大數(shù)據(jù)平臺搭建,免費(fèi)業(yè)務(wù)咨詢,定制開發(fā)等完整服務(wù),快速、輕松、低成本將任何Hadoop集群從試用階段轉(zhuǎn)移到生產(chǎn)階段。
歡迎撥打慧都熱線023-68661681或咨詢慧都在線客服,我們有專業(yè)的大數(shù)據(jù)團(tuán)隊(duì),為您提供免費(fèi)大數(shù)據(jù)相關(guān)業(yè)務(wù)咨詢!
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@ke049m.cn