Apache Sqoop是用于Apache Hadoop與結(jié)構(gòu)化數(shù)據(jù)存儲之間的數(shù)據(jù)傳輸工具。
標(biāo)簽:開發(fā)商: Apache
當(dāng)前版本: v1.4.6
產(chǎn)品類型:控件
產(chǎn)品功能:數(shù)據(jù)庫工具
平臺語言:
開源水平:不提供源碼
本產(chǎn)品的分類與介紹僅供參考,具體以商家網(wǎng)站介紹為準(zhǔn),如有疑問請來電 023-68661681 咨詢。
* 關(guān)于本產(chǎn)品的分類與介紹僅供參考,精準(zhǔn)產(chǎn)品資料以官網(wǎng)介紹為準(zhǔn),如需購買請先行測試。
可以通過Hadoop的Mapreduce把數(shù)據(jù)從關(guān)系型數(shù)據(jù)庫導(dǎo)入數(shù)據(jù)到HDFS。
Sqoop在import時,需要制定split-by參數(shù)。Sqoop根據(jù)不同的split-by參數(shù)值來進行切分,然后將切分出來的區(qū)域分配到不同map中。每個map中再處理數(shù)據(jù)庫中獲取的一行一行的值,寫入到HDFS中。同時split-by根據(jù)不同的參數(shù)類型有不同的切分方法,如比較簡單的int型,Sqoop會取最大和最小split-by字段值,然后根據(jù)傳入的num-mappers來確定劃分幾個區(qū)域。 比如select max(split_by),min(split-by) from得到的max(split-by)和min(split-by)分別為1000和1,而num-mappers為2的話,則會分成兩個區(qū)域(1,500)和(501-100),同時也會分成2個sql給2個map去進行導(dǎo)入操作,分別為select XXX from table where split-by>=1 and split-by<500和select XXX from table where split-by>=501 and split-by<=1000。最后每個map各自獲取各自SQL中的數(shù)據(jù)進行導(dǎo)入工作。


更新時間:2016-01-25 16:58:48.000 | 錄入時間:2016-01-25 16:56:43.000 | 責(zé)任編輯:陳俊吉