大資料Hive倉庫是什麼?

2025-03-13 07:10:23 字數 2771 閱讀 4139

1樓:羊羊

hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映成一信褲張表,和沒並提供類sql查詢功能;其本質是將hql轉化成mapreduce程式。

構建在hadoop之上的資料倉儲:

使用hql作為查詢介面。

使用hdfs儲存。

使用mapreduce計算。

靈活性和擴充套件性滑棚簡比較好:支援udf,自定義儲存格式等:

適合離線資料處理。

2樓:會一直愛小羅

hive是基於 hadoop 的乙個 資料棗運倉庫 工具,用來進行資料提吵巖搏取、轉化、載入,這是一種可以儲存、公升祥查詢和分析儲存在hadoop中的大規模資料的機制。

3樓:匿名使用者

hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映殲悉為一張資料庫表,並提供簡單的sql查詢功能,可以將或睜sql語句轉換為mapreduce任務進行執行。其優點是學習成本低,可以通過類sql語句衫改歲快速實現簡單的mapreduce統計,不必開發專門的ma...

4樓:楠楠

麼是hive——大資料倉儲hive基礎 hive是什麼: hive是基於hadoop的乙個資料倉儲彎局工具,可以將結構宴雀化的資料檔案對映成一張表,並提供類埋祥讓sql查詢功能;其本質是將hq

資料倉儲hive

5樓:天羅網

乙個公司裡面不同專案可能用到不同的資料來源,有的存在mysql裡面,又的存在mongodb裡面,甚至還有些要做第三方資料。

但是現在又想把資料整合起來,進行資料分析。此時資料倉儲(data warehouse,dw)就派上用場了。它可以對多種業務資料進行篩選和整合,可以鉛埋梁用於資料分析、資料探勘、資料包表。

總的來說,資料倉儲是將多個資料來源的資料按照一定的主題整合起來,因為之前的資料各不相同,所以需要抽取、清洗、轉換

整合以後的資料不允許隨便修改,只能分析,還需要定期更新。

上面我們說過,資料倉儲接收的資料來源是不同的,要做整合的話,需要抽取、清洗、轉換三個步驟,這就是 etl (extract-transform-load)

國內最常用的是一款基於hadoop的開源資料倉儲,名為 hive ,它可以對儲存在hdfs的檔案資料進行查詢、分析

hive對外可以提供hiveql,這是類似於sql語言的一種查詢語言。在查詢時可以將hiveql語句轉換為mapreduce任務,在hadoop層進行執行。

hive的最大優勢在於免費,那其他知名的商業資料倉儲有那些呢?比如oracle,db2,其中業界老大是 teradata

teradata資料倉儲支援大規模並行處理平臺(mpp),可以高速處理海量實際上,效能遠遠高於hive。對企業來說,只需要專注於業務,節省管理技術方面的精力,實現roi(槐運投資回報率)最大化。

上面提到了hive是最著名的開源資料倉儲,它是hadoop生態中乙個重要的元件。

hadoop的生態中,hdfs解決了分散式儲存的問題,mapreduce解決了分散式計算的問題,而hbase則提供了一種nosql的儲存方法。

但是如果需要的hdfs上的檔案或者hbase的表進行查詢,需要自定義mapreduce方法。那麼hive其實就是在hdfs上面的一箇中間層,它可以讓業務人員直接使用sql進行查詢。

所以hive是用進行資料提取轉換載入的,而且它可以把sql轉換為mapreduce任務,而hive的表就是hdfs的目錄或者文液亂件。

上圖為hive的體系結構。

hive主要包含以下幾種資料模型:

本文為 什麼是資料倉儲? 的筆記。

如何用hive「傻瓜式」搭建資料倉儲

6樓:大過年沒人啊

構建乙個真正的資料倉儲可能是乙個龐大的工程。有許多不同的裝置、方法和理論。最大的共同價值是什麼?

事實是什麼,哪些主題與這些事實相關?以及您如何混合、匹配、合併和整合可能已存在數十年的系統與僅在幾個月前實現的系統?這還是在大資料和 hadoop 之前。

將非結構化、資料、nosql 和 hadoop 新增到組合中,您很快就會得到乙個龐大的資料整合專案。

描述乙個資料倉儲的最簡單方式是,認識到可以將它歸結為星形模式、事實和維度。您如何建立這些元素,決定權在您手上 — 通過暫存資料庫;動態提取、轉換、載入流程;或者整合輔助索引。當然,您可以構建乙個包含星形模式、事實和維度的資料倉儲,使用 hive 作為核心技術,但這並不容易。

在 hadoop 世界外部,這會成為乙個更大的挑戰。與其說 hive 是一種合法的資料倉儲,倒不如說它是乙個整合、轉換、快速查詢工具。該模式可能像是資料倉儲,但適用性表明它不是 rdbms。

那麼為什麼使用它?

星形模式是什麼。

想象一顆星星 — 具有一箇中心和多個指向不同方向的 「手臂」。中心是動力之源或事實表。所有手臂都指向不同維度。許多資料倉儲有乙個事實表和多個維度。

事實表包含您可以加權或計算的任何資料。在此示例中,您擁有棒球統計資料,比如跑壘、全壘打、擊球率等。您可以計算、增加、減去或乘以這些列。

維度更加以主題為基礎。在此示例中,您有運動員資訊維度、時間和日期維度,等等。通常沒有計算或加權多個維度中的列。

在此示例中,將乙個維度表與乙個事實表連線的鍵是 playerid。

簡單來講,有時您需要使用擺在面前的工具。

大資料是什麼意思?大資料是什麼?

大資料是指在一定時間內,常規軟體工具無法捕捉 管理和處理的資料集合。它是一種海量 高增長 多元化的資訊資產,需要一種新的處理模式,以具備更強的決策 洞察和流程優化能力。大資料技術的戰略意義不在於掌握龐大的資料資訊,而在於對這些有意義的資料進行專業的處理。換句話說,如果把大資料比作一個行業,這個行業盈...

學習大資料的目的是什麼呢?大資料有什麼特點呢

學習大資料當然是為了能夠找到一份能夠實現自我價值同時又能獲得相應的工作回報的工作,因為大資料是國家扶持的產業,各行業都認識到大資料是產業智慧化 自動化 精準化 個性化的基礎,大資料技術人才的薪資是非常高而且很有發展前景的,真的沒有後悔畢業就學習大資料,當時在光環學的,現在在北京已經工作了,薪酬待遇各...

大資料的核心是什麼,大資料核心技術有哪些

大數bai 據 的核心 整理 du分析 zhi控制。重點dao並不是我們擁有專了多少資料屬,而是我們拿資料去做了什麼。如果只是堆積在某個地方,資料是毫無用處的。它的價值在於 使用性 而不是數量和儲存的地方。任何一種對資料的收集都與它最後的功能有關。如果不能體現出資料的功能,大資料的所有環節都是低效的...