大數據培訓-Hadoop相關知識
來源:
奇酷教育 發表于:
奇酷教育-大數據培訓_大數據培訓班_大數據培訓機構
大數據培訓-Hadoop相關知識。如何理解Hadoop知識?很多人聽說過
大數據,但對于大數據所包含的核心技術卻并不了解,今天qiku
大數據培訓老師就給大家介紹一下大數據工程師必須要掌握的技術——Hadoop相關知識。
Hadoop是一個由Apache基金會所開發的分布式系統基礎架構。整個Hadoop家族由以下幾個子項目組成:
1、Hadoop Common:Hadoop體系最底層的一個模塊,為Hadoop各子項目提供各種工具,如:配置文件和日志操作等。
2、HDFS:是Hadoop應用程序中主要的分布式儲存系統, HDFS集群包含了一個NameNode(主節點),這個節點負責管理所有文件系統的元數據及存儲了真實數據的DataNode(數據節點,可以有很多)。
3、MapReduce:是一個軟件框架,用以輕松編寫處理海量(TB級)數據的并行應用程序,以可靠和容錯的方式連接大型集群中上萬個節點(商用硬件)。
4、Hive:Apache Hive是Hadoop的一個數據倉庫系統,促進了數據的綜述(將結構化的數據文件映射為一張數據庫表)、即席查詢以及存儲在Hadoop兼容系統中的大型數據集分析。
5、Pig:Apache Pig是一個用于大型數據集分析的平臺,它包含了一個用于
數據分析應用的高級語言以及評估這些應用的基礎設施。Pig應用的閃光特性在于它們的結構經得起大量的并行,也就是說讓它們支撐起非常大的數據集。Pig是SQL-like語言,是在MapReduce上構建的一種高級查詢語言,把一些運算編譯進MapReduce模型的Map和Reduce中,并且用戶可以定義自己的功能。
6、HBase:Apache HBase是Hadoop數據庫,一個分布式、可擴展的大數據存儲。其核心是Google Bigtable論文的開源實現、分布式列式存儲。它是Apache Hadoop在HDFS基礎上提供的一個類Bigatable。
7、ZooKeeper:Zookeeper是Google的Chubby一個開源的實現。它是一個針對大型分布式系統的可靠協調系統,提供的功能包括:配置維護、名字服務、 分布式同步、組服務等。
8、Avro:Avro是doug cutting主持的RPC項目,有點類似Google的protobuf和Facebook的thrift。avro用來做以后hadoop的RPC,使hadoop的RPC模塊通信速度更快、數據結構更緊湊。
9、Sqoop:Sqoop是一個用來將Hadoop和關系型數據庫中的數據相互轉移的工具,可以將一個關系型數據庫中數據導入Hadoop的HDFS中,也可以將HDFS中數據導入關系型數據庫中。
10、Mahout:Apache Mahout是個可擴展的機器學習和數據挖掘庫,當前Mahout支持主要的4個用例:推薦挖掘、聚集、分類和頻繁項集挖掘。
11、Cassandra:Apache Cassandra是一個高性能、可線性擴展、高有效性數據庫,可以運行在商用硬件或云基礎設施上打造完美的任務關鍵性數據平臺。
12、Chukwa:Apache Chukwa是個開源的數據收集系統,用以監視大型分布系統。建立于HDFS和Map/Reduce框架之上,繼承了Hadoop的可擴展性和穩定性。Chukwa同樣包含了一個靈活和強大的工具包,用以顯示、監視和分析結果,以保證數據的使用達到最佳效果。
13、Ambari:Apache Ambari是一個基于Web的工具,用于配置、管理和監視Apache Hadoop集群,支持Hadoop HDFS,、Hadoop MapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同樣還提供了集群狀況儀表盤,比如heatmaps和查看MapReduce、Pig、Hive應用程序的能力,以友好的用戶界面對它們的性能特性進行診斷。
14、HCatalog:Apache HCatalog是Hadoop建立數據的映射表和存儲管理服務,包括提供一個共享模式和數據類型機制,以及提供一個抽象表,這樣用戶就不需要關注數據存儲的方式和地址。
15、Chukwa:Chukwa是基于Hadoop的大集群監控系統,由yahoo貢獻。
大數據培訓需要掌握的知識點很多,由淺入深、由易到難是一個比較長期的過程。如果你想快速而系統的掌握大數據技術,最有效的方式就是參加培訓班。
以上就是
奇酷為大家分享的“大數據培訓-Hadoop相關知識”謝謝大家觀看,如果對大數據感興趣的話,想學
大數據培訓的,也可以在線咨詢,我們將竭誠為你解答。