了解Hadoop技術優(yōu)缺點 輕松處理大數(shù)據(jù)
Hadoop基本介紹
hadoop是一個平臺,是一個適合大數(shù)據(jù)的分布式存儲和計算的平臺。什么是分布式存儲?這就是后邊我們要講的hadoop核心之一HDFS(HadoopDistributedFileSystem);什么是分布式計算?這是我們后邊要講的hadoop另外一個重要的核心MapReduce。
hadoop的優(yōu)點一:低成本
hadoop本身是運行在普通PC服務器組成的集群中進行大數(shù)據(jù)的分發(fā)及處理工作的,這些服務器集群是可以支持數(shù)千個節(jié)點的。
hadoop優(yōu)點二:性
這也是hadoop的核心競爭優(yōu)勢所在,接受到客戶的數(shù)據(jù)請求后,hadoop可以在數(shù)據(jù)所在的集群節(jié)點上并發(fā)處理。
hadoop優(yōu)點三:可靠性
通過分布式存儲,hadoop可以自動存儲多份副本,當數(shù)據(jù)處理請求失敗后,會自動重新部署計算任務。
hadoop優(yōu)點四:擴展性
hadoop的分布式存儲和分布式計算是在集群節(jié)點完成的,這也決定了hadoop可以擴展至更多的集群節(jié)點。
hadoop安裝方式|hadoop部署方式
hadoop安裝方式只有三種:本地安裝;偽分布安裝;集群安裝。
Hadoop適應的場景
1:超大文件
可以是幾百M,幾百T這個級別的文件。
2:流式數(shù)據(jù)訪問
Hadoop適用于一次寫入,多次讀取的場景,也就是數(shù)據(jù)復制進去之后,長時間在這些數(shù)據(jù)上進行分析。
3:商業(yè)硬件
也就是說大街上到處都能買到的那種硬件,這樣的硬件故障率較高,所以要有很好的容錯機制。
Hadoop不適用的場景
1:低延遲數(shù)據(jù)訪問
Hadoop設計的目的是大吞吐量,所以并沒有針對低延遲數(shù)據(jù)訪問做一些優(yōu)化,如果要求低延遲,可以看看Hbase。
2:大量的小文件
由于NameNode把文件的MetaData存儲在內存中,所以大量的小文件會產生大量的MetaData。這樣的話別的文件數(shù)目還是可行的,再多的話就有問題了。
3:多用戶寫入,任意修改
Hadoop現(xiàn)在還不支持多人寫入,任意修改的功能。也就是說每次寫入都會添加在文件末尾。
Hadoop業(yè)務場景(一)
在大數(shù)據(jù)背景下,ApacheHadoop已經(jīng)逐漸成為一種標簽性,業(yè)界對于這一開源分布式技術的了解也在不斷加深。但誰才是Hadoop的大用戶呢?首先想到的當然是它的“發(fā)源地”,像Google這樣的大型互聯(lián)網(wǎng)搜索引擎,以及Yahoo專門的廣告分析系統(tǒng)。也許你會認為,Hadoop平臺發(fā)揮作用的領域是互聯(lián)網(wǎng)行業(yè),用來改善分析性能并提高擴展性。其實Hadoop的應用場景遠不止這一點,深入挖掘的話你會發(fā)現(xiàn)Hadoop能夠在許多地方發(fā)揮巨大的作用。
美國著名科技博客GigaOM的專欄作家DerrickHarris跟蹤云計算和Hadoop技術已有多年時間,他也在近的一篇文章中總結了10個Hadoop的應用場景,下面分享給大家:
在線旅游:目前范圍內80%的在線旅游網(wǎng)站都是在使用Cloudera公司提供的Hadoop發(fā)行版,其中SearchBI網(wǎng)站曾經(jīng)報道過的Expedia也在其中。
移動數(shù)據(jù):Cloudera運營總監(jiān)稱,美國有70%的智能手機數(shù)據(jù)服務背后都是由Hadoop來支撐的,也就是說,包括數(shù)據(jù)的存儲以及無線運營商的數(shù)據(jù)處理等,都是在利用Hadoop技術。
電子商務:這一場景應該是非常確定的,eBay就是大的實踐者之一。國內的電商在Hadoop技術上也是儲備頗為雄厚的。
能源開采:美國Chevron公司是全美第二大石油公司,他們的IT部門主管介紹了Chevron使用Hadoop的經(jīng)驗,他們利用Hadoop進行數(shù)據(jù)的收集和處理,其中這些數(shù)據(jù)是海洋的地震數(shù)據(jù),以便于他們找到油礦的位置。