hadoop安裝實(shí)驗(yàn)報(bào)告,Hadoop搭建環(huán)境的原理
- 夕逆IT
- 前端設(shè)計(jì)
- 2023-08-13
- 265
大家好,今天小編來(lái)為大家解答hadoop安裝實(shí)驗(yàn)報(bào)告這個(gè)問(wèn)題,Hadoop搭建環(huán)境的原理很多人還不知道,現(xiàn)在讓我們一起來(lái)看看吧!學(xué)習(xí)大數(shù)據(jù)Hadoop需要哪些基礎(chǔ)Had...
大家好,今天小編來(lái)為大家解答hadoop安裝實(shí)驗(yàn)報(bào)告這個(gè)問(wèn)題,Hadoop搭建環(huán)境的原理很多人還不知道,現(xiàn)在讓我們一起來(lái)看看吧!
學(xué)習(xí)大數(shù)據(jù)Hadoop需要哪些基礎(chǔ)
Hadoop是目前被廣泛使用的大數(shù)據(jù)平臺(tái),Hadoop平臺(tái)主要有HadoopCommon、HDFS、HadoopYarn、HadoopMapReduce和HadoopOzone。
Hadoop平臺(tái)目前被行業(yè)使用多年,有健全的生態(tài)和大量的應(yīng)用案例,同時(shí)Hadoop對(duì)硬件的要求比較低,非常適合初學(xué)者自學(xué)。目前很多商用大數(shù)據(jù)平臺(tái)也是基于Hadoop構(gòu)建的,所以Hadoop是大數(shù)據(jù)開(kāi)發(fā)的一個(gè)重要內(nèi)容。
學(xué)習(xí)Hadoop開(kāi)發(fā)需要有三個(gè)基礎(chǔ)知識(shí),下面進(jìn)行分別介紹:
第一:Linux操作系統(tǒng)知識(shí)。通常情況下,Hadoop平臺(tái)是構(gòu)建在Linux系統(tǒng)之上的,所以學(xué)習(xí)Hadoop首先要學(xué)習(xí)Linux操作系統(tǒng)的使用。目前比較流行的Linux操作系統(tǒng)包括CentOS和Ubuntu,這兩個(gè)Linux系列操作系統(tǒng)有廣泛的應(yīng)用場(chǎng)景。學(xué)習(xí)Linux并不復(fù)雜,通常情況下可以在虛擬機(jī)上完成,很多初學(xué)者都是在虛擬機(jī)上搭建一個(gè)偽分布式集群,然后完成Hadoop實(shí)驗(yàn)。
第二:編程語(yǔ)言。目前在Hadoop平臺(tái)下多采用Java和Python來(lái)完成程序的編寫(xiě),由于Hadoop本身是采用Java語(yǔ)言編寫(xiě)的,所以在Hadoop平臺(tái)下采用Java語(yǔ)言是比較方便的選擇,Hadoop的官方demo往往也是采用Java語(yǔ)言實(shí)現(xiàn)的。Python語(yǔ)言由于比較簡(jiǎn)單,同時(shí)Python有豐富的庫(kù)可以使用,所以目前使用Python完成Hadoop平臺(tái)的開(kāi)發(fā)也是一個(gè)比較常見(jiàn)的選擇。另外,在Spark平臺(tái)下Scala也有廣泛的應(yīng)用。
第三:算法。大數(shù)據(jù)的核心就是數(shù)據(jù)價(jià)值化的過(guò)程,而算法設(shè)計(jì)則是數(shù)據(jù)價(jià)值化的基礎(chǔ)。因此,大數(shù)據(jù)平臺(tái)的開(kāi)發(fā)離不開(kāi)算法,要想學(xué)習(xí)Hadoop開(kāi)發(fā)一定要有一個(gè)扎實(shí)的算法基礎(chǔ)。
Hadoop平臺(tái)自身有非常豐富的開(kāi)發(fā)組件,所以學(xué)習(xí)Hadoop的過(guò)程還是比較漫長(zhǎng)的,由于大數(shù)據(jù)開(kāi)發(fā)有較強(qiáng)的場(chǎng)景特征,所以建議結(jié)合具體的場(chǎng)景來(lái)完成Hadoop平臺(tái)的學(xué)習(xí)。
大數(shù)據(jù)是我的主要研究方向之一,目前我也在帶大數(shù)據(jù)方向的研究生,我會(huì)陸續(xù)在頭條寫(xiě)一些關(guān)于大數(shù)據(jù)方面的文章,感興趣的朋友可以關(guān)注我,相信一定會(huì)有所收獲。
如果有大數(shù)據(jù)方面的問(wèn)題,也可以咨詢我。
謝謝!
怎么在windows上搭建hadoop環(huán)境
在Eclipse的Windows->Preferences中,選擇HadoopMap/Reduce,設(shè)置好Hadoop的安裝目錄,這里,我直接從linux的/home/hadoop/hadoop-1.0.3拷貝過(guò)來(lái)的,點(diǎn)擊OK按鈕!
Hadoop如何快速入門
簡(jiǎn)單來(lái)說(shuō)下,我對(duì)hadoop的理解。
狹義上說(shuō):
Hadoop1.x版本是hdfs+mapReduce
Hadoop2.x版本是hdfs+yarn+mapReduce
廣義上說(shuō):
haddop是一個(gè)生態(tài)。
建議從1.x到2.x,先看架構(gòu),了解1.x的架構(gòu)以及缺點(diǎn)不足,2.x是如何改進(jìn)的?,F(xiàn)在推出的3.x又有什么改進(jìn)呢?
生態(tài)圈,都有什么?每個(gè)模塊是做什么的?工作中會(huì)有什么應(yīng)用場(chǎng)景?
以上是學(xué)習(xí)思路,僅供參考,歡迎與我在線交流
如何在windows下安裝hadoop
先說(shuō)一下要準(zhǔn)備哪些軟件和信息:
VMware-workstation;
CentOS-6.0-i386-bin-DVD;
eclipse-jee-luna-SR1-win32;
hadoop-0.20.2;
jdk-6u27-linux-i586;
(由于hadoop對(duì)版本的要求較高,大家還是不要輕易更換版本,這里列出來(lái)的各種軟件都是穩(wěn)定發(fā)布版,網(wǎng)上很容易可以download到的)。
整個(gè)教程分為這樣5個(gè)部分來(lái)說(shuō):1)在Windows下安裝虛擬機(jī)Vmware,并新建一個(gè)虛擬機(jī)裝好centos系統(tǒng);2)centos下設(shè)置ssh服務(wù)無(wú)密碼登錄;3)centos下安裝jdk,并配置環(huán)境變量;4)centos下安裝hadoop,并配置文件;5)windows下安裝jdk和eclipse,并將eclipse與centos下的hadoop連接??梢哉f(shuō)這5個(gè)部分每一個(gè)都很重要,尤其是第4)步。下面我們就詳細(xì)說(shuō)一下每一步該怎么做。
Step0:請(qǐng)大家先在windows下新建一個(gè)普通用戶,用戶名為hadoop,我們所有的軟件全在這個(gè)下面安裝,用戶名最好要是hadoop,因?yàn)檫@個(gè)要和后面很多username相同,設(shè)為hadoop比較好記。
1)在Windows下安裝虛擬機(jī)Vmware,并新建一個(gè)虛擬機(jī)裝好centos系統(tǒng);
首先,下載VMware-workstation并安裝,這步驟和一般windows下安裝軟件的過(guò)程是一樣的,入門小白也會(huì)熟練操作,這里就節(jié)省點(diǎn)兒空間給后面重要的步驟了~
然后,在Vmware的主頁(yè)上新建一個(gè)虛擬機(jī)
一路下一步,直到讓你選擇系統(tǒng)鏡像路徑,我們選擇centos系統(tǒng)映像,如上圖,點(diǎn)擊下一步。然后,需要你輸入linux的用戶名,這個(gè)比較重要,最好填寫(xiě)hadoop,因?yàn)檫@個(gè)名字在后面要用到好多次!
后面還是一路的“下一步”,直到讓你設(shè)置虛擬機(jī)的內(nèi)存大小,建議為1024M。如上圖。后面就是要選擇和虛擬機(jī)的網(wǎng)絡(luò)類型有關(guān)的設(shè)置了,建議為“使用網(wǎng)絡(luò)地址轉(zhuǎn)換NAT”,如下圖。這一步我當(dāng)時(shí)選擇了自動(dòng)橋接的功能,找了一個(gè)晚上的錯(cuò)誤。。。時(shí)間就這樣白花花的沒(méi)了~~
之后還是一路的“下一步”,幾乎都是使用它推薦的設(shè)置,我們就可以新建一個(gè)centos,等待個(gè)幾分鐘然后就可以進(jìn)入centos界面了。看到那一抹科技藍(lán),有沒(méi)有讓你心動(dòng)了呢~~哈哈哈,你確實(shí)走好了第一步!
2)centos下設(shè)置ssh服務(wù)無(wú)密碼登錄;
在桌面右擊,選擇openinTerminal,這個(gè)就是linux的終端了。希望讀者有一些linux操作系統(tǒng)的基礎(chǔ),這樣子上手更快一些。不過(guò)要是沒(méi)有的話,也沒(méi)有關(guān)系,我們是面向新手的教程。
2.1.先在linux命令行中輸入su,提示密碼,輸入你自己設(shè)置的密碼,這樣子你后面的操作都具有了linux系統(tǒng)下的最高權(quán)限——root權(quán)限。
2.2.在設(shè)置ssh無(wú)密碼登錄之前,有一個(gè)特別重要的要先出好:關(guān)閉SELinux。這是因?yàn)閏entos會(huì)自動(dòng)阻止你修改sshservice,我們只有關(guān)閉SELinux,重啟才能生效。如何做,如下:
修改/etc/selinux/config文件
將SELINUX=enforcing改為SELINUX=disabled
重啟機(jī)器即可
(note:在linux下修改文件,vi命令后會(huì)進(jìn)入到文件窗口,按i進(jìn)入insert,修改完畢之后再按esc推出insert,輸入;:wq!保存并退出~這里要感謝泡哥,改了半天都不行,還是泡哥指點(diǎn)迷津了~~)
2.3.在linux命令行里輸入:ssh-keygen-trsa,然后一路回車。
root@hadoopName-desktop:~$ssh-keygen-trsa
Generatingpublic/privatersakeypair.
Enterfileinwhichtosavethekey(/home/zhangtao/.ssh/id_rsa)://密鑰保存位置,直接回車保持默認(rèn);
Createddirectory'/home/zhangtao/.ssh'.
Enterpassphrase(emptyfornopassphrase)://設(shè)置密鑰的密碼,空密碼直接回車即可;
Entersamepassphraseagain://確認(rèn)上一步設(shè)置的密碼。
然后進(jìn)入/root/.ssh/下面,會(huì)看到兩個(gè)文件id_rsa.pub,id_rsa,
然后執(zhí)行cpid_rsa.pubauthorized_keys
然后sshlocalhost驗(yàn)證是否成功,第一次要你輸入yes,以后就不需要了。
如下圖,由于我又驗(yàn)證了一次,所以還需要輸入y,如果你是第一次驗(yàn)證是不要的。
至此,ssh服務(wù)無(wú)密碼登錄設(shè)置完畢!
3)centos下安裝jdk,并配置環(huán)境變量;
這一步中可以分為兩步:安裝jdk、配置jdk環(huán)境變量。
3.1.第一步:root用戶登陸,使用命令mkdir/usr/program新建目錄/usr/program,下載JDK安裝包jdk-6u13-linux-i586.bin,將其復(fù)制到目錄/usr/program下,用cd命令進(jìn)入該目錄,執(zhí)行命令“./jdk-6u13-linux-i586.bin”,命令運(yùn)行完畢即安裝完成,將在目錄下生成文件夾/jdk1.6.0_13,此即為jdk被成功安裝到目錄:/usr/program/jdk1.6.0_13下。
3.2.root用戶登陸,命令行中執(zhí)行命令“vi/etc/profile”,并加入以下內(nèi)容,配置環(huán)境變量(注意/etc/profile這個(gè)文件很重要,后面Hadoop的配置還會(huì)用到)。
#setjavaenvironment
exportJAVA_HOME=/usr/program/jdk1.6.0_27
exportJRE_HOME=/usr/program/jdk1.6.0_27/jre
exportCLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
exportPATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
在vi編輯器增加以上內(nèi)容后保存退出,并執(zhí)行以下命令使配置生效!
#chmod+x/etc/profile;增加執(zhí)行權(quán)限
#source/etc/profile;使配置生效!
配置完畢后,在命令行中輸入:java-version,就會(huì)出現(xiàn)安裝jdk的信息。
這時(shí),jdk的安裝和配置環(huán)境變量就成功了~
在linux系統(tǒng)上怎么搭建hadoop開(kāi)發(fā)環(huán)境
A、基礎(chǔ)環(huán)境
1.jdk安裝與配置
2.host
3.ssh
4.文件目錄B、Hadoop安裝與配置1.下載hadoop軟件2.環(huán)境變量3.hadoop配置C、運(yùn)行Hadoop1.運(yùn)行hdfs2.運(yùn)行yarnD、測(cè)試hadoop,這是搭建集群的大題路徑,詳細(xì)的可以去看一下八斗學(xué)院的視頻,第一部分是講集群搭建的很詳細(xì)
單機(jī)上跑多個(gè)虛擬機(jī)搭建hadoop集群可以提高計(jì)算能力嗎
首先,跑虛擬機(jī)就要損耗性能,和資源。
然后,hadoop平臺(tái)本身調(diào)度再損失一些。
最后,才是你的程序能使用的部分。
所以,還不如單機(jī)性能好。
如果,單機(jī)想盡可能使用多核優(yōu)勢(shì),請(qǐng)使用openmp編程。
如果,你只是想體驗(yàn)一下mapreduce編程模型,那么推薦你幾個(gè)輕量級(jí)的庫(kù)。
文章分享結(jié)束,hadoop安裝實(shí)驗(yàn)報(bào)告和Hadoop搭建環(huán)境的原理的答案你都知道了嗎?歡迎再次光臨本站哦!
本文鏈接:http://xinin56.com/qianduan/222.html