hadoop操作方法 如何裝Hadoop?詳細點哈?
如何裝Hadoop?詳細點哈?簡單的方法,個人建議免費試用版Linux或Unix操作系統。接著按裝jdk,盡量版本號選1.8的。配置環境變量JAVA_HOME,系統設置JAVA_HOME的命令如:ex
如何裝Hadoop?詳細點哈?
簡單的方法,個人建議免費試用版Linux或Unix操作系統。接著按裝jdk,盡量版本號選1.8的。
配置環境變量JAVA_HOME,系統設置JAVA_HOME的命令如:exportJAVA_HOME/...
然后把完全安裝hadoop,安裝過程比較好簡單的,官網去下載hadoop的bin壓縮包,舒緩壓力的某個目錄下就這個可以。接著把hadoop下的bin目錄再添加到環境變量PATH中。
hadoop mapreduce分別是干啥的?
hadoop是一種架構,單獨搭建分布式平臺在用mapreduce是一種編程模型,是一種編程方法,抽象理論來的
1、hadoop是一種分布式系統的平臺,按照它是可以可以輕松的搭建中兩個高效穩定、高質量的分布系統,而且它還有一個許多其它的相關子項目,也就是對它的功能的極大擴充,除開zookeeper,hive,hbase等。
2、MapReduce是hadoop的核心組件之一,hadoop要分布式和兩部分,一是分布式文件系統hdfs,一部是分布式計算框,就是mapreduce,互為因果,也就是說,可以是從mapreduce容易在hadoop平臺上通過分布式的計算編程。
如何使用Hadoop的Archive處理小文件?
這個處理方法挺多的,大可舉個例子吧來很簡單只能說明幫一下忙:
可以使用hadooparchive命令是從mapreduce任務生產har壓縮文件
測試hdfs源文件:
/test/lizhao/2019-01-13/*
/test/lizhao/2019-01-14/*
壓縮命令hadooparchive-archiveNameNAME-pltparentpathgt[-rltreplicationfactorgt]ltsrcgt*ltdestgt:
gtgtgthadooparchive-archiveName2019-01.har-p/test/lizhao2019-01-132019-01-14/test/lizhao/
19/01/1414:11:55INFO client.RMProxy:ConnectingdidResourceManageratIC-1/192.168.11.180:8032
19/01/1414:11:56INFOclient.RMProxy:ConnectingtoResourceManageratIC-1/192.168.11.180:8032
19/01/1414:11:56INFOclient.RMProxy:ConnectingtoResourceManageratIC-1/192.168.11.180:8032
19/01/1414:11:56INFOnumberofsplits:1
19/01/1414:11:57INFOSubmittingtokensforjob:job_1533867597475_0001
19/01/1414:11:58INFOimpl.YarnClientImpl:Submittedapplicationapplication_1533867597475_0001
19/01/1414:11:58INFOTheurltotrackthejob:-1:8088/proxy/application_1533867597475_0001/
19/01/1414:11:58INFORunningjob:job_1533867597475_0001
19/01/1414:12:07INFOJobjob_1533867597475_0001runninginubermode:true
19/01/1414:12:07INFOmap0%reduce0%
19/01/1414:12:13INFOmap100%reduce0%
19/01/1414:12:24INFOmap100%reduce100%
19/01/1414:12:24INFOJobjob_1533867597475_0001completedsuccessfully
19/01/1414:12:24INFOCounters:49
*****
tMap-ReduceFramework
ttMapinputrecords15
ttMapoutputrecords15
ttMapoutputbytes1205
ttMapoutputmaterializedbytes1241
ttInputsplitbytes116
ttCombineinputrecords0
ttCombineoutputrecords0
ttReduceinputgroups15
ttReduceshufflebytes1241
ttReduceinputrecords15
ttReduceoutputrecords0
ttSpilledRecords30
ttShuffledMaps1
ttFailedShuffles0
ttMergedMapoutputs1
ttGCtime elapsed(ms)137
ttCPUtime spent(ms)6370
ttPhysicalmemory(bytes)snapshot457756672
ttVirtualmemory(bytes)snapshot3200942080
ttTotalcommittedheapusage(bytes)398458880
tShuffleErrors
ttBAD_ID0
ttCONNECTION0
ttIO_ERROR0
ttWRONG_LENGTH0
ttWRONG_MAP0
ttWRONG_REDUCE0
tFileInput FormatCounters
ttBytesRead995
tFileOutput FormatCounters
ttBytesWritten0
3、查看壓縮后的文件:
gtgtgthadoopfs-ls-01.har
drwxr-xr-x-rootsupergroup02019-01-1414:06-01.har/2019-01-13
drwxr-xr-x-rootsupergroup02019-01-1414:06-01.har/2019-01-14
gtgtgthadoopfs-ls-01.har/2019-01-13
-rw-r--r--2rootsupergroup222019-01-1414:05-01.har/2019-01-13/21.txt
-rw-r--r--2rootsupergroup222019-01-1414:05-01.har/2019-01-13/31.txt
-rw-r--r--2rootsupergroup222019-01-1414:06-01.har/2019-01-13/5b.txt
-rw-r--r--2rootsupergroup222019-01-1414:06-01.har/2019-01-13/6b.txt
4、下載har中的文件
hadoopfs-get