Cara Menginstal Hadoop dengan Konfigurasi Langkah demi Langkah di Ubuntu

Daftar Isi:

Anonim

Dalam tutorial ini, kami akan memandu Anda melalui proses langkah demi langkah untuk menginstal Apache Hadoop di kotak Linux (Ubuntu). Ini adalah proses 2 bagian

  • Bagian 1) Unduh dan Instal Hadoop
  • Bagian 2) Konfigurasi Hadoop

Ada 2 Prasyarat

  • Anda harus menginstal dan menjalankan Ubuntu
  • Anda harus sudah menginstal Java.

Bagian 1) Unduh dan Instal Hadoop

Langkah 1) Tambahkan pengguna sistem Hadoop menggunakan perintah di bawah ini

sudo addgroup hadoop_

sudo adduser --ingroup hadoop_ hduser_

Masukkan kata sandi, nama, dan detail lainnya.

CATATAN: Ada kemungkinan kesalahan yang disebutkan di bawah ini dalam proses penyiapan dan penginstalan ini.

"hduser tidak ada dalam file sudoers. Kejadian ini akan dilaporkan."

Kesalahan ini dapat diatasi dengan Login sebagai pengguna root

Jalankan perintahnya

sudo adduser hduser_ sudo

Re-login as hduser_

Langkah 2) Konfigurasi SSH

Untuk mengelola node dalam cluster, Hadoop memerlukan akses SSH

Pertama, ganti pengguna, masukkan perintah berikut

su - hduser_

Perintah ini akan membuat kunci baru.

ssh-keygen -t rsa -P ""

Aktifkan akses SSH ke mesin lokal menggunakan kunci ini.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Sekarang uji pengaturan SSH dengan menghubungkan ke localhost sebagai pengguna 'hduser'.

ssh localhost

Catatan: Harap diperhatikan, jika Anda melihat kesalahan di bawah ini sebagai respons terhadap 'ssh localhost', maka ada kemungkinan SSH tidak tersedia di sistem ini-

Untuk mengatasi ini -

Bersihkan SSH menggunakan,

sudo apt-get purge openssh-server

Ini merupakan praktik yang baik untuk membersihkan sebelum memulai instalasi

Instal SSH menggunakan perintah-

sudo apt-get install openssh-server

Langkah 3) Langkah selanjutnya adalah Mengunduh Hadoop

Pilih Stabil

Pilih file tar.gz (bukan file dengan src)

Setelah unduhan selesai, navigasikan ke direktori yang berisi file tar

Memasukkan,

sudo tar xzf hadoop-2.2.0.tar.gz

Sekarang, ganti nama hadoop-2.2.0 menjadi hadoop

sudo mv hadoop-2.2.0 hadoop

sudo chown -R hduser_:hadoop_ hadoop

Bagian 2) Konfigurasi Hadoop

Langkah 1) Ubah file ~ / .bashrc

Tambahkan baris berikut ke akhir file ~ / .bashrc

#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME=# Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin

Sekarang, sumber konfigurasi lingkungan ini menggunakan perintah di bawah ini

. ~/.bashrc

Langkah 2) Konfigurasi yang terkait dengan HDFS

Setel JAVA_HOME di dalam file $ HADOOP_HOME / etc / hadoop / hadoop-env.sh

Dengan

Ada dua parameter di $ HADOOP_HOME / etc / hadoop / core-site.xml yang perlu disetel-

1. 'hadoop.tmp.dir' - Digunakan untuk menentukan direktori yang akan digunakan oleh Hadoop untuk menyimpan file datanya.

2. 'fs.default.name' - Ini menentukan sistem file default.

Untuk menyetel parameter ini, buka core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Salin baris di bawah ini di antara tag

hadoop.tmp.dir/app/hadoop/tmpParent directory for other temporary directories.
fs.defaultFS hdfs://localhost:54310The name of the default file system. 

Arahkan ke direktori $ HADOOP_HOME / etc / Hadoop

Sekarang, buat direktori yang disebutkan di core-site.xml

sudo mkdir -p 

Berikan izin ke direktori

sudo chown -R hduser_:Hadoop_ 

sudo chmod 750 

Langkah 3) Konfigurasi Map Reduce

Sebelum Anda mulai dengan konfigurasi ini, mari setel jalur HADOOP_HOME

sudo gedit /etc/profile.d/hadoop.sh

Dan Enter

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Selanjutnya masuk

sudo chmod +x /etc/profile.d/hadoop.sh

Keluar dari Terminal dan mulai ulang lagi

Ketik echo $ HADOOP_HOME. Untuk memverifikasi jalan

Sekarang salin file

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Buka mapred-site.xml berkas

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Tambahkan baris pengaturan di bawah ini di antara tag dan

mapreduce.jobtracker.addresslocalhost:54311MapReduce job tracker runs at this host and port.

Buka $ HADOOP_HOME / etc / hadoop / hdfs-site.xml seperti di bawah ini,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Tambahkan baris pengaturan di bawah ini antara tag dan

dfs.replication1Default block replication.
dfs.datanode.data.dir/home/hduser_/hdfs

Buat direktori yang ditentukan dalam pengaturan di atas-

sudo mkdir -p 
sudo mkdir -p /home/hduser_/hdfs

sudo chown -R hduser_:hadoop_ 
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

sudo chmod 750 
sudo chmod 750 /home/hduser_/hdfs

Langkah 4) Sebelum kita memulai Hadoop untuk pertama kalinya, format HDFS menggunakan perintah di bawah ini

$HADOOP_HOME/bin/hdfs namenode -format

Langkah 5) Mulai Hadoop single node cluster menggunakan perintah di bawah ini

$HADOOP_HOME/sbin/start-dfs.sh

Keluaran dari perintah di atas

$HADOOP_HOME/sbin/start-yarn.sh

Menggunakan alat / perintah 'jps' , verifikasi apakah semua proses terkait Hadoop sedang berjalan atau tidak.

Jika Hadoop berhasil dimulai, maka output dari jps akan menampilkan NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.

Langkah 6) Menghentikan Hadoop

$HADOOP_HOME/sbin/stop-dfs.sh

$HADOOP_HOME/sbin/stop-yarn.sh