Dalam tutorial ini, kami akan memandu Anda melalui proses langkah demi langkah untuk menginstal Apache Hadoop di kotak Linux (Ubuntu). Ini adalah proses 2 bagian
- Bagian 1) Unduh dan Instal Hadoop
- Bagian 2) Konfigurasi Hadoop
Ada 2 Prasyarat
- Anda harus menginstal dan menjalankan Ubuntu
- Anda harus sudah menginstal Java.
Bagian 1) Unduh dan Instal Hadoop
Langkah 1) Tambahkan pengguna sistem Hadoop menggunakan perintah di bawah ini
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
Masukkan kata sandi, nama, dan detail lainnya.
CATATAN: Ada kemungkinan kesalahan yang disebutkan di bawah ini dalam proses penyiapan dan penginstalan ini.
"hduser tidak ada dalam file sudoers. Kejadian ini akan dilaporkan."
Kesalahan ini dapat diatasi dengan Login sebagai pengguna root
Jalankan perintahnya
sudo adduser hduser_ sudo
Re-login as hduser_
Langkah 2) Konfigurasi SSH
Untuk mengelola node dalam cluster, Hadoop memerlukan akses SSH
Pertama, ganti pengguna, masukkan perintah berikut
su - hduser_
Perintah ini akan membuat kunci baru.
ssh-keygen -t rsa -P ""
Aktifkan akses SSH ke mesin lokal menggunakan kunci ini.
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Sekarang uji pengaturan SSH dengan menghubungkan ke localhost sebagai pengguna 'hduser'.
ssh localhost
Catatan: Harap diperhatikan, jika Anda melihat kesalahan di bawah ini sebagai respons terhadap 'ssh localhost', maka ada kemungkinan SSH tidak tersedia di sistem ini-
Untuk mengatasi ini -
Bersihkan SSH menggunakan,
sudo apt-get purge openssh-server
Ini merupakan praktik yang baik untuk membersihkan sebelum memulai instalasi
Instal SSH menggunakan perintah-
sudo apt-get install openssh-server
Langkah 3) Langkah selanjutnya adalah Mengunduh Hadoop
Pilih Stabil
Pilih file tar.gz (bukan file dengan src)
Setelah unduhan selesai, navigasikan ke direktori yang berisi file tar
Memasukkan,
sudo tar xzf hadoop-2.2.0.tar.gz
Sekarang, ganti nama hadoop-2.2.0 menjadi hadoop
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
Bagian 2) Konfigurasi Hadoop
Langkah 1) Ubah file ~ / .bashrc
Tambahkan baris berikut ke akhir file ~ / .bashrc
#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME= # Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin
Sekarang, sumber konfigurasi lingkungan ini menggunakan perintah di bawah ini
. ~/.bashrc
Langkah 2) Konfigurasi yang terkait dengan HDFS
Setel JAVA_HOME di dalam file $ HADOOP_HOME / etc / hadoop / hadoop-env.sh
Dengan
Ada dua parameter di $ HADOOP_HOME / etc / hadoop / core-site.xml yang perlu disetel-
1. 'hadoop.tmp.dir' - Digunakan untuk menentukan direktori yang akan digunakan oleh Hadoop untuk menyimpan file datanya.
2. 'fs.default.name' - Ini menentukan sistem file default.
Untuk menyetel parameter ini, buka core-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
Salin baris di bawah ini di antara tag
hadoop.tmp.dir /app/hadoop/tmp Parent directory for other temporary directories. fs.defaultFS hdfs://localhost:54310 The name of the default file system.
Arahkan ke direktori $ HADOOP_HOME / etc / Hadoop
Sekarang, buat direktori yang disebutkan di core-site.xml
sudo mkdir -p
Berikan izin ke direktori
sudo chown -R hduser_:Hadoop_
sudo chmod 750
Langkah 3) Konfigurasi Map Reduce
Sebelum Anda mulai dengan konfigurasi ini, mari setel jalur HADOOP_HOME
sudo gedit /etc/profile.d/hadoop.sh
Dan Enter
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
Selanjutnya masuk
sudo chmod +x /etc/profile.d/hadoop.sh
Keluar dari Terminal dan mulai ulang lagi
Ketik echo $ HADOOP_HOME. Untuk memverifikasi jalan
Sekarang salin file
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
Buka mapred-site.xml berkas
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
Tambahkan baris pengaturan di bawah ini di antara tag
mapreduce.jobtracker.address localhost:54311 MapReduce job tracker runs at this host and port.
Buka $ HADOOP_HOME / etc / hadoop / hdfs-site.xml seperti di bawah ini,
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Tambahkan baris pengaturan di bawah ini antara tag
dfs.replication 1 Default block replication. dfs.datanode.data.dir /home/hduser_/hdfs
Buat direktori yang ditentukan dalam pengaturan di atas-
sudo mkdir -p
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750
sudo chmod 750 /home/hduser_/hdfs
Langkah 4) Sebelum kita memulai Hadoop untuk pertama kalinya, format HDFS menggunakan perintah di bawah ini
$HADOOP_HOME/bin/hdfs namenode -format
Langkah 5) Mulai Hadoop single node cluster menggunakan perintah di bawah ini
$HADOOP_HOME/sbin/start-dfs.sh
Keluaran dari perintah di atas
$HADOOP_HOME/sbin/start-yarn.sh
Menggunakan alat / perintah 'jps' , verifikasi apakah semua proses terkait Hadoop sedang berjalan atau tidak.
Jika Hadoop berhasil dimulai, maka output dari jps akan menampilkan NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.
Langkah 6) Menghentikan Hadoop
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh