60 Hadoop & MapReduce Pertanyaan Wawancara & Jawaban

Anonim

Unduh PDF

Berikut adalah pertanyaan yang sering diajukan dalam wawancara untuk freshers serta developer berpengalaman.

1) Apa itu Hadoop Map Reduce?

Untuk memproses kumpulan data besar secara paralel di seluruh cluster Hadoop, kerangka kerja Hadoop MapReduce digunakan. Analisis data menggunakan peta dua langkah dan proses reduksi.

2) Bagaimana cara kerja Hadoop MapReduce?

Di MapReduce, selama fase peta, ini menghitung kata-kata di setiap dokumen, sedangkan dalam fase pengurangan itu mengumpulkan data sesuai dokumen yang mencakup seluruh koleksi. Selama fase peta, data masukan dibagi menjadi beberapa bagian untuk dianalisis dengan tugas peta yang berjalan secara paralel di seluruh kerangka kerja Hadoop.

3) Jelaskan apa yang dimaksud dengan pengacakan di MapReduce?

Proses di mana sistem melakukan pengurutan dan mentransfer keluaran peta ke peredam sebagai masukan yang dikenal sebagai shuffle.

4) Jelaskan apa yang didistribusikan Cache di MapReduce Framework?

Cache Terdistribusi adalah fitur penting yang disediakan oleh kerangka kerja MapReduce. Saat Anda ingin berbagi beberapa file di semua node di Hadoop Cluster, Cache Terdistribusi digunakan. File tersebut bisa berupa file jar yang dapat dieksekusi atau file properti sederhana.

5) Jelaskan apa itu NameNode di Hadoop?

NameNode di Hadoop adalah node, di mana Hadoop menyimpan semua informasi lokasi file di HDFS (Hadoop Distributed File System). Dengan kata lain, NameNode adalah inti dari sistem file HDFS. Itu menyimpan catatan semua file dalam sistem file dan melacak data file di seluruh cluster atau beberapa mesin

6) Jelaskan apa itu JobTracker di Hadoop? Apa tindakan yang diikuti oleh Hadoop?

Di Hadoop untuk mengirim dan melacak pekerjaan MapReduce, JobTracker digunakan. Pelacak pekerjaan berjalan pada proses JVM-nya sendiri

Pelacak Pekerjaan melakukan tindakan berikut di Hadoop

  • Aplikasi klien mengirimkan pekerjaan ke pelacak pekerjaan
  • JobTracker berkomunikasi dengan mode Nama untuk menentukan lokasi data
  • Di dekat data atau dengan slot yang tersedia, JobTracker menemukan node TaskTracker
  • Pada Node TaskTracker yang dipilih, ia mengirimkan pekerjaan
  • Saat tugas gagal, Pelacak pekerjaan memberi tahu dan memutuskan apa yang harus dilakukan kemudian.
  • Node TaskTracker dipantau oleh JobTracker

7) Jelaskan apa yang dimaksud dengan detak jantung di HDFS?

Detak jantung mengacu pada sinyal yang digunakan antara node data dan node Nama, dan antara pelacak tugas dan pelacak pekerjaan, jika node Nama atau pelacak pekerjaan tidak merespons sinyal, maka dianggap ada beberapa masalah dengan node data atau tugas pelacak

8) Jelaskan apa itu penggabung dan kapan Anda harus menggunakan penggabung dalam Pekerjaan MapReduce?

Untuk meningkatkan efisiensi Program MapReduce, Combiners digunakan. Jumlah data dapat dikurangi dengan bantuan penggabung yang perlu ditransfer ke pereduksi. Jika operasi yang dilakukan bersifat komutatif dan asosiatif, Anda dapat menggunakan kode peredam Anda sebagai penggabung. Eksekusi penggabung tidak dijamin di Hadoop

9) Apa yang terjadi ketika node data gagal?

Ketika node data gagal

  • Jobtracker dan namenode mendeteksi kegagalan tersebut
  • Pada node yang gagal, semua tugas dijadwalkan ulang
  • Namenode mereplikasi data pengguna ke node lain

10) Jelaskan apa itu Eksekusi Spekulatif?

Di Hadoop selama Eksekusi Spekulatif, sejumlah tugas duplikat diluncurkan. Pada node slave yang berbeda, beberapa salinan dari peta yang sama atau tugas pengurangan dapat dieksekusi menggunakan Eksekusi Spekulatif. Dengan kata sederhana, jika drive tertentu membutuhkan waktu lama untuk menyelesaikan tugas, Hadoop akan membuat tugas duplikat di disk lain. Disk yang menyelesaikan tugas terlebih dahulu akan dipertahankan dan disk yang tidak selesai lebih dulu akan dimatikan.

11) Jelaskan apa saja parameter dasar dari seorang Mapper?

Parameter dasar dari seorang Mapper adalah

  • LongWritable dan Teks
  • Teks dan IntWritable

12) Jelaskan apa fungsi pemartisi MapReduce?

Fungsi pemartisi MapReduce adalah untuk memastikan bahwa semua nilai dari satu kunci pergi ke peredam yang sama, yang pada akhirnya membantu pemerataan keluaran peta melalui pereduksi

13) Jelaskan apa perbedaan antara Input Split dan HDFS Block?

Pembagian data logis dikenal sebagai Split sedangkan pembagian fisik data dikenal sebagai Blok HDFS

14) Jelaskan apa yang terjadi dalam format teks?

Dalam format input teks, setiap baris di file teks adalah record. Value adalah konten baris sedangkan Key adalah byte offset dari baris. Misalnya, Key: longWritable, Value: text

15) Sebutkan apa saja parameter konfigurasi utama yang perlu ditentukan pengguna untuk menjalankan MapReduce Job?

Pengguna kerangka kerja MapReduce perlu menentukan

  • Lokasi masukan pekerjaan dalam sistem file terdistribusi
  • Lokasi keluaran pekerjaan dalam sistem file terdistribusi
  • Masukkan format
  • Format output
  • Kelas yang berisi fungsi peta
  • Kelas yang berisi fungsi pengurangan
  • File JAR yang berisi kelas mapper, reducer, dan driver

16) Jelaskan apa itu WebDAV di Hadoop?

Untuk mendukung pengeditan dan pembaruan file, WebDAV adalah sekumpulan ekstensi ke HTTP. Pada sebagian besar sistem operasi, berbagi WebDAV dapat dipasang sebagai sistem file, sehingga dimungkinkan untuk mengakses HDFS sebagai sistem file standar dengan mengekspos HDFS melalui WebDAV.

17) Jelaskan apa itu Sqoop di Hadoop?

Untuk mentransfer data antara Relational database management (RDBMS) dan Hadoop HDFS digunakan alat yang dikenal sebagai Sqoop. Menggunakan data Sqoop dapat ditransfer dari RDMS seperti MySQL atau Oracle ke HDFS serta mengekspor data dari file HDFS ke RDBMS

18) Jelaskan bagaimana JobTracker menjadwalkan tugas?

Pelacak tugas mengirimkan pesan detak jantung ke Jobtracker biasanya setiap beberapa menit untuk memastikan bahwa JobTracker aktif dan berfungsi. Pesan tersebut juga menginformasikan JobTracker tentang jumlah slot yang tersedia, sehingga JobTracker dapat tetap up-to-date dengan tempat pekerjaan cluster dapat didelegasikan

19) Jelaskan apa itu Sequencefileinputformat?

Sequencefileinputformat digunakan untuk membaca file secara berurutan. Ini adalah format file biner terkompresi khusus yang dioptimalkan untuk meneruskan data antara output dari satu pekerjaan MapReduce ke input dari beberapa pekerjaan MapReduce lainnya.

20) Jelaskan apa yang dilakukan Kelas conf.setMapper?

Conf.setMapperclass menyetel kelas mapper dan semua hal yang terkait dengan tugas peta seperti membaca data dan membuat pasangan nilai kunci dari mapper

21) Jelaskan apa itu Hadoop?

Ini adalah kerangka perangkat lunak sumber terbuka untuk menyimpan data dan menjalankan aplikasi pada kelompok perangkat keras komoditas. Ini memberikan kekuatan pemrosesan yang sangat besar dan penyimpanan besar untuk semua jenis data.

22) Sebutkan apa perbedaan antara RDBMS dan Hadoop?

RDBMS Hadoop
RDBMS adalah sistem manajemen basis data relasional Hadoop adalah struktur datar berbasis node
Ini digunakan untuk pemrosesan OLTP sedangkan Hadoop Saat ini digunakan untuk analitis dan untuk pemrosesan DATA BESAR
Di RDBMS, cluster database menggunakan file data yang sama yang disimpan di penyimpanan bersama Di Hadoop, data penyimpanan dapat disimpan secara independen di setiap node pemrosesan.
Anda perlu memproses data sebelum menyimpannya Anda tidak perlu memproses data sebelum menyimpannya

23) Sebutkan komponen inti Hadoop?

Komponen inti Hadoop meliputi,

  • HDFS
  • MapReduce

24) Apa itu NameNode di Hadoop?

NameNode di Hadoop adalah tempat Hadoop menyimpan semua informasi lokasi file dalam HDFS. Ini adalah node master tempat pelacak pekerjaan berjalan dan terdiri dari metadata.

25) Sebutkan apa saja komponen data yang digunakan oleh Hadoop?

Komponen data yang digunakan oleh Hadoop adalah

  • Babi
  • Sarang lebah

26) Sebutkan apa saja komponen penyimpanan data yang digunakan oleh Hadoop?

Komponen penyimpanan data yang digunakan oleh Hadoop adalah HBase.

27) Sebutkan apa format input yang paling umum didefinisikan di Hadoop?

Format masukan paling umum yang ditentukan di Hadoop adalah;

  • TextInputFormat
  • KeyValueInputFormat
  • SequenceFileInputFormat

28) Di Hadoop apa itu InputSplit?

Ini membagi file masukan menjadi beberapa bagian dan menetapkan setiap bagian ke pembuat peta untuk diproses.

29) Untuk pekerjaan Hadoop, bagaimana Anda akan menulis pemartisi khusus?

Anda menulis pemartisi khusus untuk pekerjaan Hadoop, Anda mengikuti jalur berikut

  • Buat kelas baru yang memperluas Kelas Partisi
  • Ganti metode getPartition
  • Di pembungkus yang menjalankan MapReduce
  • Tambahkan pemartisi kustom ke pekerjaan dengan menggunakan metode set Partitioner Class atau - tambahkan pemartisi kustom ke pekerjaan sebagai file konfigurasi

30) Untuk pekerjaan di Hadoop, apakah mungkin mengubah jumlah pembuat peta yang akan dibuat?

Tidak, tidak mungkin mengubah jumlah pembuat peta yang akan dibuat. Jumlah pembuat peta ditentukan oleh jumlah pemisahan input.

31) Jelaskan apa itu file sequence di Hadoop?

Untuk menyimpan pasangan kunci / nilai biner, file urutan digunakan. Tidak seperti file terkompresi biasa, file sequence mendukung pemisahan bahkan ketika data di dalam file tersebut dikompresi.

32) Ketika Namenode sedang down, apa yang terjadi pada pelacak pekerjaan?

Namenode adalah satu-satunya titik kegagalan di HDFS sehingga ketika Namenode tidak aktif, cluster Anda akan mati.

33) Jelaskan bagaimana pengindeksan di HDFS dilakukan?

Hadoop memiliki cara pengindeksan yang unik. Setelah data disimpan sesuai ukuran blok, HDFS akan terus menyimpan bagian terakhir dari data yang mengatakan di mana bagian selanjutnya dari data akan berada.

34) Jelaskan apakah mungkin untuk mencari file menggunakan wildcard?

Ya, Anda dapat mencari file menggunakan wildcard.

35) Sebutkan tiga file konfigurasi Hadoop?

Ketiga file konfigurasi tersebut adalah

  • core-site.xml
  • mapred-site.xml
  • hdfs-site.xml

36) Jelaskan bagaimana Anda bisa memeriksa apakah Namenode bekerja di samping menggunakan perintah jps?

Selain menggunakan perintah jps, untuk memeriksa apakah Namenode berfungsi, Anda juga dapat menggunakan

/etc/init.d/hadoop-0.20-namenode status.

37) Jelaskan apa itu "peta" dan apa itu "peredam" di Hadoop?

Di Hadoop, peta adalah fase dalam pemecahan kueri HDFS. Peta membaca data dari lokasi masukan, dan mengeluarkan pasangan nilai kunci sesuai dengan jenis masukan.

Di Hadoop, peredam mengumpulkan keluaran yang dihasilkan oleh pembuat peta, memprosesnya, dan membuat keluaran akhirnya sendiri.

38) Di Hadoop, file mana yang mengontrol pelaporan di Hadoop?

Di Hadoop, file hadoop-metrics.properties mengontrol pelaporan.

39) Untuk menggunakan daftar Hadoop persyaratan jaringan?

Untuk menggunakan Hadoop, daftar persyaratan jaringannya adalah:

  • Koneksi SSH tanpa kata sandi
  • Secure Shell (SSH) untuk meluncurkan proses server

40) Sebutkan apa yang dimaksud dengan kesadaran rak?

Kesadaran rak adalah cara di mana kode nama menentukan cara menempatkan balok berdasarkan definisi rak.

41) Jelaskan apa itu Pelacak Tugas di Hadoop?

Pelacak Tugas di Hadoop adalah daemon node budak di cluster yang menerima tugas dari JobTracker. Ini juga mengirimkan pesan detak jantung ke JobTracker, setiap beberapa menit, untuk mengonfirmasi bahwa JobTracker masih hidup.

42) Sebutkan daemon apa yang dijalankan pada node master dan node slave?

  • Daemon yang dijalankan pada node Master adalah "NameNode"
  • Daemon yang dijalankan di setiap node Slave adalah "Pelacak Tugas" dan "Data"

43) Jelaskan bagaimana Anda bisa men-debug kode Hadoop?

Metode populer untuk men-debug kode Hadoop adalah:

  • Dengan menggunakan antarmuka web yang disediakan oleh framework Hadoop
  • Dengan menggunakan Penghitung

44) Jelaskan apa itu penyimpanan dan komputasi node?

  • Node penyimpanan adalah mesin atau komputer tempat sistem file Anda berada untuk menyimpan data pemrosesan
  • Node komputasi adalah komputer atau mesin tempat logika bisnis Anda yang sebenarnya akan dieksekusi.

45) Sebutkan apa gunanya Obyek Konteks?

Objek Konteks memungkinkan pembuat peta untuk berinteraksi dengan Hadoop lainnya

sistem. Ini mencakup data konfigurasi untuk pekerjaan tersebut, serta antarmuka yang memungkinkannya mengeluarkan keluaran.

46) Sebutkan apa langkah selanjutnya setelah Mapper atau MapTask?

Langkah selanjutnya setelah Mapper atau MapTask adalah bahwa keluaran dari Mapper diurutkan, dan partisi akan dibuat untuk keluaran tersebut.

47) Sebutkan berapa jumlah pemartisi default di Hadoop?

Di Hadoop, pemartisi default adalah Partisi "Hash".

48) Jelaskan apa tujuan RecordReader di Hadoop?

Di Hadoop, RecordReader memuat data dari sumbernya dan mengubahnya menjadi pasangan (key, value) yang cocok untuk dibaca oleh Mapper.

49) Jelaskan bagaimana data dipartisi sebelum dikirim ke reducer jika tidak ada pemartisi khusus yang ditentukan di Hadoop?

Jika tidak ada pemartisi khusus yang ditentukan di Hadoop, maka pemartisi default menghitung nilai hash untuk kunci dan menetapkan partisi berdasarkan hasilnya.

50) Jelaskan apa yang terjadi ketika Hadoop menelurkan 50 tugas untuk satu pekerjaan dan salah satu tugas gagal?

Ini akan memulai kembali tugas di beberapa TaskTracker lain jika tugas gagal lebih dari batas yang ditentukan.

51) Sebutkan apa cara terbaik untuk menyalin file antara cluster HDFS?

Cara terbaik untuk menyalin file antara cluster HDFS adalah dengan menggunakan beberapa node dan perintah distcp, sehingga beban kerja dibagikan.

52) Sebutkan apa perbedaan antara HDFS dan NAS?

Blok data HDFS didistribusikan di seluruh drive lokal dari semua mesin dalam klaster sementara data NAS disimpan pada perangkat keras khusus.

53) Sebutkan bagaimana Hadoop berbeda dari alat pengolah data lainnya?

Di Hadoop, Anda dapat menambah atau mengurangi jumlah pembuat peta tanpa mengkhawatirkan volume data yang akan diproses.

54) Sebutkan pekerjaan apa yang dilakukan kelas conf?

Kelas conf pekerjaan memisahkan pekerjaan berbeda yang berjalan di cluster yang sama. Itu melakukan pengaturan tingkat pekerjaan seperti mendeklarasikan pekerjaan di lingkungan nyata.

55) Sebutkan apa kontrak Hadoop MapReduce APIs untuk kelas kunci dan nilai?

Untuk kelas kunci dan nilai, ada dua kontrak API MapReduce Hadoop

  • Nilai harus menentukan antarmuka org.apache.hadoop.io.Writable
  • Kuncinya harus menentukan antarmuka org.apache.hadoop.io.WritableComparable

56) Sebutkan apa tiga mode di mana Hadoop dapat dijalankan?

Tiga mode di mana Hadoop dapat dijalankan adalah

  • Mode terdistribusi semu
  • Mode mandiri (lokal)
  • Mode terdistribusi penuh

57) Sebutkan apa fungsi format input teks?

Format input teks akan membuat objek garis berupa bilangan heksadesimal. Nilai dianggap sebagai teks garis utuh sedangkan kunci dianggap sebagai objek garis. Pemeta akan menerima nilai sebagai parameter 'teks' sedangkan kunci sebagai parameter 'longwriteable'.

58) Sebutkan berapa banyak InputSplits yang dibuat oleh Kerangka Hadoop?

Hadoop akan membuat 5 split

  • 1 split untuk 64K file
  • 2 dibagi untuk file 65mb
  • 2 perpecahan untuk file 127mb

59) Sebutkan apa yang didistribusikan cache di Hadoop?

Cache terdistribusi di Hadoop adalah fasilitas yang disediakan oleh kerangka kerja MapReduce. Pada saat pelaksanaan pekerjaan, ini digunakan untuk menyimpan file ke cache. Framework menyalin file yang diperlukan ke node slave sebelum menjalankan tugas apa pun di node tersebut.

60) Jelaskan bagaimana Hadoop Classpath memainkan peran penting dalam menghentikan atau memulai daemon Hadoop?

Classpath akan terdiri dari daftar direktori yang berisi file jar untuk menghentikan atau memulai daemon.