Berikut adalah pertanyaan wawancara insinyur data yang sering diajukan untuk mahasiswa baru serta kandidat berpengalaman untuk mendapatkan pekerjaan yang tepat.
1) Jelaskan Rekayasa Data.
Rekayasa data adalah istilah yang digunakan dalam data besar. Ini berfokus pada penerapan pengumpulan data dan penelitian. Data yang dihasilkan dari berbagai sumber hanyalah data mentah. Rekayasa data membantu mengubah data mentah ini menjadi informasi yang berguna.
2) Apa itu Pemodelan Data?
Pemodelan data adalah metode mendokumentasikan desain perangkat lunak yang kompleks sebagai diagram sehingga siapa pun dapat dengan mudah memahaminya. Ini adalah representasi konseptual dari objek data yang dikaitkan antara berbagai objek data dan aturan.
3) Buat daftar berbagai jenis skema desain dalam Pemodelan Data
Ada dua jenis skema utama dalam pemodelan data: 1) Skema bintang dan 2) Skema kepingan salju.
4) Bedakan antara data terstruktur dan tidak terstruktur
Berikut adalah perbedaan antara data terstruktur dan tidak terstruktur:
Parameter | Data Terstruktur | Data Tidak Terstruktur |
Penyimpanan | DBMS | Struktur file tidak terkelola |
Standar | ADO.net, ODBC, dan SQL | STMP, XML, CSV, dan SMS |
Alat Integrasi | ELT (Ekstrak, Transformasi, Muat) | Entri data manual atau pemrosesan batch yang menyertakan kode |
penskalaan | Penskalaan skema sulit | Penskalaan sangat mudah. |
5) Jelaskan semua komponen aplikasi Hadoop
Berikut adalah komponen-komponen aplikasi Hadoop:
- Hadoop Common: Ini adalah seperangkat utilitas dan perpustakaan umum yang digunakan oleh Hadoop.
- HDFS: Aplikasi Hadoop ini berkaitan dengan sistem file tempat data Hadoop disimpan. Ini adalah sistem file terdistribusi yang memiliki bandwidth tinggi.
- Hadoop MapReduce: Ini didasarkan pada algoritma untuk penyediaan pemrosesan data skala besar.
- Hadoop YARN: Ini digunakan untuk manajemen sumber daya dalam cluster Hadoop. Ini juga dapat digunakan untuk penjadwalan tugas bagi pengguna.
6) Apa itu NameNode?
Ini adalah inti dari HDFS. Ini menyimpan data HDFS dan melacak berbagai file di seluruh cluster. Di sini, data sebenarnya tidak disimpan. Data disimpan di DataNodes.
7) Tentukan streaming Hadoop
Ini adalah utilitas yang memungkinkan pembuatan peta dan Mengurangi pekerjaan dan mengirimkannya ke cluster tertentu.
8) Apa bentuk lengkap dari HDFS?
HDFS adalah singkatan dari Hadoop Distributed File System.
9) Tentukan Block and Block Scanner di HDFS
Blok adalah unit terkecil dari file data. Hadoop secara otomatis membagi file besar menjadi potongan-potongan kecil.
Block Scanner memverifikasi daftar blok yang disajikan di DataNode.
10) Apa langkah-langkah yang terjadi ketika Block Scanner mendeteksi blok data yang rusak?
Berikut adalah langkah-langkah yang terjadi ketika Block Scanner menemukan blok data yang rusak:
1) Pertama-tama, ketika Block Scanner menemukan blok data yang rusak, DataNode melaporkan ke NameNode
2) NameNode memulai proses pembuatan replika baru menggunakan replika blok yang rusak.
3) Jumlah replikasi dari replika yang benar mencoba mencocokkan dengan faktor replikasi. Jika cocok ditemukan blok data yang rusak tidak akan dihapus.
11) Sebutkan dua pesan yang didapat NameNode dari DataNode?
Ada dua pesan yang didapat NameNode dari DataNode. Mereka adalah 1) Laporan blok dan 2) Detak jantung.
12) Sebutkan berbagai file konfigurasi XML di Hadoop?
Ada lima file konfigurasi XML di Hadoop:
- Situs-mapred
- Situs inti
- Situs HDFS
- Situs benang
13) Apa empat V dari big data?
Empat V dari big data adalah:
- Kecepatan
- Variasi
- Volume
- Kebenaran
14) Jelaskan fitur Hadoop
Fitur penting Hadoop adalah:
- Ini adalah kerangka kerja sumber terbuka yang tersedia secara gratis.
- Hadoop kompatibel dengan banyak jenis perangkat keras dan mudah untuk mengakses perangkat keras baru dalam node tertentu.
- Hadoop mendukung pemrosesan data yang lebih cepat didistribusikan.
- Ini menyimpan data dalam cluster, yang tidak bergantung pada operasi lainnya.
- Hadoop memungkinkan pembuatan 3 replika untuk setiap blok dengan node yang berbeda.
15) Jelaskan metode utama Reducer
- setup (): Digunakan untuk mengonfigurasi parameter seperti ukuran data input dan cache terdistribusi.
- cleanup (): Metode ini digunakan untuk membersihkan file sementara.
- mengurangi (): Ini adalah jantung dari peredam yang dipanggil sekali per kunci dengan tugas yang dikurangi terkait
16) Apa singkatan dari COSHH?
Singkatan dari COSHH adalah Klasifikasi dan Optimasi berdasarkan Jadwal untuk sistem Hadoop heterogen.
17) Jelaskan Skema Bintang
Star Schema atau Star Join Schema adalah jenis skema Data Warehouse yang paling sederhana. Dikenal sebagai skema bintang karena strukturnya seperti bintang. Dalam skema Bintang, pusat bintang dapat memiliki satu tabel fakta dan beberapa tabel dimensi terkait. Skema ini digunakan untuk membuat kueri kumpulan data yang besar.
18) Bagaimana cara menerapkan solusi big data?
Ikuti langkah-langkah berikut untuk menerapkan solusi data besar.
1) Integrasikan data menggunakan sumber data seperti RDBMS, SAP, MySQL, Salesforce
2) Simpan data yang diekstraksi dalam database NoSQL atau HDFS.
3) Menerapkan solusi data besar menggunakan kerangka kerja pemrosesan seperti Pig, Spark, dan MapReduce.
19) Jelaskan FSCK
File System Check atau FSCK adalah perintah yang digunakan oleh HDFS. Perintah FSCK digunakan untuk memeriksa inkonsistensi dan masalah dalam file.
20) Jelaskan Skema Kepingan Salju
Skema Kepingan Salju adalah perpanjangan dari Skema Bintang, dan ini menambahkan dimensi tambahan. Disebut juga kepingan salju karena diagramnya terlihat seperti Kepingan Salju. Tabel dimensi dinormalisasi, yang membagi data menjadi tabel tambahan.
21) Bedakan antara Star dan Snowflake Schema
Bintang | Skema SnowFlake |
Hierarki dimensi disimpan dalam tabel dimensional. | Setiap hierarki disimpan ke dalam tabel terpisah. |
Peluang redundansi data tinggi | Peluang redundansi data rendah. |
Ini memiliki desain DB yang sangat sederhana | Ini memiliki desain DB yang kompleks |
Menyediakan cara yang lebih cepat untuk pemrosesan kubus | Pemrosesan kubus lambat karena gabungan kompleks. |
22) Jelaskan sistem file terdistribusi Hadoop
Hadoop bekerja dengan sistem file terdistribusi yang dapat diskalakan seperti S3, HFTP FS, FS, dan HDFS. Sistem File Terdistribusi Hadoop dibuat di Sistem File Google. Sistem file ini dirancang sedemikian rupa sehingga dapat dengan mudah dijalankan pada sekelompok besar sistem komputer.
23) Jelaskan tanggung jawab utama seorang insinyur data
Insinyur data memiliki banyak tanggung jawab. Mereka mengelola sistem sumber data. Insinyur data menyederhanakan struktur data yang kompleks dan mencegah reduplikasi data. Seringkali mereka juga menyediakan ELT dan transformasi data.
24) Apa bentuk penuh YARN?
Bentuk lengkap YARN adalah Negosiator Sumber Daya Lain.
25) Buat daftar berbagai mode di Hadoop
Mode di Hadoop adalah 1) Mode Standalone 2) Mode terdistribusi semu 3) Mode terdistribusi penuh.
26) Bagaimana cara mencapai keamanan di Hadoop?
Lakukan langkah-langkah berikut untuk mencapai keamanan di Hadoop:
1) Langkah pertama adalah mengamankan saluran otentikasi klien ke server. Berikan cap waktu kepada klien.
2) Pada langkah kedua, klien menggunakan cap waktu yang diterima untuk meminta TGS untuk tiket layanan.
3) Pada langkah terakhir, klien menggunakan tiket layanan untuk otentikasi sendiri ke server tertentu.
27) Apa itu Heartbeat di Hadoop?
Di Hadoop, NameNode dan DataNode saling berkomunikasi. Heartbeat adalah sinyal yang dikirim oleh DataNode ke NameNode secara teratur untuk menunjukkan keberadaannya.
28) Bedakan antara NAS dan DAS di Hadoop
NAS | DAS |
Kapasitas penyimpanan adalah 10 9 hingga 10 12 dalam byte. | Kapasitas penyimpanan 10 9 dalam byte. |
Biaya manajemen per GB cukup. | Biaya manajemen per GB tinggi. |
Mengirimkan data menggunakan Ethernet atau TCP / IP. | Mengirimkan data menggunakan IDE / SCSI |
29) Buat daftar bidang atau bahasa penting yang digunakan oleh insinyur data
Berikut beberapa bidang atau bahasa yang digunakan oleh insinyur data:
- Probabilitas serta aljabar linier
- Pembelajaran mesin
- Analisis tren dan regresi
- Sarang database QL dan SQL
30) Apa itu Big Data?
Ini adalah sejumlah besar data terstruktur dan tidak terstruktur, yang tidak dapat dengan mudah diproses dengan metode penyimpanan data tradisional. Insinyur data menggunakan Hadoop untuk mengelola data besar.
31) Apa itu penjadwalan FIFO?
Ini adalah algoritma penjadwalan Hadoop Job. Dalam penjadwalan FIFO ini, seorang reporter memilih pekerjaan dari antrian pekerjaan, pekerjaan terlama terlebih dahulu.
32) Sebutkan nomor port default tempat pelacak tugas, NameNode, dan pelacak pekerjaan dijalankan di Hadoop
Nomor port default tempat pelacak tugas, NameNode, dan pelacak pekerjaan dijalankan di Hadoop adalah sebagai berikut:
- Pelacak tugas berjalan pada port 50060
- NameNode berjalan pada port 50070
- Pelacak Pekerjaan berjalan pada port 50030
33) Cara menonaktifkan Block Scanner pada HDFS Data Node
Untuk menonaktifkan Block Scanner pada HDFS Data Node, setel dfs.datanode.scan.period.hours ke 0.
34) Bagaimana cara menentukan jarak antara dua node di Hadoop?
Jaraknya sama dengan jumlah jarak ke node terdekat. Metode getDistance () digunakan untuk menghitung jarak antara dua node.
35) Mengapa menggunakan perangkat keras komoditas di Hadoop?
Perangkat keras komoditas mudah didapat dan terjangkau. Ini adalah sistem yang kompatibel dengan Windows, MS-DOS, atau Linux.
36) Tentukan faktor replikasi dalam HDFS
Faktor replikasi adalah jumlah total replika file dalam sistem.
37) Data apa yang disimpan di NameNode?
Namenode menyimpan metadata untuk HDFS seperti informasi blok, dan informasi namespace.
38) Apa yang Anda maksud dengan Rack Awareness?
Di cluster Haddop, Namenode menggunakan Datanode untuk meningkatkan lalu lintas jaringan saat membaca atau menulis file apa pun yang lebih dekat ke rak terdekat untuk membaca atau menulis permintaan. Namenode mempertahankan id rak setiap DataNode untuk mencapai informasi rak. Konsep ini disebut Rack Awareness di Hadoop.
39) Apa fungsi dari Secondary NameNode?
Berikut adalah fungsi dari Secondary NameNode:
- FsImage yang menyimpan salinan file EditLog dan FsImage.
- NameNode crash: Jika NameNode crash, maka Secondary NameNode's FsImage dapat digunakan untuk membuat ulang NameNode.
- Checkpoint: Digunakan oleh Secondary NameNode untuk memastikan bahwa data tidak rusak di HDFS.
- Perbarui: Secara otomatis memperbarui file EditLog dan FsImage. Ini membantu untuk menjaga file FsImage di Secondary NameNode diperbarui.
40) Apa yang terjadi ketika NameNode tidak aktif, dan pengguna mengirimkan pekerjaan baru?
NameNode adalah satu-satunya titik kegagalan di Hadoop sehingga pengguna tidak dapat mengirimkan pekerjaan baru yang tidak dapat dijalankan. Jika NameNode sedang down, maka pekerjaan mungkin gagal, karena pengguna ini harus menunggu NameNode untuk memulai ulang sebelum menjalankan pekerjaan apa pun.
41) Apa fase dasar peredam di Hadoop?
Ada tiga fase dasar peredam di Hadoop:
1. Acak: Di sini, Reducer menyalin keluaran dari Mapper.
2. Sortir: Dalam sortir, Hadoop mengurutkan input ke Reducer menggunakan tombol yang sama.
3. Kurangi: Dalam fase ini, nilai keluaran yang terkait dengan sebuah kunci direduksi untuk menggabungkan data menjadi keluaran akhir.
42) Mengapa Hadoop menggunakan objek Konteks?
Kerangka kerja Hadoop menggunakan objek Konteks dengan kelas Mapper untuk berinteraksi dengan sistem yang tersisa. Objek konteks mendapatkan detail konfigurasi sistem dan tugas di konstruktornya.
Kami menggunakan objek Context untuk meneruskan informasi dalam metode setup (), cleanup () dan map (). Objek ini membuat informasi penting tersedia selama operasi peta.
43) Tentukan Combiner di Hadoop
Ini adalah langkah opsional antara Map dan Reduce. Penggabung mengambil keluaran dari fungsi Map, membuat pasangan nilai kunci, dan mengirimkan ke Peredam Hadoop. Tugas pemadu adalah meringkas hasil akhir dari Peta ke dalam catatan ringkasan dengan kunci yang identik.
44) Apa faktor replikasi default yang tersedia di HDFS. Apa yang ditunjukkannya?
Faktor replikasi default yang tersedia di HDFS adalah tiga. Faktor replikasi default menunjukkan bahwa akan ada tiga replika dari setiap data.
45) Apa maksudmu Lokalitas Data di Hadoop?
Dalam sistem Big Data, ukuran datanya sangat besar, dan itulah mengapa tidak masuk akal untuk memindahkan data melalui jaringan. Sekarang, Hadoop mencoba mendekatkan komputasi ke data. Dengan cara ini, data tetap lokal ke lokasi yang disimpan.
46) Tentukan Balancer di HDFS
Di HDFS, penyeimbang adalah administrasi yang digunakan oleh staf admin untuk menyeimbangkan ulang data di seluruh DataNodes dan memindahkan blok dari node yang terlalu banyak digunakan ke node yang kurang dimanfaatkan.
47) Jelaskan Safe mode di HDFS
Ini adalah mode hanya-baca NameNode dalam sebuah cluster. Awalnya, NameNode ada di Safemode. Ini mencegah penulisan ke sistem file di Safemode. Saat ini, ia mengumpulkan data dan statistik dari semua DataNodes.
48) Apa pentingnya Distributed Cache di Apache Hadoop?
Hadoop memiliki fitur utilitas berguna yang disebut Cache Terdistribusi yang meningkatkan kinerja pekerjaan dengan menyimpan file yang digunakan oleh aplikasi ke dalam cache. Aplikasi dapat menentukan file untuk cache menggunakan konfigurasi JobConf.
Kerangka kerja Hadoop membuat replika file-file ini ke node yang tugasnya harus dijalankan. Ini dilakukan sebelum eksekusi tugas dimulai. Distributed Cache mendukung distribusi file read only serta file zip dan jars.
49) Apa itu Metastore di Hive?
Ini menyimpan skema serta lokasi tabel sarang.
Tabel sarang mendefinisikan, pemetaan, dan metadata yang disimpan di Metastore. Ini dapat disimpan dalam RDBMS yang didukung oleh JPOX.
50) Apa yang dimaksud dengan SerDe di Hive?
SerDe adalah nama pendek untuk Serializer atau Deserializer. Di Hive, SerDe memungkinkan untuk membaca data dari tabel ke dan menulis ke bidang tertentu dalam format apa pun yang Anda inginkan.
51) Buat daftar komponen yang tersedia dalam model data sarang
Ada komponen berikut dalam model data Hive:
- Tabel
- Partisi
- Ember
52) Jelaskan penggunaan Sarang di ekosistem Hadoop.
Hive menyediakan antarmuka untuk mengelola data yang disimpan di ekosistem Hadoop. Sarang digunakan untuk memetakan dan bekerja dengan tabel HBase. Kueri sarang diubah menjadi pekerjaan MapReduce untuk menyembunyikan kerumitan yang terkait dengan pembuatan dan menjalankan pekerjaan MapReduce.
53) Buat daftar berbagai jenis / koleksi data kompleks yang didukung oleh Hive
Hive mendukung tipe data kompleks berikut:
- Peta
- Struct
- Himpunan
- Persatuan
54) Jelaskan bagaimana file .hiverc di Hive digunakan?
Di Hive, .hiverc adalah file inisialisasi. File ini awalnya dimuat saat kita memulai Command Line Interface (CLI) untuk Hive. Kita dapat mengatur nilai awal parameter dalam file .hiverc.
55) Apakah mungkin membuat lebih dari satu tabel di Hive untuk satu file data?
Ya, kami dapat membuat lebih dari satu skema tabel untuk file data. Hive menyimpan skema di Hive Metastore. Berdasarkan skema ini, kami dapat mengambil hasil yang berbeda dari Data yang sama.
56) Jelaskan implementasi SerDe berbeda yang tersedia di Hive
Ada banyak implementasi SerDe yang tersedia di Hive. Anda juga dapat menulis implementasi SerDe kustom Anda sendiri. Berikut adalah beberapa implementasi SerDe yang terkenal:
- OpenCSVSerde
- RegexSerDe
- DelimitedJSONSerDe
- ByteStreamTypedSerDe
57) Buat daftar fungsi penghasil tabel yang tersedia di Hive
Berikut adalah daftar fungsi penghasil tabel:
- Meledak (array)
- JSON_tuple ()
- Tumpukan()
- Meledak (peta)
58) Apa itu tabel miring di sarang?
Tabel miring adalah tabel yang lebih sering berisi nilai kolom. Di Hive, saat kami menentukan tabel sebagai SKEWED selama pembuatan, nilai miring ditulis ke file terpisah, dan nilai yang tersisa dipindahkan ke file lain.
59) Buat daftar objek yang dibuat dengan membuat pernyataan di MySQL.
Objek yang dibuat dengan membuat pernyataan di MySQL adalah sebagai berikut:
- Database
- Indeks
- Meja
- Pengguna
- Prosedur
- Pelatuk
- Peristiwa
- Melihat
- Fungsi
60) Bagaimana cara melihat struktur database di MySQL?
Untuk melihat struktur database di MySQL, Anda dapat menggunakan
DESCRIBE perintah. Sintaks dari perintah ini adalah DESCRIBE Table name ;.
61) Bagaimana cara mencari String tertentu di kolom tabel MySQL?
Gunakan operator regex untuk mencari String di kolom MySQL. Di sini, kita juga dapat menentukan berbagai jenis ekspresi reguler dan mencari menggunakan regex.
62) Jelaskan bagaimana analitik data dan data besar dapat meningkatkan pendapatan perusahaan?
Berikut adalah cara bagaimana analitik data dan data besar dapat meningkatkan pendapatan perusahaan:
- Gunakan data secara efisien untuk memastikan pertumbuhan bisnis.
- Tingkatkan nilai pelanggan.
- Berbalik analitis untuk meningkatkan perkiraan tingkat kepegawaian.
- Mengurangi biaya produksi organisasi.