25 Pertanyaan Wawancara Pengujian ETL Teratas & Jawaban

Anonim

Berikut adalah pertanyaan yang sering diajukan dalam wawancara untuk freshers serta penguji dan pengembang ETL yang berpengalaman.

1) Apa itu ETL?

Dalam arsitektur data warehousing, ETL merupakan komponen penting yang mengelola data untuk setiap proses bisnis. ETL adalah singkatan dari Extract, Transform and Load . Ekstrak melakukan proses membaca data dari database. Transform melakukan konversi data ke dalam format yang sesuai untuk pelaporan dan analisis. Sedangkan load melakukan proses penulisan data ke dalam database target.

2) Jelaskan apa saja yang termasuk dalam operasi pengujian ETL?

Pengujian ETL termasuk

  • Verifikasi apakah data berubah dengan benar sesuai dengan kebutuhan bisnis
  • Verifikasi bahwa data yang diproyeksikan dimuat ke dalam gudang data tanpa pemotongan dan kehilangan data
  • Pastikan aplikasi ETL melaporkan data yang tidak valid dan mengganti dengan nilai default
  • Pastikan bahwa data dimuat pada kerangka waktu yang diharapkan untuk meningkatkan skalabilitas dan kinerja

3) Sebutkan apa saja jenis aplikasi data warehouse dan apa perbedaan antara data mining dan data warehousing?

Jenis aplikasi data warehouse adalah

  • Pengolahan Info
  • Pemrosesan Analitik
  • Penambangan Data

Data mining dapat didefinisikan sebagai proses mengekstraksi informasi prediktif tersembunyi dari database besar dan menafsirkan data sementara data warehousing dapat menggunakan data mine untuk pemrosesan analitis data dengan cara yang lebih cepat. Data warehousing adalah proses menggabungkan data dari berbagai sumber ke dalam satu repositori umum

4) Apa sajakah alat yang digunakan dalam ETL?

  • Aliran Keputusan Cognos
  • Oracle Warehouse Builder
  • Objek Bisnis XI
  • Gudang bisnis SAS
  • Server ETL SAS Enterprise

5) Apakah fakta itu? Apa sajakah jenis fakta?

Ini adalah komponen sentral dari model multi-dimensi yang berisi ukuran-ukuran yang akan dianalisis. Fakta terkait dengan dimensi.

Jenis fakta adalah

  • Fakta Aditif
  • Fakta Semi-aditif
  • Fakta Non-aditif

6) Jelaskan apa itu Cubes dan OLAP Cubes?

Kubus adalah unit pengolah data yang terdiri dari tabel fakta dan dimensi dari gudang data. Ini memberikan analisis multi-dimensi.

OLAP adalah singkatan dari Online Analytics Processing, dan kubus OLAP menyimpan data besar dalam bentuk muti-dimensional untuk tujuan pelaporan. Ini terdiri dari fakta yang disebut sebagai ukuran yang dikategorikan berdasarkan dimensi.

7) Jelaskan apa itu tracing level dan apa tipenya?

Tingkat penelusuran adalah jumlah data yang disimpan dalam file log. Tingkat penelusuran dapat diklasifikasikan menjadi dua Normal dan Verbose. Level normal menjelaskan level penelusuran secara mendetail sedangkan verbose menjelaskan level penelusuran di setiap baris.

8) Jelaskan apa Grain of Fact?

Fakta butir dapat didefinisikan sebagai tingkat penyimpanan informasi fakta. Ia juga dikenal sebagai Perincian Fakta

9) Jelaskan apa skema fakta tanpa fakta dan apa itu Ukuran?

Tabel fakta tanpa ukuran dikenal sebagai tabel fakta tanpa fakta. Itu dapat melihat jumlah peristiwa yang terjadi. Misalnya, digunakan untuk merekam suatu peristiwa seperti jumlah karyawan di suatu perusahaan.

Data numerik berdasarkan kolom dalam tabel fakta dikenal sebagai Pengukuran

10) Jelaskan apa itu transformasi?

Transformasi adalah objek repositori yang menghasilkan, mengubah, atau meneruskan data. Transformasi terdiri dari dua jenis Aktif dan Pasif

11) Jelaskan penggunaan Transformasi Pencarian?

Transformasi Pencarian berguna untuk

  • Mendapatkan nilai terkait dari tabel menggunakan nilai kolom
  • Perbarui tabel dimensi yang berubah perlahan
  • Verifikasi apakah catatan sudah ada di tabel

12) Jelaskan apa itu partisi, partisi hash, dan partisi round robin?

Untuk meningkatkan kinerja, transaksi dibagi lagi, ini disebut sebagai Partisi. Partioning memungkinkan Informatica Server untuk membuat beberapa koneksi ke berbagai sumber

Jenis partisi adalah

Partisi Round-Robin:

  • Dengan informatica data didistribusikan secara merata di antara semua partisi
  • Di setiap partisi di mana jumlah baris yang akan diproses kira-kira sama, partisi ini berlaku

Partisi Hash:

  • Untuk tujuan mempartisi kunci untuk mengelompokkan data di antara partisi, server Informatica menerapkan fungsi hash
  • Ini digunakan saat memastikan proses, grup baris dengan kunci partisi yang sama di partisi yang sama perlu dipastikan

13) Sebutkan apa keuntungan menggunakan DataReader Destination Adapter?

Keuntungan menggunakan DataReader Destination Adapter adalah ia mengisi kumpulan catatan ADO (terdiri dari catatan dan kolom) dalam memori dan mengekspos data dari tugas DataFlow dengan mengimplementasikan antarmuka DataReader, sehingga aplikasi lain dapat menggunakan data.

14) Menggunakan SSIS (SQL Server Integration Service) apa cara yang mungkin untuk memperbarui tabel?

Untuk memperbarui tabel menggunakan SSIS, cara yang mungkin dilakukan adalah:

  • Gunakan perintah SQL
  • Gunakan tabel pementasan
  • Gunakan Cache
  • Gunakan Tugas Skrip
  • Gunakan nama database lengkap untuk memperbarui jika MSSQL digunakan

15) Jika Anda memiliki sumber non-OLEDB (Object Linking and Embedding Database) untuk pencarian, apa yang akan Anda lakukan?

Jika Anda memiliki sumber non-OLEBD untuk pencarian, maka Anda harus menggunakan Cache untuk memuat data dan menggunakannya sebagai sumber

16) Dalam hal apa Anda menggunakan cache dinamis dan cache statis dalam transformasi yang terhubung dan tidak terhubung?

  • Cache dinamis digunakan ketika Anda harus memperbarui tabel master dan secara perlahan mengubah dimensi (SCD) tipe 1
  • Untuk file datar, cache statis digunakan

17) Jelaskan apa perbedaan antara pencarian Tidak Terhubung dan Terhubung?

Pencarian Terhubung

Pencarian Tidak Terhubung

  • Pencarian terhubung berpartisipasi dalam pemetaan

- Ini digunakan ketika fungsi pencarian digunakan sebagai pengganti transformasi ekspresi saat pemetaan

  • Beberapa nilai dapat dikembalikan

- Hanya mengembalikan satu port keluaran

  • Itu dapat dihubungkan ke transformasi lain dan mengembalikan nilai
  • Transformasi lain tidak dapat dihubungkan
  • Cache statis atau dinamis dapat digunakan untuk Lookup yang terhubung
  • Tidak terhubung hanya sebagai cache statis
  • Pencarian terhubung mendukung nilai default yang ditentukan pengguna
  • Pencarian tidak terhubung tidak mendukung nilai default yang ditentukan pengguna
  • Dalam Pencarian Terhubung beberapa kolom dapat dikembalikan dari baris yang sama atau dimasukkan ke dalam cache pencarian dinamis
  • Pencarian tidak terhubung menunjuk satu port kembali dan mengembalikan satu kolom dari setiap baris

18) Jelaskan apa itu tampilan sumber data?

Tampilan sumber data memungkinkan untuk menentukan skema relasional yang akan digunakan dalam database layanan analisis. Daripada langsung dari objek sumber data, dimensi dan kubus dibuat dari tampilan sumber data.

19) Jelaskan apa perbedaan antara alat OLAP dan alat ETL?

Perbedaan antara ETL dan alat OLAP adalah itu

Alat ETL dimaksudkan untuk mengekstraksi data dari sistem lama dan memuat ke dalam basis data tertentu dengan beberapa proses pembersihan data.

Contoh: Data stage, Informatica dll.

Sementara OLAP dimaksudkan untuk tujuan pelaporan dalam data OLAP tersedia dalam model multi-arah.

Contoh: Objek Bisnis, Cognos, dll.

20) Bagaimana Anda dapat mengekstrak data SAP menggunakan Informatica?

  • Dengan opsi koneksi daya, Anda mengekstrak data SAP menggunakan informatica
  • Instal dan konfigurasikan alat PowerConnect
  • Impor sumber ke Penganalisis Sumber. Antara Informatica dan SAP Powerconnect bertindak sebagai gateaway. Langkah selanjutnya adalah menghasilkan kode ABAP untuk pemetaan kemudian hanya informatica yang dapat menarik data dari SAP
  • Untuk menghubungkan dan mengimpor sumber dari sistem eksternal, Power Connect digunakan

21) Sebutkan apa perbedaan antara Power Mart dan Power Center?

Pusat Tenaga

Power Mart

  • Misalkan untuk memproses data dalam jumlah besar
  • Misalkan untuk memproses data volume rendah
  • Ini mendukung sumber ERP seperti SAP, people soft, dll.
  • Itu tidak mendukung sumber ERP
  • Ini mendukung repositori lokal dan global
  • Ini mendukung repositori lokal
  • Ini mengubah lokal menjadi repositori global
  • Ini tidak memiliki spesifikasi untuk mengubah lokal menjadi repositori global

22) Jelaskan apa itu area pementasan dan apa tujuan dari area pementasan?

Pementasan data adalah area tempat Anda menyimpan data sementara di server gudang data. Penahapan data mencakup langkah-langkah berikut

  • Ekstraksi data sumber dan transformasi data (restrukturisasi)
  • Transformasi data (pembersihan data, transformasi nilai)
  • Pengganti tugas kunci

23) Apa itu Skema Bus?

Untuk berbagai proses bisnis untuk mengidentifikasi dimensi umum, skema BUS digunakan. Muncul dengan dimensi yang sesuai bersama dengan definisi informasi standar

24) Jelaskan apa yang dimaksud dengan pembersihan data?

Pembersihan data adalah proses menghapus data dari gudang data. Ini menghapus data sampah seperti baris dengan nilai null atau spasi ekstra.

25) Jelaskan apa itu Objek Skema?

Objek skema adalah struktur logis yang langsung merujuk ke data database. Objek skema meliputi tabel, tampilan, sinonim urutan, indeks, cluster, paket fungsi, dan link database

26) Jelaskan istilah-istilah ini Session, Worklet, Mapplet dan Workflow?

  • Mapplet: Ini mengatur atau membuat set transformasi
  • Worklet: Ini mewakili serangkaian tugas tertentu yang diberikan
  • Alur Kerja: Ini adalah sekumpulan instruksi yang memberi tahu server cara menjalankan tugas
  • Sesi: Ini adalah sekumpulan parameter yang memberi tahu server cara memindahkan data dari sumber ke target

Unduh PDF Gratis: Pertanyaan & Jawaban Wawancara Pengujian ETL