Apakah ETL itu?
ETL adalah proses yang mengekstrak data dari sistem sumber yang berbeda, kemudian mengubah data (seperti menerapkan penghitungan, penggabungan, dll.) Dan terakhir memuat data ke dalam sistem Data Warehouse. Bentuk lengkap ETL adalah Extract, Transform dan Load.
Sangat menggoda untuk berpikir membuat gudang Data hanya mengekstrak data dari berbagai sumber dan memuat ke dalam basis data gudang Data. Ini jauh dari kebenaran dan membutuhkan proses ETL yang kompleks. Proses ETL membutuhkan masukan aktif dari berbagai pemangku kepentingan termasuk pengembang, analis, penguji, eksekutif puncak, dan secara teknis menantang.
Untuk mempertahankan nilainya sebagai alat bagi pengambil keputusan, sistem data warehouse perlu diubah seiring dengan perubahan bisnis. ETL adalah aktivitas berulang (harian, mingguan, bulanan) dari sistem Data warehouse dan harus gesit, otomatis, dan didokumentasikan dengan baik.
Dalam tutorial ETL ini, Anda akan belajar-
- Apakah ETL itu?
- Mengapa Anda membutuhkan ETL?
- Proses ETL di Gudang Data
- Langkah 1) Ekstraksi
- Langkah 2) Transformasi
- Langkah 3) Memuat
- Alat ETL
- Praktik terbaik proses ETL
Mengapa Anda membutuhkan ETL?
Ada banyak alasan untuk mengadopsi ETL di organisasi:
- Ini membantu perusahaan untuk menganalisis data bisnis mereka untuk mengambil keputusan bisnis yang penting.
- Database transaksional tidak dapat menjawab pertanyaan bisnis kompleks yang dapat dijawab dengan contoh ETL.
- Gudang Data menyediakan tempat penyimpanan data umum
- ETL menyediakan metode pemindahan data dari berbagai sumber ke dalam gudang data.
- Saat sumber data berubah, Gudang Data akan diperbarui secara otomatis.
- Sistem ETL yang dirancang dan didokumentasikan dengan baik hampir penting untuk keberhasilan proyek Data Warehouse.
- Izinkan verifikasi transformasi data, agregasi, dan aturan penghitungan.
- Proses ETL memungkinkan perbandingan data sampel antara sumber dan sistem target.
- Proses ETL dapat melakukan transformasi yang kompleks dan membutuhkan area ekstra untuk menyimpan data.
- ETL membantu untuk Memigrasi data ke Gudang Data. Ubah ke berbagai format dan jenis untuk mengikuti satu sistem yang konsisten.
- ETL adalah proses standar untuk mengakses dan memanipulasi data sumber ke dalam database target.
- ETL di gudang data menawarkan konteks historis yang dalam untuk bisnis.
- Ini membantu meningkatkan produktivitas karena menyusun dan menggunakan kembali tanpa memerlukan keterampilan teknis.
Proses ETL di Gudang Data
ETL adalah proses 3 langkah
Langkah 1) Ekstraksi
Dalam langkah arsitektur ETL ini, data diekstraksi dari sistem sumber ke dalam area pementasan. Transformasi jika ada dilakukan di area pementasan agar kinerja sistem sumber tidak mengalami penurunan. Selain itu, jika data yang rusak disalin langsung dari sumber ke database Data warehouse, rollback akan menjadi tantangan. Area pementasan memberikan kesempatan untuk memvalidasi data yang diekstraksi sebelum dipindahkan ke gudang Data.
Data warehouse perlu mengintegrasikan sistem yang memiliki perbedaan
DBMS, Perangkat Keras, Sistem Operasi dan Protokol Komunikasi. Sumber dapat mencakup aplikasi lama seperti Mainframe, aplikasi yang disesuaikan, perangkat Titik kontak seperti ATM, Sakelar panggilan, file teks, spreadsheet, ERP, data dari vendor, mitra, dan lain-lain.
Oleh karena itu seseorang membutuhkan peta data logis sebelum data diekstraksi dan dimuat secara fisik. Peta data ini menggambarkan hubungan antara sumber dan data sasaran.
Tiga metode Ekstraksi Data:
- Ekstraksi Penuh
- Ekstraksi Parsial- tanpa pemberitahuan pembaruan.
- Ekstraksi Parsial- dengan pemberitahuan pembaruan
Terlepas dari metode yang digunakan, ekstraksi tidak boleh memengaruhi kinerja dan waktu respons sistem sumber. Sistem sumber ini adalah database produksi langsung. Perlambatan atau penguncian apa pun dapat memengaruhi laba perusahaan.
Beberapa validasi dilakukan selama Ekstraksi:
- Rekonsiliasi catatan dengan data sumber
- Pastikan tidak ada spam / data yang tidak diinginkan dimuat
- Pemeriksaan tipe data
- Hapus semua jenis data duplikat / terfragmentasi
- Periksa apakah semua kunci sudah terpasang atau tidak
Langkah 2) Transformasi
Data yang diekstrak dari server sumber mentah dan tidak dapat digunakan dalam bentuk aslinya. Oleh karena itu perlu dibersihkan, dipetakan dan ditransformasikan. Faktanya, ini adalah langkah kunci di mana proses ETL menambah nilai dan mengubah data sehingga laporan BI yang berwawasan dapat dihasilkan.
Ini adalah salah satu konsep ETL penting di mana Anda menerapkan sekumpulan fungsi pada data yang diekstrak. Data yang tidak memerlukan transformasi disebut sebagai perpindahan langsung atau melewati data .
Pada langkah transformasi, Anda dapat melakukan operasi yang disesuaikan pada data. Misalnya, jika pengguna menginginkan jumlah pendapatan penjualan yang tidak ada dalam database. Atau jika nama depan dan nama belakang dalam tabel berada di kolom yang berbeda. Dimungkinkan untuk menggabungkannya sebelum memuat.
Berikut adalah Masalah Integritas Data:
- Ejaan berbeda untuk orang yang sama seperti Jon, John, dll.
- Ada banyak cara untuk menunjukkan nama perusahaan seperti Google, Google Inc.
- Penggunaan nama yang berbeda seperti Cleaveland, Cleveland.
- Mungkin ada kasus di mana nomor akun yang berbeda dibuat oleh berbagai aplikasi untuk pelanggan yang sama.
- Dalam beberapa data, file yang diperlukan tetap kosong
- Produk yang tidak valid dikumpulkan di POS karena entri manual dapat menyebabkan kesalahan.
Validasi dilakukan selama tahap ini
- Pemfilteran - Pilih hanya kolom tertentu untuk dimuat
- Menggunakan aturan dan tabel pencarian untuk standarisasi data
- Set Karakter Konversi dan penanganan encoding
- Konversi Satuan Pengukuran seperti Konversi Waktu Tanggal, konversi mata uang, konversi numerik, dll.
- Pemeriksaan validasi ambang data. Misalnya, usia tidak boleh lebih dari dua digit.
- Validasi aliran data dari area pementasan ke tabel perantara.
- Bidang yang harus diisi tidak boleh kosong.
- Pembersihan (misalnya, memetakan NULL ke 0 atau Gender Male ke "M" dan Female ke "F" dll.)
- Pisahkan kolom menjadi beberapa dan gabungkan beberapa kolom menjadi satu kolom.
- Mengubah urutan baris dan kolom,
- Gunakan pencarian untuk menggabungkan data
- Menggunakan validasi data kompleks apa pun (misalnya, jika dua kolom pertama dalam satu baris kosong maka secara otomatis menolak baris dari pemrosesan)
Langkah 3) Memuat
Memuat data ke database gudang data target adalah langkah terakhir dari proses ETL. Dalam Data warehouse yang khas, volume data yang besar perlu dimuat dalam waktu yang relatif singkat (malam). Oleh karena itu, proses pemuatan harus dioptimalkan untuk kinerja.
Jika terjadi kegagalan beban, mekanisme pemulihan harus dikonfigurasi untuk memulai kembali dari titik kegagalan tanpa kehilangan integritas data. Admin Data Warehouse perlu memantau, melanjutkan, membatalkan beban sesuai kinerja server yang berlaku.
Jenis Pemuatan:
- Beban Awal - mengisi semua tabel Gudang Data
- Incremental Load - menerapkan perubahan yang sedang berlangsung saat diperlukan secara berkala.
- Refresh Penuh -menghapus konten dari satu atau beberapa tabel dan memuat ulang dengan data baru.
Muat verifikasi
- Pastikan bahwa data bidang kunci tidak hilang atau nol.
- Menguji tampilan pemodelan berdasarkan tabel target.
- Periksa nilai gabungan dan ukuran yang dihitung.
- Pemeriksaan data dalam tabel dimensi serta tabel sejarah.
- Periksa laporan BI pada tabel fakta dan dimensi yang dimuat.
Alat ETL
Ada banyak alat Data Warehousing yang tersedia di pasaran. Berikut ini, beberapa yang paling menonjol:
1. MarkLogic:
MarkLogic adalah solusi pergudangan data yang membuat integrasi data lebih mudah dan lebih cepat menggunakan berbagai fitur perusahaan. Itu dapat menanyakan berbagai jenis data seperti dokumen, hubungan, dan metadata.
https://www.marklogic.com/product/getting-started/
2. Oracle:
Oracle adalah database terkemuka di industri. Ini menawarkan berbagai pilihan solusi Gudang Data untuk di tempat dan di cloud. Ini membantu mengoptimalkan pengalaman pelanggan dengan meningkatkan efisiensi operasional.
https://www.oracle.com/index.html
3. Amazon RedShift:
Amazon Redshift adalah alat Datawarehouse. Ini adalah alat sederhana dan hemat biaya untuk menganalisis semua jenis data menggunakan SQL standar dan alat BI yang ada. Ini juga memungkinkan menjalankan kueri kompleks terhadap petabyte data terstruktur.
https://aws.amazon.com/redshift/?nc2=h_m1
Berikut adalah daftar lengkap Alat Data warehouse yang berguna.
Praktik terbaik proses ETL
Berikut adalah praktik terbaik untuk langkah-langkah Proses ETL:
Jangan pernah mencoba membersihkan semua data:
Setiap organisasi ingin semua datanya bersih, tetapi kebanyakan dari mereka tidak siap membayar untuk menunggu atau tidak siap menunggu. Untuk membersihkannya semua akan memakan waktu terlalu lama, jadi lebih baik jangan mencoba untuk membersihkan semua data.
Jangan pernah membersihkan Apa Pun:
Selalu rencanakan untuk membersihkan sesuatu karena alasan terbesar untuk membangun Gudang Data adalah untuk menawarkan data yang lebih bersih dan lebih andal.
Tentukan biaya pembersihan data:
Sebelum membersihkan semua data kotor, penting bagi Anda untuk menentukan biaya pembersihan untuk setiap elemen data kotor.
Untuk mempercepat pemrosesan kueri, miliki tampilan dan indeks tambahan:
Untuk mengurangi biaya penyimpanan, simpan data yang diringkas ke dalam kaset disk. Selain itu, diperlukan trade-off antara volume data yang akan disimpan dan penggunaan terperinci. Trade-off pada tingkat perincian data untuk mengurangi biaya penyimpanan.
Ringkasan:
- ETL adalah singkatan dari Ekstrak, Transformasi, dan Muat.
- ETL menyediakan metode pemindahan data dari berbagai sumber ke dalam gudang data.
- Pada ekstraksi langkah pertama, data diekstraksi dari sistem sumber ke dalam area pementasan.
- Pada langkah transformasi, data yang diekstrak dari sumber dibersihkan dan diubah.
- Memuat data ke dalam gudang data target adalah langkah terakhir dari proses ETL.