Apa itu Data Lake?
Data Lake adalah repositori penyimpanan yang dapat menyimpan data terstruktur, semi-terstruktur, dan tidak terstruktur dalam jumlah besar. Ini adalah tempat untuk menyimpan setiap jenis data dalam format aslinya tanpa batasan tetap pada ukuran akun atau file. Ini menawarkan kuantitas data yang tinggi untuk meningkatkan kinerja analitik dan integrasi asli.
Danau Data seperti wadah besar yang sangat mirip dengan danau dan sungai asli. Sama seperti di danau Anda memiliki beberapa anak sungai yang masuk, data lake memiliki data terstruktur, data tidak terstruktur, mesin ke mesin, log yang mengalir secara real-time.
Data Lake mendemokrasikan data dan merupakan cara hemat biaya untuk menyimpan semua data organisasi untuk diproses nanti. Analis Riset dapat fokus untuk menemukan pola makna dalam data dan bukan data itu sendiri.
Tidak seperti rumah Dataware hierarki tempat data disimpan dalam File dan Folder, Data lake memiliki arsitektur datar. Setiap elemen data di Data Lake diberi pengenal unik dan diberi tag dengan sekumpulan informasi metadata.
Dalam tutorial ini, Anda akan belajar-
- Apa itu Data Lake?
- Mengapa Data Lake?
- Arsitektur Data Lake
- Konsep Danau Data Kunci
- Tahapan kematangan Data Lake
- Praktik terbaik untuk Implementasi Data Lake:
- Perbedaan antara Data lake dan Data warehouse
- Manfaat dan Risiko menggunakan Data Lake:
Mengapa Data Lake?
Tujuan utama membangun data lake adalah untuk menawarkan pandangan data yang tidak tersaring kepada data scientist.
Alasan menggunakan Data Lake adalah:
- Dengan dimulainya mesin penyimpanan seperti Hadoop, menyimpan informasi yang berbeda menjadi mudah. Tidak perlu memodelkan data ke dalam skema skala perusahaan dengan Data Lake.
- Dengan meningkatnya volume data, kualitas data, dan metadata, maka kualitas analisis juga meningkat.
- Data Lake menawarkan Agility bisnis
- Pembelajaran Mesin dan Kecerdasan Buatan dapat digunakan untuk membuat prediksi yang menguntungkan.
- Ini menawarkan keunggulan kompetitif bagi organisasi pelaksana.
- Tidak ada struktur silo data. Data Lake memberikan pandangan 360 derajat dari pelanggan dan membuat analisis lebih kuat.
Arsitektur Data Lake
Gambar tersebut menunjukkan arsitektur Business Data Lake. Tingkat bawah mewakili data yang sebagian besar diam sedangkan tingkat atas menunjukkan data transaksional real-time. Data ini mengalir melalui sistem tanpa atau sedikit latensi. Berikut adalah tingkatan penting dalam Arsitektur Data Lake:
- Tingkat Penyerapan : Tingkat di sisi kiri menggambarkan sumber data. Data dapat dimuat ke dalam data lake secara berkelompok atau secara real-time
- Tingkat Wawasan: Tingkat di sebelah kanan mewakili sisi penelitian tempat wawasan dari sistem digunakan. SQL, kueri NoSQL, atau bahkan excel dapat digunakan untuk analisis data.
- HDFS adalah solusi hemat biaya untuk data terstruktur dan tidak terstruktur. Ini adalah zona pendaratan untuk semua data yang ada di sistem.
- Tingkat distilasi mengambil data dari ban penyimpanan dan mengubahnya menjadi data terstruktur untuk analisis yang lebih mudah.
- Tingkat pemrosesan menjalankan algoritme analitik dan kueri pengguna dengan berbagai waktu nyata, interaktif, batch untuk menghasilkan data terstruktur untuk analisis yang lebih mudah.
- Tingkat operasi terpadu mengatur manajemen dan pemantauan sistem. Ini termasuk audit dan manajemen kemahiran, manajemen data, manajemen alur kerja.
Konsep Danau Data Kunci
Berikut adalah konsep Key Data Lake yang perlu dipahami untuk sepenuhnya memahami Arsitektur Data Lake
Penyerapan Data
Penyerapan Data memungkinkan konektor untuk mendapatkan data dari sumber data yang berbeda dan memuat ke Data lake.
Dukungan Penyerapan Data:
- Semua jenis data Terstruktur, Semi-Terstruktur, dan Tidak Terstruktur.
- Beberapa penyerapan seperti Batch, Real-Time, One-time load.
- Banyak jenis sumber data seperti Database, Webservers, Email, IoT, dan FTP.
Penyimpanan data
Penyimpanan data harus dapat diskalakan, menawarkan penyimpanan hemat biaya dan memungkinkan akses cepat ke eksplorasi data. Ini harus mendukung berbagai format data.
Tata Kelola Data
Tata kelola data adalah proses mengelola ketersediaan, kegunaan, keamanan, dan integritas data yang digunakan dalam suatu organisasi.
Keamanan
Keamanan perlu diterapkan di setiap lapisan Danau Data. Dimulai dengan Penyimpanan, Penggalian, dan Konsumsi. Kebutuhan dasarnya adalah menghentikan akses untuk pengguna yang tidak sah. Ini harus mendukung alat yang berbeda untuk mengakses data dengan GUI dan Dasbor yang mudah dinavigasi.
Otentikasi, Akuntansi, Otorisasi dan Perlindungan Data adalah beberapa fitur penting dari keamanan data lake.
Kualitas data:
Kualitas data merupakan komponen penting dari arsitektur Data Lake. Data digunakan untuk menentukan nilai bisnis. Mengekstrak wawasan dari data berkualitas buruk akan menghasilkan wawasan berkualitas buruk.
Penemuan Data
Penemuan Data adalah tahap penting lainnya sebelum Anda dapat mulai menyiapkan data atau analisis. Dalam tahap ini, teknik penandaan digunakan untuk mengekspresikan pemahaman data, dengan mengatur dan menginterpretasikan data yang tertelan di Data lake.
Audit Data
Dua tugas audit data utama adalah melacak perubahan pada kumpulan data kunci.
- Melacak perubahan pada elemen set data penting
- Menangkap bagaimana / kapan / dan siapa yang berubah ke elemen-elemen ini.
Audit data membantu mengevaluasi risiko dan kepatuhan.
Silsilah Data
Komponen ini berhubungan dengan asal data. Ini terutama berkaitan dengan ke mana ia bergerak dari waktu ke waktu dan apa yang terjadi padanya. Ini memudahkan koreksi kesalahan dalam proses analitik data dari asal ke tujuan.
Eksplorasi Data
Ini adalah tahap awal dari analisis data. Ini membantu untuk mengidentifikasi set data yang tepat sangat penting sebelum memulai Eksplorasi Data.
Semua komponen yang diberikan perlu bekerja sama untuk memainkan peran penting dalam bangunan Danau Data dengan mudah berkembang dan menjelajahi lingkungan.
Tahapan kematangan Data Lake
Tahapan Definisi Data Lake Maturity berbeda dari buku teks ke buku lainnya. Padahal intinya tetap sama. Setelah kedewasaan, definisi panggung adalah dari sudut pandang orang awam.
Tahap 1: Tangani dan serap data dalam skala besar
Tahap pertama dari Data Maturity Involves meningkatkan kemampuan untuk mentransformasikan dan menganalisis data. Di sini, pemilik bisnis perlu menemukan alat yang sesuai dengan keahlian mereka untuk memperoleh lebih banyak data dan membangun aplikasi analitis.
Tahap 2: Membangun otot analitik
Ini adalah tahap kedua yang melibatkan peningkatan kemampuan untuk mentransformasikan dan menganalisis data. Dalam tahap ini, perusahaan menggunakan alat yang paling sesuai dengan keahlian mereka. Mereka mulai memperoleh lebih banyak data dan membangun aplikasi. Di sini, kapabilitas gudang data perusahaan dan data lake digunakan bersama.
Tahap 3: EDW dan Data Lake bekerja bersamaan
Langkah ini melibatkan penyampaian data dan analitik ke tangan sebanyak mungkin orang. Dalam tahap ini, data lake dan gudang data perusahaan mulai bekerja dalam satu kesatuan. Keduanya memainkan peran mereka dalam analitik
Tahap 4: Kemampuan perusahaan di dalam danau
Dalam tahap kematangan danau data ini, kapabilitas perusahaan ditambahkan ke Danau Data. Adopsi tata kelola informasi, kapabilitas manajemen siklus hidup informasi, dan manajemen Metadata. Namun, sangat sedikit organisasi yang dapat mencapai tingkat kematangan ini, tetapi penghitungan ini akan meningkat di masa mendatang.
Praktik terbaik untuk Implementasi Data Lake:
- Komponen arsitektur, interaksi dan produk yang diidentifikasi harus mendukung tipe data asli
- Desain Data Lake harus didorong oleh apa yang tersedia, bukan apa yang dibutuhkan. Persyaratan skema dan data tidak ditentukan hingga dikueri
- Desain harus dipandu oleh komponen sekali pakai yang terintegrasi dengan API layanan.
- Penemuan data, penyerapan, penyimpanan, administrasi, kualitas, transformasi, dan visualisasi harus dikelola secara independen.
- Arsitektur Data Lake harus disesuaikan dengan industri tertentu. Ini harus memastikan bahwa kemampuan yang diperlukan untuk domain itu merupakan bagian yang melekat dari desain
- Orientasi yang lebih cepat dari sumber data yang baru ditemukan itu penting
- Data Lake membantu manajemen yang disesuaikan untuk mengekstrak nilai maksimum
- Data Lake harus mendukung teknik dan metode manajemen data perusahaan yang ada
Tantangan membangun data lake:
- Di Data Lake, volume data lebih tinggi, sehingga prosesnya harus lebih bergantung pada administrasi terprogram
- Sulit untuk menangani data yang jarang, tidak lengkap, dan tidak stabil
- Cakupan kumpulan data dan sumber yang lebih luas membutuhkan tata kelola & dukungan data yang lebih besar
Perbedaan antara Data lake dan Data warehouse
Parameter | Data Lakes | Gudang data |
---|---|---|
Data | Danau data menyimpan segalanya. | Gudang Data hanya berfokus pada Proses Bisnis. |
Pengolahan | Sebagian besar data belum diproses | Data yang diproses dengan sangat baik. |
Jenis Data | Itu bisa tidak terstruktur, semi-terstruktur dan terstruktur. | Itu sebagian besar dalam bentuk & struktur tabel. |
Tugas | Bagikan pengelolaan data | Dioptimalkan untuk pengambilan data |
Kelincahan | Sangat gesit, konfigurasikan, dan konfigurasi ulang sesuai kebutuhan. | Bandingkan dengan Data lake, ini kurang gesit dan memiliki konfigurasi tetap. |
Pengguna | Data Lake banyak digunakan oleh Data Scientist | Para profesional bisnis banyak menggunakan Data Warehouse |
Penyimpanan | Desain danau data untuk penyimpanan berbiaya rendah. | Penyimpanan mahal yang memberikan waktu respons cepat digunakan |
Keamanan | Menawarkan kontrol yang lebih rendah. | Memungkinkan kontrol data yang lebih baik. |
Penggantian EDW | Data lake dapat menjadi sumber EDW | Pelengkap EDW (bukan pengganti) |
Skema | Skema saat membaca (tidak ada skema yang telah ditentukan) | Skema saat menulis (skema yang telah ditentukan) |
Pengolahan data | Membantu penyerapan data baru dengan cepat. | Menghabiskan waktu untuk memperkenalkan konten baru. |
Perincian Data | Data pada tingkat detail atau perincian yang rendah. | Data pada ringkasan atau tingkat detail gabungan. |
Alat | Bisa menggunakan open source / tools seperti Hadoop / Map Reduce | Sebagian besar alat komersial. |
Manfaat dan Risiko menggunakan Data Lake:
Berikut beberapa manfaat utama dalam menggunakan Data Lake:
- Membantu sepenuhnya dengan pengionisasi produk & analitik tingkat lanjut
- Menawarkan skalabilitas dan fleksibilitas yang hemat biaya
- Menawarkan nilai dari tipe data tak terbatas
- Mengurangi biaya kepemilikan jangka panjang
- Memungkinkan penyimpanan file secara ekonomis
- Mudah beradaptasi dengan perubahan
- Keuntungan utama dari data lake adalah sentralisasi berbagai sumber konten
- Pengguna, dari berbagai departemen, mungkin tersebar di seluruh dunia dapat memiliki akses data yang fleksibel
Risiko Menggunakan Data Lake:
- Setelah beberapa waktu, Data Lake mungkin kehilangan relevansi dan momentumnya
- Ada risiko yang lebih besar yang terlibat saat merancang Data Lake
- Data Tidak Terstruktur dapat menyebabkan Chao Tidak Terkendali, Data Tidak Dapat Digunakan, Alat Berbeda & Kompleks, Kolaborasi Seluruh Perusahaan, Bersatu, Konsisten, dan Umum
- Ini juga meningkatkan penyimpanan & menghitung biaya
- Tidak ada cara untuk mendapatkan wawasan dari orang lain yang telah bekerja dengan data tersebut karena tidak ada catatan silsilah temuan oleh analis sebelumnya.
- Risiko terbesar data lake adalah keamanan dan kontrol akses. Terkadang data dapat ditempatkan ke dalam danau tanpa pengawasan apa pun, karena beberapa data mungkin memerlukan privasi dan peraturan
Ringkasan:
- Data Lake adalah repositori penyimpanan yang dapat menyimpan data terstruktur, semi-terstruktur, dan tidak terstruktur dalam jumlah besar.
- Tujuan utama membangun data lake adalah untuk menawarkan pandangan data yang tidak tersaring kepada data scientist.
- Tingkat operasi terpadu, Tingkat pemrosesan, tingkat Distilasi, dan HDFS adalah lapisan penting dari Arsitektur Data Lake
- Penyerapan Data, Penyimpanan data, Kualitas data, Audit Data, Eksplorasi data, Penemuan data adalah beberapa komponen penting dari Arsitektur Data Lake
- Desain Data Lake harus didorong oleh apa yang tersedia, bukan apa yang dibutuhkan.
- Data Lake mengurangi biaya kepemilikan jangka panjang dan memungkinkan penyimpanan file secara ekonomis
- Risiko terbesar data lake adalah keamanan dan kontrol akses. Terkadang data dapat ditempatkan ke dalam danau tanpa pengawasan apa pun, karena beberapa data mungkin memerlukan privasi dan peraturan.