Apa itu Data Lake? Ini Arsitektur

Apa itu Data Lake?

Data Lake adalah repositori penyimpanan yang dapat menyimpan data terstruktur, semi-terstruktur, dan tidak terstruktur dalam jumlah besar. Ini adalah tempat untuk menyimpan setiap jenis data dalam format aslinya tanpa batasan tetap pada ukuran akun atau file. Ini menawarkan kuantitas data yang tinggi untuk meningkatkan kinerja analitik dan integrasi asli.

Danau Data seperti wadah besar yang sangat mirip dengan danau dan sungai asli. Sama seperti di danau Anda memiliki beberapa anak sungai yang masuk, data lake memiliki data terstruktur, data tidak terstruktur, mesin ke mesin, log yang mengalir secara real-time.

Data Lake mendemokrasikan data dan merupakan cara hemat biaya untuk menyimpan semua data organisasi untuk diproses nanti. Analis Riset dapat fokus untuk menemukan pola makna dalam data dan bukan data itu sendiri.

Tidak seperti rumah Dataware hierarki tempat data disimpan dalam File dan Folder, Data lake memiliki arsitektur datar. Setiap elemen data di Data Lake diberi pengenal unik dan diberi tag dengan sekumpulan informasi metadata.

Dalam tutorial ini, Anda akan belajar-

Apa itu Data Lake?
Mengapa Data Lake?
Arsitektur Data Lake
Konsep Danau Data Kunci
Tahapan kematangan Data Lake
Praktik terbaik untuk Implementasi Data Lake:
Perbedaan antara Data lake dan Data warehouse
Manfaat dan Risiko menggunakan Data Lake:

Mengapa Data Lake?

Tujuan utama membangun data lake adalah untuk menawarkan pandangan data yang tidak tersaring kepada data scientist.

Alasan menggunakan Data Lake adalah:

Dengan dimulainya mesin penyimpanan seperti Hadoop, menyimpan informasi yang berbeda menjadi mudah. Tidak perlu memodelkan data ke dalam skema skala perusahaan dengan Data Lake.
Dengan meningkatnya volume data, kualitas data, dan metadata, maka kualitas analisis juga meningkat.
Data Lake menawarkan Agility bisnis
Pembelajaran Mesin dan Kecerdasan Buatan dapat digunakan untuk membuat prediksi yang menguntungkan.
Ini menawarkan keunggulan kompetitif bagi organisasi pelaksana.
Tidak ada struktur silo data. Data Lake memberikan pandangan 360 derajat dari pelanggan dan membuat analisis lebih kuat.

Arsitektur Data Lake

Gambar tersebut menunjukkan arsitektur Business Data Lake. Tingkat bawah mewakili data yang sebagian besar diam sedangkan tingkat atas menunjukkan data transaksional real-time. Data ini mengalir melalui sistem tanpa atau sedikit latensi. Berikut adalah tingkatan penting dalam Arsitektur Data Lake:

Tingkat Penyerapan : Tingkat di sisi kiri menggambarkan sumber data. Data dapat dimuat ke dalam data lake secara berkelompok atau secara real-time
Tingkat Wawasan: Tingkat di sebelah kanan mewakili sisi penelitian tempat wawasan dari sistem digunakan. SQL, kueri NoSQL, atau bahkan excel dapat digunakan untuk analisis data.
HDFS adalah solusi hemat biaya untuk data terstruktur dan tidak terstruktur. Ini adalah zona pendaratan untuk semua data yang ada di sistem.
Tingkat distilasi mengambil data dari ban penyimpanan dan mengubahnya menjadi data terstruktur untuk analisis yang lebih mudah.
Tingkat pemrosesan menjalankan algoritme analitik dan kueri pengguna dengan berbagai waktu nyata, interaktif, batch untuk menghasilkan data terstruktur untuk analisis yang lebih mudah.
Tingkat operasi terpadu mengatur manajemen dan pemantauan sistem. Ini termasuk audit dan manajemen kemahiran, manajemen data, manajemen alur kerja.

Konsep Danau Data Kunci

Berikut adalah konsep Key Data Lake yang perlu dipahami untuk sepenuhnya memahami Arsitektur Data Lake

Penyerapan Data

Penyerapan Data memungkinkan konektor untuk mendapatkan data dari sumber data yang berbeda dan memuat ke Data lake.

Dukungan Penyerapan Data:

Semua jenis data Terstruktur, Semi-Terstruktur, dan Tidak Terstruktur.
Beberapa penyerapan seperti Batch, Real-Time, One-time load.
Banyak jenis sumber data seperti Database, Webservers, Email, IoT, dan FTP.

Penyimpanan data

Penyimpanan data harus dapat diskalakan, menawarkan penyimpanan hemat biaya dan memungkinkan akses cepat ke eksplorasi data. Ini harus mendukung berbagai format data.

Tata Kelola Data

Tata kelola data adalah proses mengelola ketersediaan, kegunaan, keamanan, dan integritas data yang digunakan dalam suatu organisasi.

Keamanan

Keamanan perlu diterapkan di setiap lapisan Danau Data. Dimulai dengan Penyimpanan, Penggalian, dan Konsumsi. Kebutuhan dasarnya adalah menghentikan akses untuk pengguna yang tidak sah. Ini harus mendukung alat yang berbeda untuk mengakses data dengan GUI dan Dasbor yang mudah dinavigasi.

Otentikasi, Akuntansi, Otorisasi dan Perlindungan Data adalah beberapa fitur penting dari keamanan data lake.

Kualitas data:

Kualitas data merupakan komponen penting dari arsitektur Data Lake. Data digunakan untuk menentukan nilai bisnis. Mengekstrak wawasan dari data berkualitas buruk akan menghasilkan wawasan berkualitas buruk.

Penemuan Data

Penemuan Data adalah tahap penting lainnya sebelum Anda dapat mulai menyiapkan data atau analisis. Dalam tahap ini, teknik penandaan digunakan untuk mengekspresikan pemahaman data, dengan mengatur dan menginterpretasikan data yang tertelan di Data lake.

Audit Data

Dua tugas audit data utama adalah melacak perubahan pada kumpulan data kunci.

Melacak perubahan pada elemen set data penting
Menangkap bagaimana / kapan / dan siapa yang berubah ke elemen-elemen ini.

Audit data membantu mengevaluasi risiko dan kepatuhan.

Silsilah Data

Komponen ini berhubungan dengan asal data. Ini terutama berkaitan dengan ke mana ia bergerak dari waktu ke waktu dan apa yang terjadi padanya. Ini memudahkan koreksi kesalahan dalam proses analitik data dari asal ke tujuan.

Eksplorasi Data

Ini adalah tahap awal dari analisis data. Ini membantu untuk mengidentifikasi set data yang tepat sangat penting sebelum memulai Eksplorasi Data.

Semua komponen yang diberikan perlu bekerja sama untuk memainkan peran penting dalam bangunan Danau Data dengan mudah berkembang dan menjelajahi lingkungan.

Tahapan kematangan Data Lake

Tahapan Definisi Data Lake Maturity berbeda dari buku teks ke buku lainnya. Padahal intinya tetap sama. Setelah kedewasaan, definisi panggung adalah dari sudut pandang orang awam.

Tahap 1: Tangani dan serap data dalam skala besar

Tahap pertama dari Data Maturity Involves meningkatkan kemampuan untuk mentransformasikan dan menganalisis data. Di sini, pemilik bisnis perlu menemukan alat yang sesuai dengan keahlian mereka untuk memperoleh lebih banyak data dan membangun aplikasi analitis.

Tahap 2: Membangun otot analitik

Ini adalah tahap kedua yang melibatkan peningkatan kemampuan untuk mentransformasikan dan menganalisis data. Dalam tahap ini, perusahaan menggunakan alat yang paling sesuai dengan keahlian mereka. Mereka mulai memperoleh lebih banyak data dan membangun aplikasi. Di sini, kapabilitas gudang data perusahaan dan data lake digunakan bersama.

Tahap 3: EDW dan Data Lake bekerja bersamaan

Langkah ini melibatkan penyampaian data dan analitik ke tangan sebanyak mungkin orang. Dalam tahap ini, data lake dan gudang data perusahaan mulai bekerja dalam satu kesatuan. Keduanya memainkan peran mereka dalam analitik

Tahap 4: Kemampuan perusahaan di dalam danau

Dalam tahap kematangan danau data ini, kapabilitas perusahaan ditambahkan ke Danau Data. Adopsi tata kelola informasi, kapabilitas manajemen siklus hidup informasi, dan manajemen Metadata. Namun, sangat sedikit organisasi yang dapat mencapai tingkat kematangan ini, tetapi penghitungan ini akan meningkat di masa mendatang.

Praktik terbaik untuk Implementasi Data Lake:

Komponen arsitektur, interaksi dan produk yang diidentifikasi harus mendukung tipe data asli
Desain Data Lake harus didorong oleh apa yang tersedia, bukan apa yang dibutuhkan. Persyaratan skema dan data tidak ditentukan hingga dikueri
Desain harus dipandu oleh komponen sekali pakai yang terintegrasi dengan API layanan.
Penemuan data, penyerapan, penyimpanan, administrasi, kualitas, transformasi, dan visualisasi harus dikelola secara independen.
Arsitektur Data Lake harus disesuaikan dengan industri tertentu. Ini harus memastikan bahwa kemampuan yang diperlukan untuk domain itu merupakan bagian yang melekat dari desain
Orientasi yang lebih cepat dari sumber data yang baru ditemukan itu penting
Data Lake membantu manajemen yang disesuaikan untuk mengekstrak nilai maksimum
Data Lake harus mendukung teknik dan metode manajemen data perusahaan yang ada

Tantangan membangun data lake:

Di Data Lake, volume data lebih tinggi, sehingga prosesnya harus lebih bergantung pada administrasi terprogram
Sulit untuk menangani data yang jarang, tidak lengkap, dan tidak stabil
Cakupan kumpulan data dan sumber yang lebih luas membutuhkan tata kelola & dukungan data yang lebih besar

Perbedaan antara Data lake dan Data warehouse

Parameter	Data Lakes	Gudang data
Data	Danau data menyimpan segalanya.	Gudang Data hanya berfokus pada Proses Bisnis.
Pengolahan	Sebagian besar data belum diproses	Data yang diproses dengan sangat baik.
Jenis Data	Itu bisa tidak terstruktur, semi-terstruktur dan terstruktur.	Itu sebagian besar dalam bentuk & struktur tabel.
Tugas	Bagikan pengelolaan data	Dioptimalkan untuk pengambilan data
Kelincahan	Sangat gesit, konfigurasikan, dan konfigurasi ulang sesuai kebutuhan.	Bandingkan dengan Data lake, ini kurang gesit dan memiliki konfigurasi tetap.
Pengguna	Data Lake banyak digunakan oleh Data Scientist	Para profesional bisnis banyak menggunakan Data Warehouse
Penyimpanan	Desain danau data untuk penyimpanan berbiaya rendah.	Penyimpanan mahal yang memberikan waktu respons cepat digunakan
Keamanan	Menawarkan kontrol yang lebih rendah.	Memungkinkan kontrol data yang lebih baik.
Penggantian EDW	Data lake dapat menjadi sumber EDW	Pelengkap EDW (bukan pengganti)
Skema	Skema saat membaca (tidak ada skema yang telah ditentukan)	Skema saat menulis (skema yang telah ditentukan)
Pengolahan data	Membantu penyerapan data baru dengan cepat.	Menghabiskan waktu untuk memperkenalkan konten baru.
Perincian Data	Data pada tingkat detail atau perincian yang rendah.	Data pada ringkasan atau tingkat detail gabungan.
Alat	Bisa menggunakan open source / tools seperti Hadoop / Map Reduce	Sebagian besar alat komersial.

Manfaat dan Risiko menggunakan Data Lake:

Berikut beberapa manfaat utama dalam menggunakan Data Lake:

Membantu sepenuhnya dengan pengionisasi produk & analitik tingkat lanjut
Menawarkan skalabilitas dan fleksibilitas yang hemat biaya
Menawarkan nilai dari tipe data tak terbatas
Mengurangi biaya kepemilikan jangka panjang
Memungkinkan penyimpanan file secara ekonomis
Mudah beradaptasi dengan perubahan
Keuntungan utama dari data lake adalah sentralisasi berbagai sumber konten
Pengguna, dari berbagai departemen, mungkin tersebar di seluruh dunia dapat memiliki akses data yang fleksibel

Risiko Menggunakan Data Lake:

Setelah beberapa waktu, Data Lake mungkin kehilangan relevansi dan momentumnya
Ada risiko yang lebih besar yang terlibat saat merancang Data Lake
Data Tidak Terstruktur dapat menyebabkan Chao Tidak Terkendali, Data Tidak Dapat Digunakan, Alat Berbeda & Kompleks, Kolaborasi Seluruh Perusahaan, Bersatu, Konsisten, dan Umum
Ini juga meningkatkan penyimpanan & menghitung biaya
Tidak ada cara untuk mendapatkan wawasan dari orang lain yang telah bekerja dengan data tersebut karena tidak ada catatan silsilah temuan oleh analis sebelumnya.
Risiko terbesar data lake adalah keamanan dan kontrol akses. Terkadang data dapat ditempatkan ke dalam danau tanpa pengawasan apa pun, karena beberapa data mungkin memerlukan privasi dan peraturan

Ringkasan:

Data Lake adalah repositori penyimpanan yang dapat menyimpan data terstruktur, semi-terstruktur, dan tidak terstruktur dalam jumlah besar.
Tujuan utama membangun data lake adalah untuk menawarkan pandangan data yang tidak tersaring kepada data scientist.
Tingkat operasi terpadu, Tingkat pemrosesan, tingkat Distilasi, dan HDFS adalah lapisan penting dari Arsitektur Data Lake
Penyerapan Data, Penyimpanan data, Kualitas data, Audit Data, Eksplorasi data, Penemuan data adalah beberapa komponen penting dari Arsitektur Data Lake
Desain Data Lake harus didorong oleh apa yang tersedia, bukan apa yang dibutuhkan.
Data Lake mengurangi biaya kepemilikan jangka panjang dan memungkinkan penyimpanan file secara ekonomis
Risiko terbesar data lake adalah keamanan dan kontrol akses. Terkadang data dapat ditempatkan ke dalam danau tanpa pengawasan apa pun, karena beberapa data mungkin memerlukan privasi dan peraturan.

Apa itu Data Lake? Ini Arsitektur

Daftar Isi:

Apa itu Data Lake?

Mengapa Data Lake?

Arsitektur Data Lake

Konsep Danau Data Kunci

Penyerapan Data

Penyimpanan data

Tata Kelola Data

Keamanan

Kualitas data:

Penemuan Data

Audit Data

Silsilah Data

Eksplorasi Data

Tahapan kematangan Data Lake

Tahap 1: Tangani dan serap data dalam skala besar

Tahap 2: Membangun otot analitik

Tahap 3: EDW dan Data Lake bekerja bersamaan

Tahap 4: Kemampuan perusahaan di dalam danau

Praktik terbaik untuk Implementasi Data Lake:

Perbedaan antara Data lake dan Data warehouse

Manfaat dan Risiko menggunakan Data Lake:

Ringkasan:

# 141: Mendapatkan Gambar dan Angka untuk Gambar Responsif - Trik CSS

# 135: Tiga Cara Menganimasikan SVG - Trik CSS

# 140: Menjelajahi Teknik Tata Letak CSS Saat Mencoba Mendapatkan Subtitle untuk Dibungkus - Trik CSS

# 133: Mencari Gambar Responsif - Trik CSS

# 143: Menggunakan dan Menyimpan JSON Pihak Ketiga dengan WordPress - Trik CSS

Pengantar Data Master di SAP

Cara Menyalin Master Material di SAP: MM01

MM17: Pemeliharaan Massal Master Material di SAP

Pengantar Pembelian & Daftar Permintaan Pembelian di SAP

Cara Mengubah Catatan Info Pembelian: ME12 di SAP

Fungsi Statistik NumPy dengan Contoh

Perkalian Matriks NumPy dengan Contoh np.matmul ()

Cara Mengunduh & Instal Rstudio: Anaconda Pada Windows / Mac

Aritmatika & Operator Logis: Tipe Data R dengan Contoh

Numpy.dot () dengan Python - Fungsi Produk Numpy Dot & Contoh