Konsep Data Warehouse
Konsep dasar dari Data Warehouse adalah untuk memfasilitasi satu versi kebenaran bagi perusahaan untuk pengambilan keputusan dan peramalan. Data warehouse adalah sistem informasi yang berisi data historis dan komutatif dari satu atau beberapa sumber. Konsep Gudang Data menyederhanakan proses pelaporan dan analisis organisasi.
Karakteristik Data warehouse
Konsep Data Warehouse memiliki karakteristik sebagai berikut:
- Berorientasi pada subjek
- Terintegrasi
- Variasi Waktu
- Tidak mudah menguap
Berorientasi pada subjek
Sebuah gudang data berorientasi pada subjek karena ia menawarkan informasi mengenai suatu tema alih-alih operasi berkelanjutan perusahaan. Subjek ini dapat berupa penjualan, pemasaran, distribusi, dll.
Gudang data tidak pernah berfokus pada operasi yang sedang berlangsung. Sebaliknya, ini menekankan pada pemodelan dan analisis data untuk pengambilan keputusan . Ini juga memberikan pandangan yang sederhana dan ringkas seputar subjek tertentu dengan mengecualikan data yang tidak membantu untuk mendukung proses pengambilan keputusan.
Terintegrasi
Di Data Warehouse, integrasi berarti pembentukan unit ukuran umum untuk semua data serupa dari database yang berbeda. Data juga perlu disimpan di Datawarehouse dengan cara yang umum dan dapat diterima secara universal.
Sebuah gudang data dikembangkan dengan mengintegrasikan data dari berbagai sumber seperti mainframe, database relasional, file datar, dll. Selain itu, ia harus menjaga konvensi penamaan, format, dan pengkodean yang konsisten.
Integrasi ini membantu dalam analisis data yang efektif. Konsistensi dalam konvensi penamaan, ukuran atribut, struktur pengkodean, dll. Harus dipastikan. Perhatikan contoh berikut:
Pada contoh di atas, terdapat tiga aplikasi berbeda berlabel A, B dan C. Informasi yang disimpan dalam aplikasi ini adalah Gender, Date, dan Balance. Namun, setiap data aplikasi disimpan dengan cara yang berbeda.
- Dalam Aplikasi, bidang gender menyimpan nilai logis seperti M atau F
- Dalam bidang jenis kelamin Aplikasi B adalah nilai numerik,
- Pada aplikasi Aplikasi C field gender disimpan dalam bentuk nilai karakter.
- Sama halnya dengan Tanggal dan saldo
Namun, setelah proses transformasi dan pembersihan, semua data ini disimpan dalam format umum di Data Warehouse.
Variasi Waktu
Cakrawala waktu untuk gudang data cukup luas dibandingkan dengan sistem operasional. Data yang dikumpulkan di gudang data dikenali dengan periode tertentu dan menawarkan informasi dari sudut pandang historis. Ini berisi elemen waktu, secara eksplisit atau implisit.
Salah satu tempat di mana data Datawarehouse menampilkan varian waktu berada dalam struktur kunci rekam. Setiap kunci utama yang dimuat dengan DW harus memiliki elemen waktu baik secara implisit maupun eksplisit. Seperti hari, minggu, bulan, dll.
Aspek lain dari perbedaan waktu adalah bahwa setelah data dimasukkan ke dalam gudang, itu tidak dapat diperbarui atau diubah.
Tidak mudah menguap
Data warehouse juga bersifat non-volatile artinya data sebelumnya tidak terhapus saat data baru dimasukkan di dalamnya.
Data bersifat hanya baca dan disegarkan secara berkala. Ini juga membantu menganalisis data historis dan memahami apa & kapan terjadi. Itu tidak membutuhkan proses transaksi, pemulihan dan mekanisme kontrol konkurensi.
Aktivitas seperti menghapus, memperbarui, dan menyisipkan yang dilakukan di lingkungan aplikasi operasional dihilangkan di lingkungan Data warehouse. Hanya dua jenis operasi data yang dilakukan di Data Warehousing saja
- Pemuatan data
- Akses data
Berikut adalah beberapa perbedaan utama antara Aplikasi dan Gudang Data
Aplikasi Operasional | Gudang data |
Program yang kompleks harus diberi kode untuk memastikan bahwa proses pemutakhiran data menjaga integritas tinggi dari produk akhir. | Masalah semacam ini tidak terjadi karena pembaruan data tidak dilakukan. |
Data ditempatkan dalam bentuk yang dinormalisasi untuk memastikan redundansi minimal. | Data tidak disimpan dalam bentuk normalisasi. |
Teknologi dibutuhkan untuk mendukung masalah transaksi, pemulihan data, rollback, dan resolusi karena kebuntuannya yang cukup kompleks. | Ini menawarkan kesederhanaan relatif dalam teknologi. |
Arsitektur Data Warehouse
Arsitektur Data Warehouse rumit karena merupakan sistem informasi yang berisi data historis dan komutatif dari berbagai sumber. Ada 3 pendekatan untuk membangun lapisan Data Warehouse: Satu Tingkat, Dua Tingkat dan Tiga Tingkat. Arsitektur Data Warehouse 3 tingkat ini dijelaskan seperti di bawah ini.
Arsitektur tingkat tunggal
Tujuan dari satu lapisan adalah untuk meminimalkan jumlah data yang disimpan. Tujuan ini untuk menghapus redundansi data. Arsitektur ini tidak sering digunakan dalam praktiknya.
Arsitektur dua tingkat
Arsitektur dua lapis adalah salah satu lapisan Data Warehouse yang memisahkan sumber yang tersedia secara fisik dan data warehouse. Arsitektur ini tidak dapat diperluas dan juga tidak mendukung banyak pengguna akhir. Ini juga memiliki masalah konektivitas karena keterbatasan jaringan.
Arsitektur Gudang Data Tiga Tingkat
Ini adalah Arsitektur Data Warehouse yang paling banyak digunakan.
Terdiri dari Tingkat Atas, Tengah dan Bawah.
- Tingkat Bawah: Database server Datawarehouse sebagai tingkat bawah. Biasanya sistem database relasional. Data dibersihkan, diubah, dan dimuat ke lapisan ini menggunakan alat back-end.
- Tingkat Tengah: Tingkat menengah di Data warehouse adalah server OLAP yang diimplementasikan menggunakan model ROLAP atau MOLAP. Untuk pengguna, tingkat aplikasi ini menyajikan tampilan database yang diabstraksikan. Lapisan ini juga bertindak sebagai mediator antara pengguna akhir dan database.
- Tingkat Atas: Tingkat atas adalah lapisan klien front-end. Tingkat atas adalah alat dan API yang Anda sambungkan dan dapatkan data dari gudang data. Ini bisa berupa alat Kueri, alat pelaporan, alat kueri terkelola, alat Analisis, dan alat Penambangan data.
Komponen Datawarehouse
Kita akan belajar tentang Komponen Datawarehouse dan Arsitektur Data Warehouse dengan Diagram seperti di bawah ini:
Data Warehouse didasarkan pada server RDBMS yang merupakan tempat penyimpanan informasi pusat yang dikelilingi oleh beberapa komponen Data Warehousing utama untuk membuat seluruh lingkungan berfungsi, dapat dikelola, dan dapat diakses.
Terutama ada lima Komponen Gudang Data:
Database Gudang Data
Database pusat adalah fondasi dari lingkungan data warehousing. Database ini diimplementasikan pada teknologi RDBMS. Meskipun, penerapan semacam ini dibatasi oleh fakta bahwa sistem RDBMS tradisional dioptimalkan untuk pemrosesan basis data transaksional dan bukan untuk pergudangan data. Misalnya, kueri ad-hoc, gabungan multi-tabel, agregat intensif sumber daya dan memperlambat kinerja.
Oleh karena itu, pendekatan alternatif untuk Database digunakan seperti yang tercantum di bawah ini-
- Di datawarehouse, database relasional digunakan secara paralel untuk memungkinkan skalabilitas. Basis data relasional paralel juga memungkinkan memori bersama atau model apa pun bersama pada berbagai konfigurasi multiprosesor atau prosesor paralel besar-besaran.
- Struktur indeks baru digunakan untuk melewati pemindaian tabel relasional dan meningkatkan kecepatan.
- Penggunaan database multidimensi (MDDB) untuk mengatasi batasan apa pun yang ditempatkan karena Model Data Warehouse relasional. Contoh: Essbase dari Oracle.
Sourcing, Acquisition, Clean-up dan Transformation Tools (ETL)
Alat sumber data, transformasi, dan migrasi digunakan untuk melakukan semua konversi, ringkasan, dan semua perubahan yang diperlukan untuk mengubah data menjadi format terpadu di gudang data. Mereka juga disebut Alat Ekstrak, Transformasi, dan Muat (ETL).
Fungsinya meliputi:
- Anonimkan data sesuai ketentuan peraturan.
- Menghilangkan data yang tidak diinginkan dalam database operasional dari pemuatan ke Data warehouse.
- Cari dan ganti nama dan definisi umum untuk data yang berasal dari sumber berbeda.
- Menghitung ringkasan dan data turunan
- Jika ada data yang hilang, isi dengan default.
- Menghilangkan duplikat data berulang yang berasal dari beberapa sumber data.
Alat Ekstrak, Transformasi, dan Muat ini dapat menghasilkan pekerjaan cron, pekerjaan latar belakang, program Cobol, skrip shell, dll. Yang secara teratur memperbarui data di datawarehouse. Alat-alat ini juga berguna untuk memelihara Metadata.
Alat ETL ini harus menghadapi tantangan heterogenitas Database & Data.
Metadata
Nama Meta Data menunjukkan beberapa Konsep Data Warehousing teknologi tingkat tinggi. Namun, ini cukup sederhana. Metadata adalah data tentang data yang mendefinisikan gudang data. Ini digunakan untuk membangun, memelihara, dan mengelola gudang data.
Dalam Arsitektur Data Warehouse, meta-data memainkan peran penting karena menentukan sumber, penggunaan, nilai, dan fitur data gudang data. Ini juga menentukan bagaimana data dapat diubah dan diproses. Itu terkait erat dengan gudang data.
Misalnya, baris dalam database penjualan mungkin berisi:
4030 KJ732 299.90
Ini adalah data yang tidak berarti sampai kami berkonsultasi dengan Meta yang memberi tahu kami
- Nomor Model: 4030
- ID Agen Penjualan: KJ732
- Total jumlah penjualan $ 299.90
Oleh karena itu, Meta Data merupakan bahan penting dalam transformasi data menjadi pengetahuan.
Metadata membantu menjawab pertanyaan-pertanyaan berikut
- Tabel, atribut, dan kunci apa yang terdapat dalam Data Warehouse?
- Darimana asal data tersebut?
- Berapa kali data dimuat ulang?
- Transformasi apa yang diterapkan dengan pembersihan?
Metadata dapat diklasifikasikan ke dalam kategori berikut:
- Teknis Meta Data : Jenis Metadata berisi informasi tentang gudang yang digunakan oleh perancang dan administrator gudang data.
- Business Meta Data: Metadata jenis ini berisi detail yang memberi pengguna akhir cara mudah untuk memahami informasi yang disimpan di gudang data.
Alat Kueri
Salah satu objek utama data warehousing adalah memberikan informasi kepada bisnis untuk membuat keputusan strategis. Alat kueri memungkinkan pengguna untuk berinteraksi dengan sistem gudang data.
Alat-alat ini terbagi dalam empat kategori berbeda:
- Alat kueri dan pelaporan
- Alat Pengembangan Aplikasi
- Alat penambangan data
- Alat OLAP
1. Alat kueri dan pelaporan:
Alat kueri dan pelaporan dapat dibagi lagi menjadi
- Alat pelaporan
- Alat kueri terkelola
Alat pelaporan:
Alat pelaporan dapat dibagi lagi menjadi alat pelaporan produksi dan penulis laporan desktop.
- Penulis laporan: Alat pelaporan semacam ini adalah alat yang dirancang untuk pengguna akhir untuk analisis mereka.
- Pelaporan produksi: Alat semacam ini memungkinkan organisasi menghasilkan laporan operasional reguler. Ini juga mendukung pekerjaan batch volume tinggi seperti pencetakan dan penghitungan. Beberapa alat pelaporan populer adalah Brio, Business Objects, Oracle, PowerSoft, SAS Institute.
Alat kueri terkelola:
Alat akses semacam ini membantu pengguna akhir untuk menyelesaikan masalah dalam database dan SQL dan struktur database dengan memasukkan meta-layer antara pengguna dan database.
2. Alat pengembangan aplikasi:
Terkadang alat grafis dan analitik bawaan tidak memenuhi kebutuhan analitis organisasi. Dalam kasus seperti itu, laporan kustom dikembangkan menggunakan alat pengembangan Aplikasi.
3. Alat penggalian data:
Penambangan data adalah proses menemukan korelasi, pola, dan tren baru yang bermakna dengan menambang data dalam jumlah besar. Alat data mining digunakan untuk membuat proses ini otomatis.
4. Alat OLAP:
Alat-alat ini didasarkan pada konsep database multidimensi. Ini memungkinkan pengguna untuk menganalisis data menggunakan tampilan multidimensi yang rumit dan rumit.
Arsitektur Bus Data Warehouse
Bus data warehouse menentukan aliran data di gudang Anda. Aliran data di gudang data dapat dikategorikan sebagai Arus Masuk, Arus Naik, Arus Bawah, Arus Keluar dan Arus Meta.
Saat merancang Bus Data, seseorang perlu mempertimbangkan dimensi bersama, fakta di seluruh data mart.
Data Marts
Data mart adalah lapisan akses yang digunakan untuk mengirimkan data ke pengguna. Ini disajikan sebagai opsi untuk gudang data ukuran besar karena membutuhkan lebih sedikit waktu dan uang untuk membangunnya. Namun, tidak ada definisi standar tentang data mart yang berbeda dari orang ke orang.
Sederhananya, Data mart adalah anak perusahaan dari data warehouse. Data mart digunakan untuk partisi data yang dibuat untuk kelompok pengguna tertentu.
Data mart dapat dibuat dalam database yang sama dengan Datawarehouse atau Database yang terpisah secara fisik.
Praktik Terbaik Arsitektur Data Warehouse
Untuk merancang Arsitektur Data Warehouse, Anda perlu mengikuti praktik terbaik yang diberikan di bawah ini:
- Gunakan Model Data Warehouse yang dioptimalkan untuk pengambilan informasi yang dapat berupa mode dimensional, denormalisasi atau pendekatan hybrid.
- Pilih pendekatan desain yang sesuai sebagai pendekatan top down dan bottom up di Data Warehouse
- Perlu dipastikan bahwa Data diproses dengan cepat dan akurat. Pada saat yang sama, Anda harus mengambil pendekatan yang menggabungkan data menjadi satu versi kebenaran.
- Rancang akuisisi data dan proses pembersihan dengan hati-hati untuk Data warehouse.
- Rancang arsitektur MetaData yang memungkinkan berbagi metadata antar komponen Data Warehouse
- Pertimbangkan untuk menerapkan model ODS ketika kebutuhan pencarian informasi berada di dekat bagian bawah piramida abstraksi data atau ketika ada beberapa sumber operasional yang diperlukan untuk diakses.
- Seseorang harus memastikan bahwa model data terintegrasi dan tidak hanya terkonsolidasi. Dalam hal ini, Anda harus mempertimbangkan model data 3NF. Ini juga ideal untuk memperoleh ETL dan alat pembersihan Data
Ringkasan:
- Data warehouse adalah sistem informasi yang berisi data historis dan komutatif dari satu atau beberapa sumber. Sumber ini dapat berupa Data Warehouse tradisional, Cloud Data Warehouse atau Virtual Data Warehouse.
- Gudang data berorientasi pada subjek karena menawarkan informasi mengenai subjek alih-alih operasi organisasi yang sedang berlangsung.
- Di Data Warehouse, integrasi berarti pembentukan unit ukuran umum untuk semua data serupa dari database yang berbeda
- Data warehouse juga bersifat non-volatile artinya data sebelumnya tidak terhapus saat data baru dimasukkan di dalamnya.
- A Datawarehouse adalah Time-variant karena data dalam DW memiliki umur simpan yang tinggi.
- Ada 5 komponen utama dari Arsitektur Data Warehouse: 1) Database 2) Alat ETL 3) Meta Data 4) Alat Query 5) DataMarts
- Ini adalah empat kategori utama alat kueri 1. Kueri dan pelaporan, alat 2. Alat Pengembangan Aplikasi, 3. Alat penambangan data 4. Alat OLAP
- Alat sumber data, transformasi, dan migrasi digunakan untuk melakukan semua konversi dan ringkasan.
- Dalam Arsitektur Data Warehouse, meta-data memainkan peran penting karena menentukan sumber, penggunaan, nilai, dan fitur data gudang data.