Partisi Sarang & Bucket dengan Contoh

Tabel, Partisi, dan Bucket adalah bagian dari pemodelan data Hive.

Apa itu Partisi?

Partisi Hive adalah cara untuk mengatur tabel menjadi beberapa partisi dengan membagi tabel menjadi beberapa bagian berbeda berdasarkan kunci partisi.

Partisi berguna jika tabel memiliki satu atau lebih tombol Partisi. Kunci partisi adalah elemen dasar untuk menentukan bagaimana data disimpan dalam tabel.

Contoh : -

"Klien memiliki Beberapa data E-niaga yang termasuk dalam operasi India di mana setiap negara bagian (38 negara bagian) operasi disebutkan secara keseluruhan. Jika kami mengambil kolom negara bagian sebagai kunci partisi dan melakukan partisi pada data India tersebut secara keseluruhan, kami dapat untuk mendapatkan Jumlah partisi (38 partisi) yang sama dengan jumlah state (38) yang ada di India, sehingga setiap data state dapat dilihat secara terpisah pada tabel partisi.

Cuplikan Kode Sampel untuk partisi

Penciptaan Tabel semua negara bagian

create table all states(state string, District string,Enrolments string)row format delimitedfields terminated by ',';

Memuat data ke dalam tabel yang dibuat semua status

Load data local inpath '/home/hduser/Desktop/AllStates.csv' into table allstates;

Pembuatan tabel partisi

create table state_part(District string,Enrolments string) PARTITIONED BY(state string);

Untuk partisi kita harus mengatur properti ini

set hive.exec.dynamic.partition.mode=nonstrict

Memuat data ke dalam tabel partisi

INSERT OVERWRITE TABLE state_part PARTITION(state)SELECT district,enrolments,state from allstates;

Pemrosesan aktual dan pembentukan tabel partisi berdasarkan status sebagai kunci partisi
Akan ada 38 keluaran partisi dalam penyimpanan HDFS dengan nama file sebagai nama negara. Kami akan memeriksa ini di langkah ini

Tangkapan layar berikut akan menunjukkan eksekusi kode yang disebutkan di atas

Dari kode di atas, kami melakukan hal-hal berikut

Pembuatan tabel semua negara bagian dengan 3 nama kolom seperti negara bagian, distrik, dan pendaftaran
Memuat data ke dalam tabel semua status
Pembuatan tabel partisi dengan status sebagai kunci partisi
Pada langkah ini Mengatur mode partisi sebagai non-ketat (Mode ini akan mengaktifkan mode partisi dinamis)
Memuat data ke dalam partisi tablestate_part
Pemrosesan aktual dan pembentukan tabel partisi berdasarkan status sebagai kunci partisi
Akan ada 38 keluaran partisi di penyimpanan HDFS dengan nama file sebagai nama negara. Kami akan memeriksa ini di langkah ini. Pada langkah ini, kita melihat 38 keluaran partisi dalam HDFS

Apa itu Bucket?

Bucket di sarang digunakan untuk memisahkan data tabel sarang menjadi beberapa file atau direktori. ini digunakan untuk pembuatan kueri yang efisien.

Data yang ada di partisi itu dapat dibagi lagi menjadi Bucket
Pembagian dilakukan berdasarkan Hash kolom tertentu yang kami pilih di tabel.
Bucket menggunakan beberapa bentuk algoritme Hash di bagian belakang untuk membaca setiap record dan menempatkannya ke dalam bucket
Di Hive, kita harus mengaktifkan bucket dengan menggunakan set.hive.enforce.bucketing = true;

Langkah 1) Membuat Bucket seperti yang ditunjukkan di bawah ini.

Dari tangkapan layar di atas

Kami membuat sample_bucket dengan nama kolom seperti first_name, job_id, departemen, gaji dan negara
Kami membuat 4 ember di sana.
Setelah data dimuat secara otomatis, tempatkan data ke dalam 4 keranjang

Langkah 2) Memuat Data ke dalam keranjang sampel tabel

Dengan asumsi bahwa "tabel Karyawan" sudah dibuat di sistem Hive. Pada langkah ini, kita akan melihat pemuatan data dari tabel karyawan ke dalam tabel sampel ember.

Sebelum kita mulai memindahkan data karyawan ke dalam kelompok, pastikan itu terdiri dari nama kolom seperti nama_pertama, id_pekerjaan, departemen, gaji, dan negara.

Di sini kami memuat data ke dalam ember sampel dari tabel karyawan.

Langkah 3) Menampilkan 4 keranjang yang dibuat pada Langkah 1

Dari tangkapan layar di atas, kita dapat melihat bahwa data dari tabel karyawan ditransfer ke dalam 4 keranjang yang dibuat pada langkah 1.