Apa Faktor R?
Faktor dalam R adalah variabel yang digunakan untuk mengkategorikan dan menyimpan data, memiliki sejumlah nilai berbeda yang terbatas. Ini menyimpan data sebagai vektor nilai integer. Faktor dalam R juga dikenal sebagai variabel kategorikal yang menyimpan nilai data string dan integer sebagai level. Faktor banyak digunakan dalam Pemodelan Statistik dan analisis data eksplorasi dengan R.
Dalam dataset, kita dapat membedakan dua jenis variabel: kategorikal dan kontinu .
- Dalam statistik deskriptif untuk variabel kategori di R, nilainya terbatas dan biasanya didasarkan pada kelompok hingga tertentu. Misalnya, variabel kategori di R dapat berupa negara, tahun, jenis kelamin, pekerjaan.
- Variabel kontinu, bagaimanapun, dapat mengambil nilai apa pun, dari bilangan bulat hingga desimal. Misalnya, kita dapat memperoleh pendapatan, harga saham, dll…
Variabel Kategori
Variabel kategori di R disimpan menjadi faktor. Mari kita periksa kode di bawah ini untuk mengubah variabel karakter menjadi variabel faktor di R. Karakter tidak didukung dalam algoritma pembelajaran mesin, dan satu-satunya cara adalah dengan mengubah string menjadi integer.
Sintaksis
factor(x = character(), levels, labels = levels, ordered = is.ordered(x))
Argumen:
- x : Vektor data kategorikal dalam R. Harus berupa string atau integer, bukan desimal.
- Tingkat : Vektor nilai yang mungkin diambil oleh x. Argumen ini opsional. Nilai defaultnya adalah daftar unik item vektor x.
- Label : Tambahkan label ke x data kategorikal di R. Misalnya, 1 dapat menggunakan label `laki-laki` sementara 0, label` perempuan`.
- memerintahkan : Tentukan apakah level harus diurutkan dalam data kategori di R.
Contoh:
Mari buat bingkai data faktor.
# Create gender vectorgender_vector <- c("Male", "Female", "Female", "Male", "Male")class(gender_vector)# Convert gender_vector to a factorfactor_gender_vector <-factor(gender_vector)class(factor_gender_vector)
Keluaran:
## [1] "character"## [1] "factor"
Penting untuk mengubah string menjadi variabel faktor di R saat kita melakukan tugas Machine Learning.
Variabel kategori di R dapat dibagi menjadi variabel kategori nominal dan variabel kategori ordinal .
Variabel Kategorikal Nominal
Variabel kategorikal memiliki beberapa nilai tetapi urutannya tidak menjadi masalah. Misalnya pria atau wanita. Variabel kategori di R tidak memiliki urutan.
# Create a color vectorcolor_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow')# Convert the vector to factorfactor_color <- factor(color_vector)factor_color
Keluaran:
## [1] blue red green white black yellow## Levels: black blue green red white yellow
Dari factor_color, kami tidak dapat memberi tahu urutan apa pun.
Variabel Kategorikal Ordinal
Variabel kategorikal ordinal memang memiliki urutan alami. Kita dapat menentukan urutannya, dari yang terendah ke tertinggi dengan urutan = BENAR dan tertinggi ke terendah dengan urutan = SALAH.
Contoh:
Kita dapat menggunakan ringkasan untuk menghitung nilai setiap variabel faktor dalam R.
# Create Ordinal categorical vectorday_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening')# Convert `day_vector` to a factor with ordered levelfactor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight'))# Print the new variablefactor_day
Keluaran:
## [1] evening morning afternoon middaymidnight evening
Contoh:
## Levels: morning < midday < afternoon < evening < midnight# Append the line to above code# Count the number of occurence of each levelsummary(factor_day)
Keluaran:
## morning midday afternoon evening midnight## 1 1 1 2 1
R memerintahkan tingkat dari 'pagi' hingga 'tengah malam' seperti yang ditentukan dalam tanda kurung tingkat.
Variabel Berkelanjutan
Variabel kelas kontinu adalah nilai default di R. Mereka disimpan sebagai numerik atau integer. Kita bisa melihatnya dari dataset di bawah ini. mtcars adalah kumpulan data bawaan. Ini mengumpulkan informasi tentang berbagai jenis mobil. Kita dapat mengimpornya dengan menggunakan mtcars dan memeriksa kelas variabel mpg, mil per galon. Ini mengembalikan nilai numerik, menunjukkan variabel kontinu.
dataset <- mtcarsclass(dataset$mpg)
Keluaran
## [1] "numeric"