Dalam tutorial ini, Anda akan belajar
- Regresi linier sederhana
- Regresi linier berganda
- Variabel kontinu
- Faktor regresi
- Regresi bertahap
- Pembelajaran mesin
- Pembelajaran yang diawasi
- Pembelajaran tanpa pengawasan
Regresi linier sederhana
Regresi linier menjawab pertanyaan sederhana: Dapatkah Anda mengukur hubungan yang tepat antara satu variabel target dan sekumpulan prediktor?
Model probabilistik yang paling sederhana adalah model garis lurus:
dimana
- y = Variabel terikat
- x = Variabel independen
- = komponen kesalahan acak
- = mencegat
- = Koefisien x
Simak plot berikut ini:
Persamaannya adalah intersep. Jika x sama dengan 0, y akan sama dengan titik potong, 4.77. adalah kemiringan garis. Ini memberitahu di mana proporsi y bervariasi ketika x bervariasi.
Untuk memperkirakan nilai optimal , Anda menggunakan metode yang disebut Ordinary Least Squares (OLS) . Metode ini mencoba mencari parameter yang meminimalkan jumlah kesalahan kuadrat, yaitu jarak vertikal antara nilai y yang diprediksi dengan nilai y aktual. Perbedaan tersebut dikenal sebagai istilah kesalahan .
Sebelum Anda memperkirakan model, Anda dapat menentukan apakah hubungan linier antara y dan x masuk akal dengan memplot sebar.
Sebar
Kami akan menggunakan dataset yang sangat sederhana untuk menjelaskan konsep regresi linier sederhana. Kami akan mengimpor Ketinggian dan berat Rata-rata untuk Wanita Amerika. Dataset tersebut berisi 15 observasi. Anda ingin mengukur apakah Ketinggian berkorelasi positif dengan bobot.
library(ggplot2)path <- 'https://raw.githubusercontent.com/guru99-edu/R-Programming/master/women.csv'df <-read.csv(path)ggplot(df,aes(x=height, y = weight))+geom_point()
Keluaran:
Scatterplot menunjukkan kecenderungan umum untuk y meningkat saat x meningkat. Pada langkah berikutnya, Anda akan mengukur berapa banyak peningkatan untuk setiap tambahan.
Perkiraan Kotak Terkecil
Dalam regresi OLS sederhana, penghitungan sangat mudah. Tujuannya bukan untuk menunjukkan penurunan dalam tutorial ini. Anda hanya akan menulis rumusnya.
Anda ingin memperkirakan:
Tujuan dari regresi OLS adalah untuk meminimalkan persamaan berikut:
dimana
merupakan nilai prediksi.
Solusinya
Perhatikan itu berarti nilai rata-rata x
Solusinya
Di R, Anda dapat menggunakan fungsi cov () dan var () untuk memperkirakan
beta <- cov(df$height, df$weight) / var (df$height)beta
Keluaran:
##[1] 3.45
alpha <- mean(df$weight) - beta * mean(df$height)alpha
Keluaran:
## [1] -87.51667
Koefisien beta menyiratkan bahwa untuk setiap tinggi tambahan, bobot bertambah 3,45.
Memperkirakan persamaan linier sederhana secara manual tidaklah ideal. R menyediakan fungsi yang sesuai untuk memperkirakan parameter ini. Anda akan segera melihat fungsi ini. Sebelumnya, kami akan memperkenalkan cara menghitung dengan tangan model regresi linier sederhana. Dalam perjalanan Anda sebagai ilmuwan data, Anda hampir tidak akan atau tidak pernah memperkirakan model linier sederhana. Dalam kebanyakan situasi, tugas regresi dilakukan pada banyak penaksir.
Regresi linier berganda
Aplikasi analisis regresi yang lebih praktis menggunakan model yang lebih kompleks daripada model garis lurus sederhana. Model probabilistik yang mencakup lebih dari satu variabel independen disebut model regresi berganda . Bentuk umum model ini adalah:
Dalam notasi matriks, Anda dapat menulis ulang model:
Variabel dependen y sekarang menjadi fungsi dari k variabel independen. Nilai koefisien .
Kami secara singkat memperkenalkan asumsi yang kami buat tentang kesalahan acak OLS:
- Berarti sama dengan 0
- Varians sama dengan
- Distribusi normal
- Kesalahan acak tidak bergantung (dalam arti probabilistik)
Anda perlu mencari , vektor koefisien regresi yang meminimalkan jumlah kesalahan kuadrat antara nilai y yang diprediksi dan nilai sebenarnya.
Solusi bentuk tertutupnya adalah:
dengan:
- menunjukkan transpos dari matriks X
- menunjukkan matriks yang dapat dibalik
Kami menggunakan dataset mtcars. Anda sudah familiar dengan dataset. Tujuan kami adalah untuk memprediksi mil per galon pada serangkaian fitur.
Variabel kontinu
Untuk saat ini, Anda hanya akan menggunakan variabel kontinu dan mengesampingkan fitur kategorikal. Variabel am adalah variabel biner yang mengambil nilai 1 jika transmisi manual dan 0 untuk mobil matic; vs juga merupakan variabel biner.
library(dplyr)df <- mtcars % > %select(-c(am, vs, cyl, gear, carb))glimpse(df)
Keluaran:
## Observations: 32## Variables: 6## $ mpg21.0, 21.0, 22.8, 21.4, 18.7, 18.1, 14.3, 24.4, 22.8, 19… .## $ disp 160.0, 160.0, 108.0, 258.0, 360.0, 225.0, 360.0, 146.7, 1… ## $ hp 110, 110, 93, 110, 175, 105, 245, 62, 95, 123, 123, 180,… ## $ drat 3.90, 3.90, 3.85, 3.08, 3.15, 2.76, 3.21, 3.69, 3.92, 3.9… ## $ wt 2.620, 2.875, 2.320, 3.215, 3.440, 3.460, 3.570, 3.190, 3… ## $ qsec 16.46, 17.02, 18.61, 19.44, 17.02, 20.22, 15.84, 20.00, 2…
Anda bisa menggunakan fungsi lm () untuk menghitung parameter. Sintaks dasar dari fungsi ini adalah:
lm(formula, data, subset)Arguments:-formula: The equation you want to estimate-data: The dataset used-subset: Estimate the model on a subset of the dataset
Ingat sebuah persamaan berbentuk berikut
di R
- Simbol = diganti dengan ~
- Setiap x diganti dengan nama variabel
- Jika Anda ingin menghapus konstanta, tambahkan -1 di akhir rumus
Contoh:
Anda ingin memperkirakan berat individu berdasarkan tinggi dan pendapatan mereka. Persamaannya adalah
Persamaan di R ditulis sebagai berikut:
y ~ X1 + X2 +… + Xn # Dengan intersep
Jadi untuk contoh kita:
- Timbang ~ tinggi + pendapatan
Tujuan Anda adalah memperkirakan mil per galon berdasarkan sekumpulan variabel. Persamaan yang akan diestimasi adalah:
Anda akan memperkirakan regresi linier pertama Anda dan menyimpan hasilnya di objek fit.
model <- mpg~.disp + hp + drat + wtfit <- lm(model, df)fit
Penjelasan Kode
- model <- mpg ~ . disp + hp + drat + wt: Simpan model yang akan diestimasi
- lm (model, df): Perkirakan model dengan bingkai data df
#### Call:## lm(formula = model, data = df)#### Coefficients:## (Intercept) disp hp drat wt## 16.53357 0.00872 -0.02060 2.01577 -4.38546## qsec## 0.64015
Keluaran tidak memberikan informasi yang cukup tentang kualitas kecocokan. Anda dapat mengakses lebih banyak detail seperti signifikansi koefisien, derajat kebebasan, dan bentuk residual dengan fungsi summary ().
summary(fit)
Keluaran:
## return the p-value and coefficient#### Call:## lm(formula = model, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.5404 -1.6701 -0.4264 1.1320 5.4996#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 16.53357 10.96423 1.508 0.14362## disp 0.00872 0.01119 0.779 0.44281## hp -0.02060 0.01528 -1.348 0.18936## drat 2.01578 1.30946 1.539 0.13579## wt -4.38546 1.24343 -3.527 0.00158 **## qsec 0.64015 0.45934 1.394 0.17523## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.558 on 26 degrees of freedom## Multiple R-squared: 0.8489, Adjusted R-squared: 0.8199## F-statistic: 29.22 on 5 and 26 DF, p-value: 6.892e-10
Kesimpulan dari keluaran tabel di atas
- Tabel di atas membuktikan bahwa ada hubungan negatif yang kuat antara wt dan jarak tempuh dan hubungan positif dengan drat.
- Hanya variabel wt yang memiliki pengaruh statistik pada mpg. Ingat, untuk menguji hipotesis dalam statistik, kami menggunakan:
- H0: Tidak ada dampak statistik
- H3: Prediktor memiliki pengaruh yang berarti pada y
- Jika nilai p lebih kecil dari 0,05, hal ini menunjukkan bahwa variabel tersebut signifikan secara statistik
- Adjusted R-squared: Varians dijelaskan oleh model. Dalam model Anda, model tersebut menjelaskan 82 persen varian y. R kuadrat selalu antara 0 dan 1. Semakin tinggi semakin baik
Anda dapat menjalankan uji ANOVA untuk memperkirakan pengaruh setiap fitur pada varians dengan fungsi anova ().
anova(fit)
Keluaran:
## Analysis of Variance Table#### Response: mpg## Df Sum Sq Mean Sq F value Pr(>F)## disp 1 808.89 808.89 123.6185 2.23e-11 ***## hp 1 33.67 33.67 5.1449 0.031854 *## drat 1 30.15 30.15 4.6073 0.041340 *## wt 1 70.51 70.51 10.7754 0.002933 **## qsec 1 12.71 12.71 1.9422 0.175233## Residuals 26 170.13 6.54## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Cara yang lebih konvensional untuk memperkirakan kinerja model adalah dengan menampilkan sisa terhadap ukuran yang berbeda.
Anda dapat menggunakan fungsi plot () untuk menampilkan empat grafik:
- Sisa vs Nilai pas
- Plot QQ Normal: Kuartil Teoritis vs residu Standar
- Skala-Lokasi: Nilai pas vs Akar kuadrat dari residu standar
- Residual vs Leverage: Leverage vs residual Standar
Anda menambahkan kode par (mfrow = c (2,2)) sebelum plot (fit). Jika Anda tidak menambahkan baris kode ini, R meminta Anda untuk menekan perintah enter untuk menampilkan grafik berikutnya.
par(mfrow=(2,2))
Penjelasan Kode
- (mfrow = c (2,2)): mengembalikan jendela dengan empat grafik berdampingan.
- 2 yang pertama menambahkan jumlah baris
- 2 kedua menambahkan jumlah kolom.
- Jika Anda menulis (mfrow = c (3,2)): Anda akan membuat jendela 3 baris 2 kolom
plot(fit)
Keluaran:
Rumus lm () mengembalikan daftar yang berisi banyak informasi berguna. Anda dapat mengaksesnya dengan objek fit yang telah Anda buat, diikuti dengan tanda $ dan informasi yang ingin Anda ekstrak.
- koefisien: `fit $ coefficients`
- residual: `fit $ residuals`
- nilai pas: `fit $ pas.values`
Faktor regresi
Dalam estimasi model terakhir, Anda menurunkan mpg hanya pada variabel kontinu. Sangat mudah untuk menambahkan variabel faktor ke model. Anda menambahkan variabel am ke model Anda. Penting untuk memastikan bahwa variabel tersebut adalah tingkat faktor dan tidak kontinu.
df <- mtcars % > %mutate(cyl = factor(cyl),vs = factor(vs),am = factor(am),gear = factor(gear),carb = factor(carb))summary(lm(model, df))
Keluaran:
#### Call:## lm(formula = model, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.5087 -1.3584 -0.0948 0.7745 4.6251#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 23.87913 20.06582 1.190 0.2525## cyl6 -2.64870 3.04089 -0.871 0.3975## cyl8 -0.33616 7.15954 -0.047 0.9632## disp 0.03555 0.03190 1.114 0.2827## hp -0.07051 0.03943 -1.788 0.0939 .## drat 1.18283 2.48348 0.476 0.6407## wt -4.52978 2.53875 -1.784 0.0946 .## qsec 0.36784 0.93540 0.393 0.6997## vs1 1.93085 2.87126 0.672 0.5115## am1 1.21212 3.21355 0.377 0.7113## gear4 1.11435 3.79952 0.293 0.7733## gear5 2.52840 3.73636 0.677 0.5089## carb2 -0.97935 2.31797 -0.423 0.6787## carb3 2.99964 4.29355 0.699 0.4955## carb4 1.09142 4.44962 0.245 0.8096## carb6 4.47757 6.38406 0.701 0.4938## carb8 7.25041 8.36057 0.867 0.3995## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.833 on 15 degrees of freedom## Multiple R-squared: 0.8931, Adjusted R-squared: 0.779## F-statistic: 7.83 on 16 and 15 DF, p-value: 0.000124
R menggunakan tingkat faktor pertama sebagai kelompok dasar. Anda perlu membandingkan koefisien dari kelompok lain terhadap kelompok dasar.
Regresi bertahap
Bagian terakhir dari tutorial ini membahas algoritma regresi bertahap . Tujuan dari algoritme ini adalah untuk menambah dan menghapus kandidat potensial dalam model dan mempertahankan kandidat yang memiliki pengaruh signifikan pada variabel dependen. Algoritme ini berguna jika kumpulan data berisi daftar besar prediktor. Anda tidak perlu menambahkan dan menghapus variabel independen secara manual. Regresi bertahap dibuat untuk memilih kandidat terbaik agar sesuai dengan model.
Mari kita lihat cara kerjanya. Anda menggunakan set data mtcars dengan variabel kontinu hanya untuk ilustrasi pedagogis. Sebelum Anda memulai analisis, ada baiknya untuk menetapkan variasi antara data dengan matriks korelasi. Pustaka GGally merupakan perpanjangan dari ggplot2.
Pustaka menyertakan berbagai fungsi untuk memperlihatkan statistik ringkasan seperti korelasi dan distribusi semua variabel dalam matriks. Kami akan menggunakan fungsi ggscatmat, tetapi Anda dapat merujuk ke vinyet untuk informasi selengkapnya tentang pustaka GGally.
Sintaks dasar untuk ggscatmat () adalah:
ggscatmat(df, columns = 1:ncol(df), corMethod = "pearson")arguments:-df: A matrix of continuous variables-columns: Pick up the columns to use in the function. By default, all columns are used-corMethod: Define the function to compute the correlation between variable. By default, the algorithm uses the Pearson formula
Anda menampilkan korelasi untuk semua variabel Anda dan memutuskan mana yang akan menjadi kandidat terbaik untuk langkah pertama regresi bertahap. Ada beberapa korelasi yang kuat antara variabel Anda dan variabel dependen, mpg.
library(GGally)df <- mtcars % > %select(-c(am, vs, cyl, gear, carb))ggscatmat(df, columns = 1: ncol(df))
Keluaran:
Regresi bertahap
Pemilihan variabel merupakan bagian penting untuk menyesuaikan model. Regresi bertahap akan melakukan proses pencarian secara otomatis. Untuk memperkirakan berapa banyak kemungkinan pilihan yang ada dalam kumpulan data, Anda menghitung dengan k adalah jumlah prediktor. Jumlah kemungkinan bertambah besar dengan banyaknya variabel bebas. Itulah mengapa Anda perlu melakukan pencarian otomatis.
Anda perlu menginstal paket olsrr dari CRAN. Paket belum tersedia di Anaconda. Karenanya, Anda menginstalnya langsung dari baris perintah:
install.packages("olsrr")
Anda dapat memplot semua subset kemungkinan dengan kriteria fit (yaitu R-square, Adjusted R-square, kriteria Bayesian). Model dengan kriteria AIC terendah akan menjadi model terakhir.
library(olsrr)model <- mpg~.fit <- lm(model, df)test <- ols_all_subset(fit)plot(test)
Penjelasan Kode
- mpg ~ .: Buat model untuk memperkirakan
- lm (model, df): Jalankan model OLS
- ols_all_subset (fit): Buat grafik dengan informasi statistik yang relevan
- plot (tes): Plot grafik
Keluaran:
Model regresi linier menggunakan uji-t untuk memperkirakan dampak statistik variabel independen terhadap variabel dependen. Peneliti menetapkan ambang batas maksimum pada 10 persen, dengan nilai yang lebih rendah menunjukkan hubungan statistik yang lebih kuat. Strategi regresi bertahap dibangun di sekitar pengujian ini untuk menambah dan menghapus kandidat potensial. Algoritme bekerja sebagai berikut:
- Langkah 1: Regres setiap prediktor pada y secara terpisah. Yaitu, regresi x_1 pada y, x_2 pada y ke x_n. Simpan nilai p dan pertahankan regressor dengan nilai p lebih rendah dari ambang batas yang ditentukan (0,1 secara default). Prediktor dengan signifikansi lebih rendah dari ambang batas akan ditambahkan ke model akhir. Jika tidak ada variabel yang memiliki nilai p lebih rendah dari ambang masuk, algoritme akan berhenti, dan Anda memiliki model akhir dengan konstanta saja.
- Langkah 2: Gunakan prediktor dengan nilai p terendah dan tambahkan satu variabel secara terpisah. Anda menurunkan konstanta, prediktor terbaik dari langkah pertama dan variabel ketiga. Anda menambahkan ke model bertahap, prediktor baru dengan nilai lebih rendah dari ambang masuk. Jika tidak ada variabel yang memiliki nilai p lebih rendah dari 0,1, algoritme akan berhenti, dan Anda memiliki model akhir hanya dengan satu prediktor. Anda menurunkan model bertahap untuk memeriksa signifikansi dari langkah 1 prediktor terbaik. Jika lebih tinggi dari ambang penghapusan, Anda tetap menggunakannya dalam model bertahap. Jika tidak, Anda mengecualikannya.
- Langkah 3: Anda meniru langkah 2 pada model bertahap terbaik yang baru. Algoritme menambahkan prediktor ke model bertahap berdasarkan nilai yang dimasukkan dan mengecualikan prediktor dari model bertahap jika tidak memenuhi ambang pengecualian.
- Algoritme terus berjalan hingga tidak ada variabel yang dapat ditambahkan atau dikecualikan.
Anda bisa melakukan algoritma dengan fungsi ols_stepwise () dari paket olsrr.
ols_stepwise(fit, pent = 0.1, prem = 0.3, details = FALSE)arguments:
-fit: Model to fit. Need to use `lm()`before to run `ols_stepwise()-pent: Threshold of the p-value used to enter a variable into the stepwise model. By default, 0.1-prem: Threshold of the p-value used to exclude a variable into the stepwise model. By default, 0.3-details: Print the details of each step
Sebelumnya, kami tunjukkan langkah-langkah algoritme. Di bawah ini adalah tabel dengan variabel dependen dan independen:
Variabel tak bebas |
Variabel independen |
---|---|
mpg |
disp |
hp |
|
drat |
|
wt |
|
qsec |
Mulailah
Untuk memulainya, algoritme dimulai dengan menjalankan model pada setiap variabel independen secara terpisah. Tabel menunjukkan nilai p untuk setiap model.
## [[1]]## (Intercept) disp## 3.576586e-21 9.380327e-10#### [[2]]## (Intercept) hp## 6.642736e-18 1.787835e-07#### [[3]]## (Intercept) drat## 0.1796390847 0.0000177624#### [[4]]## (Intercept) wt## 8.241799e-19 1.293959e-10#### [[5]## (Intercept) qsec## 0.61385436 0.01708199
Untuk memasukkan model, algoritme menyimpan variabel dengan nilai p terendah. Dari keluaran di atas, wt
Langkah 1
Pada langkah pertama, algoritme menjalankan mpg pada wt dan variabel lain secara independen.
## [[1]]## (Intercept) wt disp## 4.910746e-16 7.430725e-03 6.361981e-02#### [[2]]## (Intercept) wt hp## 2.565459e-20 1.119647e-06 1.451229e-03#### [[3]]## (Intercept) wt drat## 2.737824e-04 1.589075e-06 3.308544e-01#### [[4]]## (Intercept) wt qsec## 7.650466e-04 2.518948e-11 1.499883e-03
Setiap variabel merupakan kandidat potensial untuk masuk ke model final. Namun, algoritme hanya menyimpan variabel dengan nilai p yang lebih rendah. Ternyata hp memiliki nilai p yang sedikit lebih rendah dari qsec. Karena itu, hp masuk ke model terakhir
Langkah 2
Algoritme mengulangi langkah pertama tetapi kali ini dengan dua variabel independen di model akhir.
## [[1]]## (Intercept) wt hp disp## 1.161936e-16 1.330991e-03 1.097103e-02 9.285070e-01#### [[2]]## (Intercept) wt hp drat## 5.133678e-05 3.642961e-04 1.178415e-03 1.987554e-01#### [[3]]## (Intercept) wt hp qsec## 2.784556e-03 3.217222e-06 2.441762e-01 2.546284e-01
Tak satu pun dari variabel yang memasuki model akhir memiliki nilai-p yang cukup rendah. Algoritme berhenti di sini; kami memiliki model terakhir:
#### Call:## lm(formula = mpg ~ wt + hp, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.941 -1.600 -0.182 1.050 5.854#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 37.22727 1.59879 23.285 < 2e-16 ***## wt -3.87783 0.63273 -6.129 1.12e-06 ***## hp -0.03177 0.00903 -3.519 0.00145 **## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.593 on 29 degrees of freedom## Multiple R-squared: 0.8268, Adjusted R-squared: 0.8148## F-statistic: 69.21 on 2 and 29 DF, p-value: 9.109e-12
Anda bisa menggunakan fungsi ols_stepwise () untuk membandingkan hasil.
stp_s <-ols_stepwise(fit, details=TRUE)
Keluaran:
Algoritme menemukan solusi setelah 2 langkah, dan mengembalikan keluaran yang sama seperti sebelumnya.
Pada akhirnya, Anda dapat mengatakan model dijelaskan oleh dua variabel dan intersep. Mil per galon berkorelasi negatif dengan Tenaga kuda kotor dan Berat
## You are selecting variables based on p value… ## 1 variable(s) added… .## Variable Selection Procedure## Dependent Variable: mpg#### Stepwise Selection: Step 1#### Variable wt Entered#### Model Summary## --------------------------------------------------------------## R 0.868 RMSE 3.046## R-Squared 0.753 Coef. Var 15.161## Adj. R-Squared 0.745 MSE 9.277## Pred R-Squared 0.709 MAE 2.341## --------------------------------------------------------------## RMSE: Root Mean Square Error## MSE: Mean Square Error## MAE: Mean Absolute Error## ANOVA## --------------------------------------------------------------------## Sum of## Squares DF Mean Square F Sig.## --------------------------------------------------------------------## Regression 847.725 1 847.725 91.375 0.0000## Residual 278.322 30 9.277## Total 1126.047 31## --------------------------------------------------------------------#### Parameter Estimates## ----------------------------------------------------------------------------------------## model Beta Std. Error Std. Beta t Sig lower upper## ----------------------------------------------------------------------------------------## (Intercept) 37.285 1.878 19.858 0.000 33.450 41.120## wt -5.344 0.559 -0.868 -9.559 0.000 -6.486 -4.203## ----------------------------------------------------------------------------------------## 1 variable(s) added… ## Stepwise Selection: Step 2#### Variable hp Entered#### Model Summary## --------------------------------------------------------------## R 0.909 RMSE 2.593## R-Squared 0.827 Coef. Var 12.909## Adj. R-Squared 0.815 MSE 6.726## Pred R-Squared 0.781 MAE 1.901## --------------------------------------------------------------## RMSE: Root Mean Square Error## MSE: Mean Square Error## MAE: Mean Absolute Error## ANOVA## --------------------------------------------------------------------## Sum of## Squares DF Mean Square F Sig.## --------------------------------------------------------------------## Regression 930.999 2 465.500 69.211 0.0000## Residual 195.048 29 6.726## Total 1126.047 31## --------------------------------------------------------------------#### Parameter Estimates## ----------------------------------------------------------------------------------------## model Beta Std. Error Std. Beta t Sig lower upper## ----------------------------------------------------------------------------------------## (Intercept) 37.227 1.599 23.285 0.000 33.957 40.497## wt -3.878 0.633 -0.630 -6.129 0.000 -5.172 -2.584## hp -0.032 0.009 -0.361 -3.519 0.001 -0.050 -0.013## ----------------------------------------------------------------------------------------## No more variables to be added or removed.
Pembelajaran mesin
Pembelajaran mesin menjadi tersebar luas di kalangan ilmuwan data dan diterapkan di ratusan produk yang Anda gunakan setiap hari. Salah satu aplikasi ML yang pertama adalah filter spam .
Berikut adalah aplikasi lain dari Machine Learning-
- Identifikasi pesan spam yang tidak diinginkan di email
- Segmentasi perilaku pelanggan untuk iklan bertarget
- Pengurangan transaksi kartu kredit palsu
- Optimalisasi penggunaan energi di rumah dan gedung perkantoran
- Pengenalan wajah
Pembelajaran yang diawasi
Dalam pembelajaran yang diawasi , data pelatihan yang Anda masukkan ke algoritme menyertakan label.
Klasifikasi mungkin adalah teknik pembelajaran terbimbing yang paling banyak digunakan. Salah satu tugas klasifikasi pertama yang ditangani peneliti adalah filter spam. Tujuan dari pembelajaran ini adalah untuk memprediksi apakah suatu email tergolong spam atau ham (email yang baik). Mesin, setelah langkah pelatihan, dapat mendeteksi kelas email.
Regresi biasanya digunakan dalam bidang pembelajaran mesin untuk memprediksi nilai berkelanjutan. Tugas regresi dapat memprediksi nilai variabel dependen berdasarkan sekumpulan variabel independen (disebut juga prediktor atau regressor). Misalnya, regresi linier dapat memprediksi harga saham, ramalan cuaca, penjualan, dan sebagainya.
Berikut adalah daftar dari beberapa algoritma pembelajaran yang diawasi yang mendasar.
- Regresi linier
- Regresi logistik
- Tetangga Terdekat
- Mendukung Mesin Vektor (SVM)
- Pohon keputusan dan Random Forest
- Jaringan Neural
Pembelajaran tanpa pengawasan
Dalam pembelajaran tanpa pengawasan , data pelatihan tidak diberi label. Sistem mencoba belajar tanpa referensi. Di bawah ini adalah daftar algoritma pembelajaran tanpa pengawasan.
- K-mean
- Analisis Kluster Hierarki
- Maksimalisasi Harapan
- Visualisasi dan reduksi dimensi
- Analisis Komponen Utama
- Kernel PCA
- Penyematan Linear-Lokal
Ringkasan
Regresi kuadrat terkecil biasa dapat diringkas pada tabel di bawah ini:
Perpustakaan |
Objektif |
Fungsi |
Argumen |
---|---|---|---|
mendasarkan |
Hitung regresi linier |
lm () |
rumus, data |
mendasarkan |
Buat ringkasan model |
meringkaskan() |
cocok |
mendasarkan |
Ekstrak koefisien |
lm () $ koefisien | |
mendasarkan |
Kurangi sisa |
lm () $ residual | |
mendasarkan |
Kurangi nilai pas |
lm () $ pas.values | |
olsrr.dll |
Jalankan regresi bertahap |
ols_stepwise () |
fit, pent = 0.1, prem = 0.3, details = FALSE |
Catatan : Ingatlah untuk mengubah variabel kategorikal dalam faktor sebelumnya agar sesuai dengan model.