Apa itu Pembelajaran Mesin yang Diawasi?
Dalam Supervised learning, Anda melatih mesin menggunakan data yang "diberi label" dengan baik . Artinya beberapa data sudah diberi tag dengan jawaban yang benar. Ini bisa dibandingkan dengan pembelajaran yang berlangsung di hadapan pengawas atau guru.
Algoritme pembelajaran yang diawasi belajar dari data pelatihan berlabel, membantu Anda memprediksi hasil untuk data yang tidak terduga.
Membangun, menskalakan, dan menerapkan model pembelajaran mesin yang diawasi secara akurat membutuhkan waktu dan keahlian teknis dari tim ilmuwan data yang sangat terampil. Selain itu, Data scientist harus membangun kembali model untuk memastikan wawasan yang diberikan tetap benar hingga datanya berubah.
Dalam tutorial ini, Anda akan mempelajari:
- Apa itu Pembelajaran Mesin yang Diawasi?
- Bagaimana Cara Kerja Supervised Learning
- Jenis Algoritma Pembelajaran Mesin yang Diawasi
- Teknik pembelajaran mesin yang diawasi vs. tidak diawasi
- Tantangan dalam Pembelajaran mesin yang diawasi
- Keuntungan dari Supervised Learning:
- Kekurangan dari Supervised Learning
- Praktik terbaik untuk Supervised Learning
Bagaimana Cara Kerja Supervised Learning
Misalnya, Anda ingin melatih mesin untuk membantu Anda memprediksi berapa lama waktu yang dibutuhkan untuk berkendara pulang dari tempat kerja Anda. Di sini, Anda mulai dengan membuat sekumpulan data berlabel. Data ini termasuk
- Kondisi cuaca
- Waktu dalam hari
- Liburan
Semua detail ini adalah masukan Anda. Outputnya adalah jumlah waktu yang dibutuhkan untuk pulang ke rumah pada hari tertentu.
Anda secara naluriah tahu bahwa jika hujan di luar, maka Anda akan membutuhkan waktu lebih lama untuk berkendara pulang. Tetapi mesin membutuhkan data dan statistik.
Mari kita lihat sekarang bagaimana Anda dapat mengembangkan model pembelajaran yang diawasi dari contoh ini yang membantu pengguna untuk menentukan waktu perjalanan. Hal pertama yang Anda perlukan untuk membuat adalah set pelatihan. Set pelatihan ini akan berisi total waktu perjalanan dan faktor terkait seperti cuaca, waktu, dll. Berdasarkan set pelatihan ini, mesin Anda mungkin melihat ada hubungan langsung antara jumlah hujan dan waktu yang Anda perlukan untuk pulang.
Jadi, ini memastikan bahwa semakin banyak hujan, semakin lama Anda akan berkendara untuk kembali ke rumah. Mungkin juga melihat hubungan antara waktu Anda pulang kerja dan waktu Anda dalam perjalanan.
Semakin dekat Anda dengan jam 6 sore, semakin lama waktu yang Anda butuhkan untuk sampai di rumah. Mesin Anda mungkin menemukan beberapa hubungan dengan data berlabel Anda.
Ini adalah awal Model Data Anda. Ini mulai memengaruhi bagaimana hujan memengaruhi cara orang mengemudi. Itu juga mulai melihat bahwa lebih banyak orang bepergian selama waktu tertentu dalam sehari.
Jenis Algoritma Pembelajaran Mesin yang Diawasi
Regresi:
Teknik regresi memprediksi nilai keluaran tunggal menggunakan data pelatihan.
Contoh : Anda dapat menggunakan regresi untuk memprediksi harga rumah dari data pelatihan. Variabel masukan adalah lokalitas, ukuran rumah, dll.
Kekuatan : Keluaran selalu memiliki interpretasi probabilistik, dan algoritme dapat diatur untuk menghindari overfitting.
Kelemahan : Regresi logistik mungkin berkinerja buruk jika ada beberapa batasan keputusan atau non-linier. Metode ini tidak fleksibel, jadi tidak menangkap hubungan yang lebih kompleks.
Regresi logistik:
Metode regresi logistik digunakan untuk memperkirakan nilai diskrit berdasarkan seperangkat variabel independen tertentu. Ini membantu Anda memprediksi kemungkinan terjadinya suatu peristiwa dengan menyesuaikan data ke fungsi logit. Oleh karena itu, ini juga dikenal sebagai regresi logistik. Saat memprediksi probabilitas, nilai outputnya berada di antara 0 dan 1.
Berikut adalah beberapa jenis Algoritma Regresi
Klasifikasi:
Klasifikasi artinya mengelompokkan keluaran di dalam kelas. Jika algoritme mencoba memberi label input ke dalam dua kelas yang berbeda, itu disebut klasifikasi biner. Memilih di antara lebih dari dua kelas disebut sebagai klasifikasi multikelas.
Contoh : Menentukan apakah seseorang akan membatalkan pinjaman atau tidak.
Kekuatan : Pohon klasifikasi bekerja sangat baik dalam praktiknya
Kelemahan : Tidak dibatasi, pohon individu cenderung overfitting.
Berikut adalah beberapa jenis Algoritma Klasifikasi
Pengklasifikasi Naïve Bayes
Model Naïve Bayesian (NBN) mudah dibuat dan sangat berguna untuk kumpulan data besar. Metode ini terdiri dari grafik asiklik langsung dengan satu orang tua dan beberapa anak. Ini mengasumsikan kemerdekaan di antara node anak yang terpisah dari induknya.
Pohon Keputusan
Pohon keputusan mengklasifikasikan instance dengan mengurutkannya berdasarkan nilai fitur. Dalam metode ini, setiap mode adalah fitur dari sebuah instance. Ini harus diklasifikasikan, dan setiap cabang mewakili nilai yang dapat diasumsikan oleh node. Ini adalah teknik yang banyak digunakan untuk klasifikasi. Dalam metode ini, klasifikasi adalah pohon yang dikenal sebagai pohon keputusan.
Ini membantu Anda memperkirakan nilai sebenarnya (biaya pembelian mobil, jumlah panggilan, total penjualan bulanan, dll.).
Mendukung Mesin Vektor
Support vector machine (SVM) adalah jenis algoritma pembelajaran yang dikembangkan pada tahun 1990. Metode ini didasarkan pada hasil dari teori pembelajaran statistik yang diperkenalkan oleh Vap Nik.
Mesin SVM juga terhubung erat dengan fungsi kernel yang merupakan konsep sentral untuk sebagian besar tugas pembelajaran. Kerangka kerja kernel dan SVM digunakan di berbagai bidang. Ini mencakup pengambilan informasi multimedia, bioinformatika, dan pengenalan pola.
Teknik pembelajaran mesin yang diawasi vs. tidak diawasi
Berdasarkan | Teknik pembelajaran mesin yang diawasi | Teknik pembelajaran mesin tanpa pengawasan |
Memasukan data | Algoritme dilatih menggunakan data berlabel. | Algoritma digunakan terhadap data yang tidak diberi label |
Kompleksitas Komputasi | Pembelajaran yang diawasi adalah metode yang lebih sederhana. | Pembelajaran tanpa pengawasan sangat kompleks secara komputasi |
Ketepatan | Metode yang sangat akurat dan dapat dipercaya. | Metode yang kurang akurat dan dapat dipercaya. |
Tantangan dalam Pembelajaran mesin yang diawasi
Berikut, tantangan yang dihadapi dalam pembelajaran mesin yang diawasi:
- Fitur masukan yang tidak relevan saat ini data pelatihan dapat memberikan hasil yang tidak akurat
- Persiapan dan pra-pemrosesan data selalu menjadi tantangan.
- Akurasi menderita ketika nilai yang tidak mungkin, tidak mungkin, dan tidak lengkap telah dimasukkan sebagai data pelatihan
- Jika pakar yang bersangkutan tidak tersedia, pendekatan lainnya adalah "kekerasan". Ini berarti Anda perlu memikirkan fitur yang tepat (variabel input) untuk melatih mesin. Ini bisa jadi tidak akurat.
Keuntungan dari Supervised Learning:
- Pembelajaran yang diawasi memungkinkan Anda mengumpulkan data atau menghasilkan keluaran data dari pengalaman sebelumnya
- Membantu Anda mengoptimalkan kriteria kinerja menggunakan pengalaman
- Pembelajaran mesin yang diawasi membantu Anda memecahkan berbagai jenis masalah komputasi dunia nyata.
Kekurangan dari Supervised Learning
- Batas keputusan mungkin berlebihan jika set pelatihan Anda tidak memiliki contoh yang ingin Anda miliki di kelas
- Anda perlu memilih banyak contoh bagus dari setiap kelas saat Anda melatih pengklasifikasi.
- Mengklasifikasikan data besar bisa menjadi tantangan nyata.
- Pelatihan untuk pembelajaran yang diawasi membutuhkan banyak waktu komputasi.
Praktik terbaik untuk Supervised Learning
- Sebelum melakukan hal lain, Anda perlu memutuskan jenis data apa yang akan digunakan sebagai set pelatihan
- Anda perlu memutuskan struktur dari fungsi yang dipelajari dan algoritma pembelajaran.
- Gathere keluaran yang sesuai baik dari ahli manusia atau dari pengukuran
Ringkasan
- Dalam Supervised learning, Anda melatih mesin menggunakan data yang "diberi label" dengan baik.
- Anda ingin melatih mesin yang membantu Anda memprediksi berapa lama waktu yang dibutuhkan untuk berkendara pulang dari tempat kerja Anda adalah contoh pembelajaran yang diawasi
- Regresi dan Klasifikasi adalah dua jenis teknik pembelajaran mesin yang diawasi.
- Pembelajaran yang diawasi adalah metode yang lebih sederhana sedangkan pembelajaran tanpa pengawasan adalah metode yang kompleks.
- Tantangan terbesar dalam supervised learning adalah fitur input yang tidak relevan menyajikan data latih dapat memberikan hasil yang tidak akurat.
- Keuntungan utama dari supervised learning adalah memungkinkan Anda mengumpulkan data atau menghasilkan keluaran data dari pengalaman sebelumnya.
- Kelemahan dari model ini adalah bahwa batas keputusan mungkin terlalu ketat jika set pelatihan Anda tidak memiliki contoh yang ingin Anda miliki di kelas.
- Sebagai praktik terbaik dalam mengawasi pembelajaran, Anda harus terlebih dahulu memutuskan jenis data apa yang harus digunakan sebagai set pelatihan.