Pembelajaran Mesin Tanpa Pengawasan: Apa itu, Algoritma, Contoh

Daftar Isi:

Anonim

Pembelajaran Tanpa Pengawasan

Pembelajaran Tanpa Pengawasan adalah teknik pembelajaran mesin di mana pengguna tidak perlu mengawasi model. Sebaliknya, ini memungkinkan model bekerja sendiri untuk menemukan pola dan informasi yang sebelumnya tidak terdeteksi. Ini terutama berkaitan dengan data yang tidak berlabel.

Algoritma Pembelajaran Tanpa Pengawasan

Algoritma Pembelajaran Tanpa Pengawasan memungkinkan pengguna untuk melakukan tugas pemrosesan yang lebih kompleks dibandingkan dengan pembelajaran yang diawasi. Meskipun, pembelajaran tanpa pengawasan bisa lebih tidak terduga dibandingkan dengan metode pembelajaran alami lainnya. Algoritme pembelajaran tanpa pengawasan termasuk pengelompokan, deteksi anomali, jaringan saraf, dll.

Dalam tutorial ini, Anda akan mempelajari:

  • Contoh Machine Learning Tanpa Pengawasan
  • Mengapa Pembelajaran Tanpa Pengawasan?
  • Jenis Pembelajaran Tanpa Pengawasan
  • Kekelompokan
  • Jenis Pengelompokan
  • Asosiasi
  • Pembelajaran Mesin yang Diawasi vs. Tidak Diawasi
  • Aplikasi pembelajaran mesin tanpa pengawasan
  • Kerugian dari Pembelajaran Tanpa Pengawasan

Contoh Machine Learning Tanpa Pengawasan

Mari, ambil kasus bayi dan anjing keluarganya.

Dia tahu dan mengidentifikasi anjing ini. Beberapa minggu kemudian seorang teman keluarga membawa serta seekor anjing dan mencoba bermain dengan bayinya.

Baby belum pernah melihat anjing ini sebelumnya. Tetapi ia mengakui banyak ciri (2 telinga, mata, berjalan dengan 4 kaki) seperti anjing peliharaannya. Dia mengidentifikasi hewan baru itu sebagai seekor anjing. Ini adalah pembelajaran tanpa pengawasan, di mana Anda tidak diajar tetapi Anda belajar dari data (dalam hal ini data tentang seekor anjing.) Seandainya ini pembelajaran yang diawasi, teman keluarga akan memberi tahu bayi itu bahwa itu seekor anjing.

Mengapa Pembelajaran Tanpa Pengawasan?

Di sini, adalah alasan utama untuk menggunakan Pembelajaran Tanpa Pengawasan:

  • Pembelajaran mesin tanpa pengawasan menemukan semua jenis pola yang tidak diketahui dalam data.
  • Metode tanpa pengawasan membantu Anda menemukan fitur yang dapat berguna untuk kategorisasi.
  • Ini berlangsung secara real time, sehingga semua data masukan dianalisis dan diberi label di hadapan peserta didik.
  • Lebih mudah untuk mendapatkan data tidak berlabel dari komputer daripada data berlabel, yang membutuhkan intervensi manual.

Jenis Pembelajaran Tanpa Pengawasan

Masalah pembelajaran yang tidak diawasi selanjutnya dikelompokkan menjadi masalah pengelompokan dan asosiasi.

Kekelompokan

Pengelompokan adalah konsep penting dalam hal pembelajaran tanpa pengawasan. Ini terutama berkaitan dengan menemukan struktur atau pola dalam kumpulan data yang tidak dikategorikan. Algoritme pengelompokan akan memproses data Anda dan menemukan kluster (grup) alami jika ada dalam data. Anda juga dapat mengubah berapa banyak cluster yang harus diidentifikasi oleh algoritme Anda. Ini memungkinkan Anda untuk menyesuaikan perincian grup ini.

Ada berbagai jenis pengelompokan yang dapat Anda manfaatkan:

Eksklusif (mempartisi)

Dalam metode clustering ini, Data dikelompokkan sedemikian rupa sehingga satu data hanya dapat dimiliki oleh satu cluster.

Contoh: K-means

Aglomeratif

Dalam teknik clustering ini, setiap data merupakan cluster. Penyatuan berulang antara dua cluster terdekat mengurangi jumlah cluster.

Contoh: Pengelompokan hierarki

Tumpang tindih

Dalam teknik ini, himpunan fuzzy digunakan untuk mengelompokkan data. Setiap poin dapat dimiliki oleh dua atau lebih cluster dengan derajat keanggotaan terpisah.

Di sini, data akan dikaitkan dengan nilai keanggotaan yang sesuai. Contoh: Fuzzy C-Means

Probabilistik

Teknik ini menggunakan distribusi probabilitas untuk membuat cluster

Contoh: Kata kunci berikut

  • "sepatu pria."
  • "sepatu wanita."
  • "sarung tangan wanita."
  • "sarung tangan pria."

dapat dikelompokkan menjadi dua kategori "sepatu" dan "sarung tangan" atau "pria" dan "wanita."

Jenis Pengelompokan

  • Pengelompokan hierarki
  • Pengelompokan K-means
  • K-NN (k tetangga terdekat)
  • Analisis Komponen Utama
  • Dekomposisi Nilai Singular
  • Analisis Komponen Independen

Pengelompokan Hierarki:

Pengelompokan hierarki adalah algoritme yang membangun hierarki kluster. Ini dimulai dengan semua data yang ditugaskan ke cluster mereka sendiri. Di sini, dua cluster dekat akan berada di cluster yang sama. Algoritma ini berakhir ketika hanya ada satu cluster yang tersisa.

Pengelompokan K-means

K berarti itu adalah algoritma pengelompokan berulang yang membantu Anda menemukan nilai tertinggi untuk setiap iterasi. Awalnya, jumlah cluster yang diinginkan dipilih. Dalam metode pengelompokan ini, Anda perlu mengelompokkan titik data ke dalam kelompok k. K yang lebih besar berarti grup yang lebih kecil dengan lebih banyak perincian dengan cara yang sama. K yang lebih rendah berarti grup yang lebih besar dengan perincian yang lebih sedikit.

Output dari algoritme adalah sekelompok "label". Ini memberikan titik data ke salah satu grup k. Dalam pengelompokan k-means, setiap grup ditentukan dengan membuat sentroid untuk setiap grup. Sentroid seperti jantung cluster, yang menangkap titik-titik terdekat dan menambahkannya ke cluster.

Pengelompokan K-mean lebih lanjut mendefinisikan dua subkelompok:

  • Pengelompokan aglomeratif
  • Dendrogram

Pengelompokan aglomeratif:

Jenis pengelompokan K-means ini dimulai dengan jumlah kluster yang tetap. Ini mengalokasikan semua data ke dalam jumlah cluster yang tepat. Metode clustering ini tidak membutuhkan jumlah cluster K sebagai masukan. Proses aglomerasi dimulai dengan membentuk setiap data sebagai satu cluster.

Metode ini menggunakan beberapa pengukuran jarak, mengurangi jumlah cluster (satu di setiap iterasi) dengan proses penggabungan. Terakhir, kami memiliki satu cluster besar yang berisi semua objek.

Dendrogram:

Dalam metode clustering Dendrogram, setiap level akan mewakili cluster yang mungkin. Ketinggian dendrogram menunjukkan tingkat kemiripan antara dua cluster yang bergabung. Semakin mendekati dasar proses maka semakin mirip cluster yang merupakan temuan kelompok dari dendrogram yang tidak natural dan sebagian besar bersifat subyektif.

K- Tetangga terdekat

K- tetangga terdekat adalah yang paling sederhana dari semua pengklasifikasi pembelajaran mesin. Ini berbeda dari teknik pembelajaran mesin lainnya, karena tidak menghasilkan model. Ini adalah algoritme sederhana yang menyimpan semua kasus yang tersedia dan mengklasifikasikan instance baru berdasarkan ukuran kesamaan.

Ini bekerja dengan sangat baik bila ada jarak antar contoh. Kecepatan belajar lambat jika set pelatihan besar, dan perhitungan jaraknya tidak sepele.

Analisis Komponen Utama:

Jika Anda menginginkan ruang berdimensi lebih tinggi. Anda perlu memilih basis untuk ruang itu dan hanya 200 skor terpenting dari basis itu. Basis ini dikenal sebagai komponen utama. Bagian yang Anda pilih merupakan ruang baru yang ukurannya lebih kecil dibandingkan dengan ruang asli. Ini mempertahankan sebanyak mungkin kerumitan data.

Asosiasi

Aturan asosiasi memungkinkan Anda membuat asosiasi di antara objek data di dalam database besar. Teknik tanpa pengawasan ini adalah tentang menemukan hubungan yang menarik antara variabel dalam database yang besar. Misalnya, orang yang membeli rumah baru kemungkinan besar akan membeli furnitur baru.

Contoh Lain:

  • Subkelompok pasien kanker yang dikelompokkan berdasarkan pengukuran ekspresi gen mereka
  • Kelompok pembelanja berdasarkan riwayat penjelajahan dan pembelian mereka
  • Kelompok film menurut peringkat yang diberikan oleh pemirsa film

Pembelajaran Mesin yang Diawasi vs. Tidak Diawasi

Parameter Teknik pembelajaran mesin yang diawasi Teknik pembelajaran mesin tanpa pengawasan
Memasukan data Algoritme dilatih menggunakan data berlabel. Algoritma digunakan terhadap data yang tidak diberi label
Kompleksitas Komputasi Pembelajaran yang diawasi adalah metode yang lebih sederhana. Pembelajaran tanpa pengawasan sangat kompleks secara komputasi
Ketepatan Metode yang sangat akurat dan dapat dipercaya. Metode yang kurang akurat dan dapat dipercaya.

Aplikasi pembelajaran mesin tanpa pengawasan

Beberapa aplikasi teknik pembelajaran mesin tanpa pengawasan adalah:

  • Pengelompokan secara otomatis membagi kumpulan data menjadi beberapa kelompok berdasarkan kesamaannya
  • Deteksi anomali dapat menemukan titik data yang tidak biasa dalam set data Anda. Ini berguna untuk menemukan transaksi penipuan
  • Penambangan asosiasi mengidentifikasi sekumpulan item yang sering terjadi bersamaan dalam kumpulan data Anda
  • Model variabel laten banyak digunakan untuk preprocessing data. Seperti mengurangi jumlah fitur dalam kumpulan data atau menguraikan kumpulan data menjadi beberapa komponen

Kerugian dari Pembelajaran Tanpa Pengawasan

  • Anda tidak bisa mendapatkan informasi yang tepat tentang pengurutan data, dan keluaran sebagai data yang digunakan dalam pembelajaran tanpa pengawasan diberi label dan tidak diketahui
  • Kurang akuratnya hasil karena data yang diinput tidak diketahui dan tidak diberi label oleh orang sebelumnya. Artinya, mesin perlu melakukan ini sendiri.
  • Kelas spektral tidak selalu sesuai dengan kelas informasional.
  • Pengguna perlu meluangkan waktu untuk menafsirkan dan memberi label kelas yang mengikuti klasifikasi itu.
  • Properti spektral kelas juga dapat berubah seiring waktu sehingga Anda tidak dapat memiliki informasi kelas yang sama saat berpindah dari satu gambar ke gambar lainnya.

Ringkasan

  • Pembelajaran tanpa pengawasan adalah teknik pembelajaran mesin, di mana Anda tidak perlu mengawasi modelnya.
  • Pembelajaran mesin tanpa pengawasan membantu Anda menemukan semua jenis pola yang tidak diketahui dalam data.
  • Pengelompokan dan Asosiasi adalah dua jenis pembelajaran Tanpa pengawasan.
  • Empat jenis metode clustering adalah 1) Eksklusif 2) Aglomeratif 3) Tumpang tindih 4) Probabilistik.
  • Jenis clustering yang penting adalah: 1) Hierarchical clustering 2) K-means clustering 3) K-NN 4) Principal Component Analysis 5) Singular Value Decomposition 6) Independent Component Analysis.
  • Aturan asosiasi memungkinkan Anda membuat asosiasi di antara objek data di dalam database besar.
  • Dalam Pembelajaran yang diawasi, Algoritme dilatih menggunakan data berlabel sedangkan dalam Pembelajaran tanpa pengawasan, Algoritme digunakan terhadap data yang tidak diberi label.
  • Deteksi anomali dapat menemukan titik data penting dalam kumpulan data Anda yang berguna untuk menemukan transaksi penipuan.
  • Kelemahan terbesar dari pembelajaran Tanpa Pengawasan adalah Anda tidak bisa mendapatkan informasi yang tepat mengenai penyortiran data.