Apa itu Confusion Matrix?
Matriks konfusi adalah teknik pengukuran performa untuk klasifikasi Machine learning. Ini adalah sejenis tabel yang membantu Anda mengetahui kinerja model klasifikasi pada sekumpulan data uji untuk mengetahui nilai sebenarnya. Istilah matriks kebingungan itu sendiri sangat sederhana, tetapi terminologi terkaitnya bisa sedikit membingungkan. Di sini, beberapa penjelasan sederhana diberikan untuk teknik ini.
Dalam tutorial ini, Anda akan belajar,
- Apa itu Confusion matrix?
- Empat hasil dari matriks kebingungan
- Contoh matriks Kebingungan:
- Bagaimana Menghitung Matriks Kebingungan
- Istilah Penting Lainnya menggunakan matriks Kebingungan
- Mengapa Anda membutuhkan matriks Kebingungan?
Empat hasil dari matriks kebingungan
Matriks konfusi memvisualisasikan keakuratan pengklasifikasi dengan membandingkan kelas aktual dan kelas yang diprediksi. Matriks kebingungan biner terdiri dari kotak:
- TP: Benar Positif: Nilai yang diprediksi dengan benar diprediksi sebagai positif aktual
- FP: Nilai prediksi salah memprediksi positif aktual. yaitu, nilai negatif diprediksi sebagai positif
- FN: False Negative: Nilai positif diprediksi sebagai negatif
- TN: True Negative: Nilai yang diprediksi diprediksi dengan benar sebagai negatif aktual
Anda dapat menghitung uji akurasi dari matriks kebingungan:
Contoh Confusion Matrix:
Confusion Matrix adalah metode pembelajaran mesin yang berguna yang memungkinkan Anda mengukur Recall, Precision, Accuracy, dan kurva AUC-ROC. Di bawah ini diberikan contoh untuk mengetahui istilah True Positive, True Negative, False Negative, dan True Negative.
Benar Positif:
Anda diproyeksikan positif dan ternyata menjadi kenyataan. Misalnya, Anda pernah meramalkan bahwa Prancis akan memenangkan piala dunia, dan Prancis menang.
Benar Negatif:
Bila diprediksi negatif, dan itu benar. Anda telah memperkirakan bahwa Inggris tidak akan menang dan kalah.
Positif Palsu:
Prediksi Anda positif, dan itu salah.
Anda telah memprediksikan bahwa Inggris akan menang, tetapi kalah.
Negatif Palsu:
Prediksi Anda negatif, dan hasilnya juga salah.
Anda telah meramalkan bahwa Prancis tidak akan menang, tetapi Prancis menang.
Anda harus ingat bahwa kami mendeskripsikan nilai prediksi sebagai Benar atau Salah atau Positif dan Negatif.
Bagaimana Menghitung Matriks Kebingungan
Di sini, adalah proses langkah demi langkah untuk menghitung Matriks kebingungan dalam penambangan data
- Langkah 1) Pertama, Anda perlu menguji kumpulan data dengan nilai hasil yang diharapkan.
- Langkah 2) Prediksi semua baris dalam set data pengujian.
- Langkah 3) Hitung prediksi dan hasil yang diharapkan:
- Total prediksi yang benar dari setiap kelas.
- Total prediksi yang salah dari setiap kelas.
Setelah itu, angka-angka ini diatur dengan metode yang diberikan di bawah ini:
- Setiap baris matriks tertaut ke kelas yang diprediksi.
- Setiap kolom matriks sesuai dengan kelas yang sebenarnya.
- Jumlah total klasifikasi benar dan salah dimasukkan ke dalam tabel.
- Jumlah prediksi yang benar untuk kelas masuk ke kolom prediksi dan baris yang diharapkan untuk nilai kelas tersebut.
- Jumlah prediksi yang salah untuk kelas masuk ke baris yang diharapkan untuk nilai kelas tersebut dan kolom prediksi untuk nilai kelas tertentu tersebut.
Istilah Penting Lainnya menggunakan matriks Kebingungan
- Nilai Prediktif Positif (PVV): Ini sangat mendekati presisi. Satu perbedaan yang signifikan antara kedua istilah tersebut adalah bahwa PVV mempertimbangkan prevalensi. Dalam situasi di mana kelas-kelas seimbang sempurna, nilai prediksi positif sama dengan presisi.
- Tingkat Kesalahan Null: Istilah ini digunakan untuk menentukan berapa kali prediksi Anda salah jika Anda dapat memprediksi kelas mayoritas. Anda dapat menganggapnya sebagai metrik dasar untuk membandingkan pengklasifikasi Anda.
- Skor F: Skor F1 adalah skor rata-rata tertimbang yang benar-benar positif (recall) dan presisi.
- Kurva Roc: Kurva Roc menunjukkan tingkat positif benar terhadap tingkat positif palsu di berbagai titik potong. Ini juga menunjukkan trade-off antara sensitivitas (ingatan dan spesifisitas atau tingkat negatif sebenarnya).
- Presisi: Metrik presisi menunjukkan keakuratan kelas positif. Ini mengukur seberapa besar kemungkinan prediksi kelas positif benar.
Skor maksimum adalah 1 jika pengklasifikasi mengklasifikasikan semua nilai positif dengan sempurna. Presisi saja tidak terlalu membantu karena mengabaikan kelas negatif. Metrik biasanya dipasangkan dengan metrik Perolehan. Recall juga disebut sensitivitas atau true positive rate.
- Sensitivitas : Sensitivitas menghitung rasio kelas positif yang terdeteksi dengan benar. Metrik ini menunjukkan seberapa baik model mengenali kelas positif.
Mengapa Anda membutuhkan matriks Kebingungan?
Berikut adalah keuntungan / keuntungan menggunakan matriks kebingungan.
- Ini menunjukkan bagaimana model klasifikasi bingung saat membuat prediksi.
- Confusion matrix tidak hanya memberi Anda wawasan tentang kesalahan yang dibuat oleh pengklasifikasi Anda, tetapi juga jenis kesalahan yang dibuat.
- Pengelompokan ini membantu Anda mengatasi batasan penggunaan akurasi klasifikasi saja.
- Setiap kolom dari matriks kebingungan mewakili instance dari kelas yang diprediksi tersebut.
- Setiap baris dari matriks konfusi merepresentasikan instance dari kelas yang sebenarnya.
- Ini memberikan wawasan tidak hanya kesalahan yang dibuat oleh pengklasifikasi tetapi juga kesalahan yang dibuat.