Berikut adalah pertanyaan yang sering diajukan dalam wawancara kerja untuk mahasiswa baru serta Ilmuwan Data berpengalaman.
1. Apa itu Ilmu Data?
Ilmu Data adalah kombinasi algoritma, alat, dan teknik pembelajaran mesin yang membantu Anda menemukan pola tersembunyi umum dari data mentah yang diberikan.
2. Apa yang dimaksud dengan regresi logistik dalam Ilmu Data?
Regresi Logistik juga disebut sebagai model logit. Ini adalah metode untuk meramalkan hasil biner dari kombinasi linier variabel prediktor.
3. Sebutkan tiga jenis bias yang dapat terjadi selama pengambilan sampel
Dalam proses pengambilan sampel terdapat tiga jenis bias, yaitu:
- Bias seleksi
- Di bawah bias cakupan
- Bias bertahan hidup
4. Diskusikan algoritma Pohon Keputusan
Pohon keputusan adalah algoritme pembelajaran mesin yang diawasi yang populer. Ini terutama digunakan untuk Regresi dan Klasifikasi. Ini memungkinkan memecah kumpulan data menjadi subset yang lebih kecil. Pohon keputusan dapat menangani data kategorikal dan numerik.
5. Apa probabilitas dan kemungkinan Prioritas?
Probabilitas sebelumnya adalah proporsi variabel dependen dalam kumpulan data sedangkan kemungkinan adalah probabilitas untuk mengklasifikasikan pengamat tertentu dengan adanya beberapa variabel lain.
6. Jelaskan Sistem Pemberi Rekomendasi?
Ini adalah subkelas dari teknik penyaringan informasi. Ini membantu Anda memprediksi preferensi atau peringkat yang kemungkinan besar diberikan pengguna pada suatu produk.
7. Sebutkan tiga kerugian menggunakan model linier
Tiga kelemahan dari model linier adalah:
- Asumsi linieritas kesalahan.
- Anda tidak dapat menggunakan model ini untuk biner atau menghitung hasil
- Ada banyak masalah overfitting yang tidak bisa dipecahkan
8. Mengapa Anda perlu melakukan resampling?
Pengambilan sampel ulang dilakukan dalam kasus yang diberikan di bawah ini:
- Memperkirakan keakuratan statistik sampel dengan menggambar secara acak dengan penggantian dari satu set titik data atau menggunakan sebagai subset dari data yang dapat diakses
- Mengganti label pada titik data saat melakukan tes yang diperlukan
- Memvalidasi model dengan menggunakan subset acak
9. Buat daftar pustaka dengan Python yang digunakan untuk Analisis Data dan Perhitungan Ilmiah.
- SciPy
- Panda
- Matplotlib
- NumPy
- SciKit
- Yg keturunan dr laut
10. Apa itu Analisis Daya?
Analisis daya merupakan bagian integral dari desain eksperimental. Ini membantu Anda untuk menentukan ukuran sampel yang diperlukan untuk mengetahui pengaruh ukuran tertentu dari penyebab dengan tingkat jaminan tertentu. Ini juga memungkinkan Anda untuk menerapkan probabilitas tertentu dalam batasan ukuran sampel.
11. Jelaskan pemfilteran kolaboratif
Pemfilteran kolaboratif digunakan untuk mencari pola yang benar dengan mengkolaborasikan sudut pandang, berbagai sumber data, dan berbagai agen.
12. Apakah bias itu?
Bias adalah kesalahan yang diperkenalkan dalam model Anda karena penyederhanaan yang berlebihan dari algoritme pembelajaran mesin. "Ini dapat menyebabkan underfitting.
13. Diskusikan 'Naive' dalam algoritma Naive Bayes?
Model Algoritma Naive Bayes didasarkan pada Teorema Bayes. Ini menggambarkan kemungkinan suatu peristiwa. Ini didasarkan pada pengetahuan sebelumnya tentang kondisi yang mungkin terkait dengan peristiwa spesifik tersebut.
14. Apa itu Regresi Linier?
Regresi linier adalah metode pemrograman statistik dimana skor variabel 'A' diprediksi dari skor variabel kedua 'B'. B disebut sebagai variabel prediktor dan A sebagai variabel kriteria.
15. Sebutkan perbedaan antara nilai yang diharapkan dan nilai rata-rata
Perbedaannya tidak banyak, tetapi kedua istilah ini digunakan dalam konteks yang berbeda. Nilai rata-rata umumnya dirujuk saat Anda membahas distribusi probabilitas sedangkan nilai yang diharapkan dirujuk dalam konteks variabel acak.
16. Apa tujuan melakukan Pengujian A / B?
Pengujian AB digunakan untuk melakukan eksperimen acak dengan dua variabel, A dan B. Tujuan dari metode pengujian ini adalah untuk mengetahui perubahan pada halaman web untuk memaksimalkan atau meningkatkan hasil dari suatu strategi.
17. Apa itu Ensemble Learning?
Ensembel adalah metode yang menggabungkan beragam kelompok pelajar bersama-sama untuk berimprovisasi pada stabilitas dan kekuatan prediksi model. Dua jenis metode pembelajaran Ensemble adalah:
Mengantongi
Metode bagging membantu Anda menerapkan pelajar serupa pada populasi sampel kecil. Ini membantu Anda membuat prediksi yang lebih dekat.
Meningkatkan
Boosting adalah metode berulang yang memungkinkan Anda menyesuaikan bobot observasi bergantung pada klasifikasi terakhir. Meningkatkan mengurangi kesalahan bias dan membantu Anda membangun model prediktif yang kuat.
18. Jelaskan Nilai Eigen dan Vektor Eigen
Vektor eigen digunakan untuk memahami transformasi linier. Ilmuwan data perlu menghitung vektor eigen untuk matriks kovariansi atau korelasi. Nilai eigen adalah arah penggunaan tindakan transformasi linier tertentu dengan mengompresi, membalik, atau meregangkan.
19. Tentukan istilah validasi silang
Validasi silang adalah teknik validasi untuk mengevaluasi bagaimana hasil analisis statistik akan digeneralisasi untuk kumpulan data Independen. Metode ini digunakan di latar belakang di mana tujuan diramalkan, dan seseorang perlu memperkirakan seberapa akurat model akan dicapai.
20. Jelaskan langkah-langkah untuk proyek analisis Data
Berikut ini adalah langkah-langkah penting yang terlibat dalam proyek analitik:
- Pahami Masalah Bisnis
- Jelajahi datanya dan pelajari dengan cermat.
- Siapkan data untuk pemodelan dengan menemukan nilai yang hilang dan mengubah variabel.
- Mulai jalankan model dan analisis hasil Big data.
- Validasi model dengan kumpulan data baru.
- Menerapkan model dan melacak hasilnya untuk menganalisis performa model untuk periode tertentu.
21. Diskusikan Jaringan Syaraf Tiruan
Jaringan Syaraf Tiruan (JST) adalah sekumpulan algoritme khusus yang telah merevolusi pembelajaran mesin. Ini membantu Anda beradaptasi sesuai dengan perubahan masukan. Jadi jaringan memberikan hasil terbaik tanpa mendesain ulang kriteria keluaran.
22. Apa itu Propagasi Balik?
Propagasi balik adalah inti dari pelatihan jaringan saraf. Ini adalah metode penyetelan bobot jaringan saraf bergantung pada tingkat kesalahan yang diperoleh di zaman sebelumnya. Penyetelan yang tepat membantu Anda mengurangi tingkat kesalahan dan membuat model dapat diandalkan dengan meningkatkan generalisasinya.
23. Apa itu Random Forest?
Hutan acak adalah metode pembelajaran mesin yang membantu Anda melakukan semua jenis tugas regresi dan klasifikasi. Ini juga digunakan untuk menangani nilai yang hilang dan nilai pencilan.
24. Apa pentingnya memiliki bias seleksi?
Seleksi Bias terjadi ketika tidak ada pengacakan spesifik yang dicapai saat memilih individu atau kelompok atau data untuk dianalisis. Ini menunjukkan bahwa sampel yang diberikan tidak benar-benar mewakili populasi yang dimaksudkan untuk dianalisis.
25. Apa yang dimaksud dengan metode clustering K-means?
Pengelompokan K-means adalah metode pembelajaran tanpa pengawasan yang penting. Ini adalah teknik mengklasifikasikan data menggunakan kumpulan cluster tertentu yang disebut cluster K. Ini digunakan untuk pengelompokan untuk mengetahui kesamaan dalam data.
26. Jelaskan perbedaan antara Ilmu Data dan Analisis Data
Ilmuwan Data perlu mengiris data untuk mengekstrak wawasan berharga yang dapat diterapkan analis data ke skenario bisnis dunia nyata. Perbedaan utama antara keduanya adalah bahwa data scientist memiliki lebih banyak pengetahuan teknis daripada analis bisnis. Selain itu, mereka tidak memerlukan pemahaman tentang bisnis yang diperlukan untuk visualisasi data.
27. Jelaskan nilai-p?
Saat Anda melakukan uji hipotesis dalam statistik, nilai p memungkinkan Anda menentukan kekuatan hasil Anda. Ini adalah angka numerik antara 0 dan 1. Berdasarkan nilainya, ini akan membantu Anda menunjukkan kekuatan hasil tertentu.
28. Definisikan istilah deep learning
Pembelajaran Mendalam adalah subtipe dari pembelajaran mesin. Ini berkaitan dengan algoritma yang terinspirasi oleh struktur yang disebut jaringan saraf tiruan (JST).
29. Jelaskan metode pengumpulan dan analisis data menggunakan media sosial untuk memprediksi kondisi cuaca.
Anda dapat mengumpulkan data media sosial menggunakan Facebook, twitter, API Instagram. Misalnya untuk tweeter, kita dapat membuat fitur dari setiap tweet seperti tanggal tweet, retweet, daftar follower, dll. Kemudian Anda dapat menggunakan model deret waktu multivariat untuk memprediksi kondisi cuaca.
30. Kapan Anda perlu memperbarui algoritme dalam Ilmu data?
Anda perlu memperbarui algoritme dalam situasi berikut:
- Anda ingin model data Anda berkembang sebagai aliran data menggunakan infrastruktur
- Sumber data pokok sedang berubah
Jika non-stasioneritas
31. Apa itu Distribusi Normal
Distribusi normal adalah sekumpulan variabel kontinu yang tersebar di kurva normal atau dalam bentuk kurva lonceng. Anda dapat menganggapnya sebagai distribusi probabilitas berkelanjutan yang berguna dalam statistik. Berguna untuk menganalisis variabel dan hubungannya ketika kita menggunakan kurva distribusi normal.
32. Bahasa apa yang terbaik untuk analitik teks? R atau Python?
Python akan lebih cocok untuk analitik teks karena terdiri dari pustaka kaya yang dikenal sebagai panda. Ini memungkinkan Anda untuk menggunakan alat analisis data dan struktur data tingkat tinggi, sementara R tidak menawarkan fitur ini.
33. Jelaskan manfaat menggunakan statistik oleh Ilmuwan Data
Statistik membantu ilmuwan Data mendapatkan gambaran yang lebih baik tentang harapan pelanggan. Menggunakan metode statistik, Ilmuwan Data bisa mendapatkan pengetahuan tentang minat, perilaku, keterlibatan, retensi konsumen, dll. Ini juga membantu Anda membangun model data yang kuat untuk memvalidasi kesimpulan dan prediksi tertentu.
34. Sebutkan berbagai jenis Kerangka Pembelajaran Mendalam
- Pytorch
- Toolkit Kognitif Microsoft
- TensorFlow
- Caffe
- Chainer
- Keras
35. Jelaskan Auto-Encoder
Autoencoder sedang mempelajari jaringan. Ini membantu Anda mengubah input menjadi output dengan jumlah kesalahan yang lebih sedikit. Ini berarti Anda akan mendapatkan keluaran sedekat mungkin dengan masukan.
36. Definisikan Mesin Boltzmann
Mesin Boltzmann adalah algoritma pembelajaran sederhana. Ini membantu Anda menemukan fitur-fitur yang mewakili keteraturan kompleks dalam data pelatihan. Algoritme ini memungkinkan Anda untuk mengoptimalkan bobot dan kuantitas untuk soal yang diberikan.
37. Jelaskan mengapa Pembersihan Data penting dan metode mana yang Anda gunakan untuk menjaga kebersihan data
Data yang kotor sering kali mengarah ke bagian dalam yang salah, yang dapat merusak prospek organisasi mana pun. Misalnya, jika Anda ingin menjalankan kampanye pemasaran bertarget. Namun, data kami salah memberi tahu Anda bahwa produk tertentu akan diminati oleh audiens target Anda; kampanye akan gagal.
38. Apa itu Distribusi miring & distribusi seragam?
Distribusi miring terjadi ketika data didistribusikan di salah satu sisi plot sedangkan distribusi seragam diidentifikasi ketika data tersebar sama dalam kisaran.
39. Kapan underfitting terjadi pada model statis?
Underfitting terjadi ketika model statistik atau algoritma pembelajaran mesin tidak dapat menangkap tren yang mendasari data.
40. Apa itu pembelajaran penguatan?
Reinforcement Learning adalah mekanisme pembelajaran tentang bagaimana memetakan situasi menjadi tindakan. Hasil akhirnya akan membantu Anda meningkatkan sinyal reward biner. Dalam metode ini, pelajar tidak diberi tahu tindakan mana yang harus diambil tetapi harus menemukan tindakan mana yang menawarkan hadiah maksimum. Karena metode ini didasarkan pada mekanisme reward / penalty.
41. Sebutkan algoritma yang umum digunakan.
Empat algoritma yang paling umum digunakan oleh Data scientist adalah:
- Regresi linier
- Regresi logistik
- Random Forest
- KNN
42. Apakah presisi itu?
Presisi adalah metrik kesalahan yang paling umum digunakan adalah n mekanisme klasifikasi. Rentangnya dari 0 hingga 1, di mana 1 mewakili 100%
43. Apa itu analisis univariat?
Analisis yang diterapkan pada tidak ada atribut pada satu waktu dikenal sebagai analisis univariat. Boxplot banyak digunakan, model univariat.
44. Bagaimana Anda mengatasi tantangan terhadap temuan Anda?
Untuk mengatasi tantangan dari penemuan saya, seseorang perlu mendorong diskusi, Menunjukkan kepemimpinan dan menghormati pilihan yang berbeda.
45. Jelaskan teknik cluster sampling dalam ilmu Data
Metode pengambilan sampel klaster digunakan saat sulit untuk mempelajari populasi target yang tersebar di seluruh wilayah, dan pengambilan sampel acak sederhana tidak dapat diterapkan.
46. Sebutkan perbedaan antara Set Validasi dan Set Tes
Set Validasi sebagian besar dianggap sebagai bagian dari set pelatihan karena digunakan untuk pemilihan parameter yang membantu Anda menghindari overfitting pada model yang sedang dibangun.
Sedangkan Test Set digunakan untuk menguji atau mengevaluasi performa model machine learning terlatih.
47. Jelaskan istilah Rumus Probabilitas Binomial?
"Distribusi binomial berisi probabilitas dari setiap kemungkinan keberhasilan pada percobaan N untuk peristiwa independen yang memiliki probabilitas π untuk terjadi."
48. Apakah penarikan kembali itu?
Penarikan kembali adalah rasio rasio positif benar terhadap rasio positif aktual. Ini berkisar dari 0 hingga 1.
49. Diskusikan distribusi normal
Distribusi normal didistribusikan secara merata seperti mean, median dan mode adalah sama.
50. Saat mengerjakan kumpulan data, bagaimana Anda dapat memilih variabel penting? Menjelaskan
Metode pemilihan variabel berikut yang dapat Anda gunakan:
- Hapus variabel yang berkorelasi sebelum memilih variabel penting
- Gunakan regresi linier dan pilih variabel yang bergantung pada nilai p tersebut.
- Gunakan Mundur, Maju Seleksi, dan Seleksi Bertahap
- Gunakan Xgboost, Random Forest, dan bagan kepentingan variabel plot.
- Ukur perolehan informasi untuk kumpulan fitur tertentu dan pilih n fitur teratas yang sesuai.
51. Apakah mungkin untuk menangkap korelasi antara variabel kontinu dan kategorikal?
Ya, kita dapat menggunakan teknik analisis kovarian untuk menangkap hubungan antara variabel kontinu dan kategori.
52. Memperlakukan variabel kategori sebagai variabel kontinu akan menghasilkan model prediksi yang lebih baik?
Ya, nilai kategoris harus dianggap sebagai variabel kontinu hanya jika variabel tersebut bersifat ordinal. Jadi ini adalah model prediksi yang lebih baik.