Apa itu Bahasa Pemrograman R? Pendahuluan & Dasar-dasar dari R

Daftar Isi:

Anonim

Apa itu Software R?

R adalah bahasa pemrograman dan perangkat lunak gratis yang dikembangkan oleh Ross Ihaka dan Robert Gentleman pada tahun 1993. R memiliki katalog metode statistik dan grafik yang lengkap. Ini mencakup algoritme pembelajaran mesin, regresi linier, deret waktu, inferensi statistik, dan masih banyak lagi. Sebagian besar pustaka R ditulis dalam R, tetapi untuk tugas komputasi yang berat, kode C, C ++ dan Fortran lebih disukai.

R tidak hanya dipercayakan oleh kalangan akademisi saja, tetapi banyak perusahaan besar juga menggunakan bahasa pemograman R, diantaranya Uber, Google, Airbnb, Facebook dan lain sebagainya.

Analisis data dengan R dilakukan dalam serangkaian langkah; memprogram, mengubah, menemukan, memodelkan, dan mengkomunikasikan hasil

  • Program : R adalah alat pemrograman yang jelas dan dapat diakses
  • Transformasi : R terdiri dari kumpulan perpustakaan yang dirancang khusus untuk ilmu data
  • Temukan : Selidiki data, perbaiki hipotesis Anda, dan analisis mereka
  • Model : R menyediakan beragam alat untuk menangkap model yang tepat untuk data Anda
  • Berkomunikasi : Integrasikan kode, grafik, dan keluaran ke laporan dengan Penurunan Harga R atau buat aplikasi Shiny untuk dibagikan kepada dunia

Dalam tutorial pengantar ini, Anda akan mempelajari R

  • Untuk apa R digunakan?
  • R oleh Industri
  • Paket R.
  • Berkomunikasi dengan R
  • Mengapa menggunakan R?
  • Haruskah Anda memilih R?
  • Apakah R sulit?

Untuk apa R digunakan?

  • Inferensi statistik
  • Analisis data
  • Algoritme pembelajaran mesin

R oleh Industri

Jika kita memecah penggunaan R menurut industri, kita melihat bahwa akademisi adalah yang utama. R adalah bahasa untuk melakukan statistik. R adalah pilihan pertama dalam industri perawatan kesehatan, diikuti oleh pemerintah dan konsultasi.

Paket R.

Kegunaan utama R adalah dan akan selalu menjadi, statistik, visualisasi, dan pembelajaran mesin. Gambar di bawah ini menunjukkan paket R mana yang paling banyak mendapat pertanyaan di Stack Overflow. Di 10 besar, sebagian besar terkait dengan alur kerja seorang data scientist: persiapan data dan mengkomunikasikan hasil.

Semua perpustakaan R, hampir 12k, disimpan di CRAN. CRAN adalah gratis dan open source. Anda dapat mengunduh dan menggunakan berbagai pustaka untuk melakukan Pembelajaran Mesin atau analisis deret waktu.

Berkomunikasi dengan R

R memiliki banyak cara untuk mempresentasikan dan berbagi pekerjaan, baik melalui dokumen penurunan harga atau aplikasi mengkilap. Semuanya dapat dihosting di Rpub, GitHub, atau situs web bisnis.

Di bawah ini adalah contoh presentasi yang diselenggarakan di Rpub

Rstudio menerima penurunan harga untuk menulis dokumen. Anda dapat mengekspor dokumen dalam berbagai format:

  • Dokumen :
    • HTML
    • PDF / Lateks
    • Kata
  • Presentasi
    • HTML
    • Beamer PDF

Rstudio memiliki alat yang hebat untuk membuat Aplikasi dengan mudah. Di bawah ini adalah contoh aplikasi dengan data Bank Dunia.

Mengapa menggunakan R?

Ilmu data membentuk cara perusahaan menjalankan bisnis mereka. Tanpa ragu, menjauh dari Artificial Intelligence and Machine akan membuat perusahaan gagal. Pertanyaan besarnya adalah alat / bahasa mana yang harus Anda gunakan?

Ada banyak alat yang tersedia di pasar untuk melakukan analisis data. Mempelajari bahasa baru membutuhkan investasi waktu. Gambar di bawah ini menggambarkan kurva pembelajaran dibandingkan dengan kapabilitas bisnis yang ditawarkan oleh suatu bahasa. Hubungan negatif menyiratkan bahwa tidak ada makan siang gratis. Jika Anda ingin memberikan wawasan terbaik dari data tersebut, maka Anda perlu meluangkan waktu untuk mempelajari alat yang sesuai, yaitu R.

Di kiri atas grafik, Anda dapat melihat Excel dan PowerBI. Kedua alat ini mudah dipelajari tetapi tidak menawarkan kemampuan bisnis yang luar biasa, terutama dalam hal pemodelan. Di tengah, Anda bisa melihat Python dan SAS. SAS adalah alat khusus untuk menjalankan analisis statistik untuk bisnis, tetapi tidak gratis. SAS adalah perangkat lunak klik dan jalankan. Python, bagaimanapun, adalah bahasa dengan kurva belajar yang monoton. Python adalah alat yang fantastis untuk menerapkan Pembelajaran Mesin dan AI tetapi tidak memiliki fitur komunikasi. Dengan kurva pembelajaran yang identik, R adalah trade-off yang baik antara implementasi dan analisis data.

Ketika datang ke visualisasi data (DataViz), Anda mungkin pernah mendengar tentang Tableau. Tanpa diragukan lagi, Tableau adalah alat yang hebat untuk menemukan pola melalui grafik dan bagan. Selain itu, mempelajari Tableau tidak memakan waktu. Satu masalah besar dengan visualisasi data adalah Anda mungkin tidak akan pernah menemukan pola atau hanya membuat banyak bagan yang tidak berguna. Tableau adalah alat yang baik untuk visualisasi cepat dari data atau Business Intelligence. Dalam hal statistik dan alat pengambilan keputusan, R lebih tepat.

Stack Overflow adalah komunitas besar untuk bahasa pemrograman. Jika Anda memiliki masalah pengkodean atau perlu memahami model, Stack Overflow siap membantu. Sepanjang tahun, persentase tampilan pertanyaan meningkat tajam untuk bahasa R dibandingkan dengan bahasa lain. Tren ini tentu saja sangat berkorelasi dengan era booming ilmu data, tetapi ini mencerminkan permintaan bahasa R untuk ilmu data.

Dalam ilmu data, ada dua alat yang saling bersaing. R dan Python mungkin adalah bahasa pemrograman yang mendefinisikan ilmu data.

Haruskah Anda memilih R?

Ilmuwan data dapat menggunakan dua alat luar biasa: R dan Python. Anda mungkin tidak punya waktu untuk mempelajari keduanya, terutama jika Anda mulai mempelajari ilmu data. Mempelajari pemodelan dan algoritma statistikjauh lebih penting daripada mempelajari bahasa pemrograman. Bahasa pemrograman adalah alat untuk menghitung dan mengkomunikasikan penemuan Anda. Tugas terpenting dalam ilmu data adalah cara Anda menangani data: impor, bersihkan, persiapan, rekayasa fitur, pemilihan fitur. Ini harus menjadi fokus utama Anda. Jika Anda mencoba mempelajari R dan Python pada saat yang sama tanpa latar belakang statistik yang kuat, itu bodoh. Ilmuwan data bukanlah pemrogram. Tugas mereka adalah memahami data, memanipulasinya, dan mengekspos pendekatan terbaik. Jika Anda sedang memikirkan bahasa mana yang harus dipelajari, mari kita lihat bahasa mana yang paling cocok untuk Anda.

Audiens utama untuk ilmu data adalah profesional bisnis. Dalam bisnis, salah satu implikasi besarnya adalah komunikasi. Ada banyak cara untuk berkomunikasi: laporan, aplikasi web, dasbor. Anda membutuhkan alat yang melakukan semua ini bersama-sama.

Apakah R sulit?

Bertahun-tahun lalu, R adalah bahasa yang sulit dikuasai. Bahasanya membingungkan dan tidak terstruktur seperti alat pemrograman lainnya. Untuk mengatasi masalah besar ini, Hadley Wickham mengembangkan kumpulan paket yang disebut tidyverse. Aturan permainan berubah menjadi yang terbaik. Manipulasi data menjadi sepele dan intuitif. Membuat grafik tidak terlalu sulit lagi.

Algoritme terbaik untuk pembelajaran mesin dapat diimplementasikan dengan R.Paket seperti Keras dan TensorFlow memungkinkan pembuatan teknik pembelajaran mesin kelas atas. R juga memiliki paket untuk melakukan Xgboost, salah satu algoritma terbaik untuk kompetisi Kaggle.

R dapat berkomunikasi dengan bahasa lain. Dimungkinkan untuk memanggil Python, Java, C ++ in R. Dunia big data juga dapat diakses oleh R. Anda dapat menghubungkan R dengan database yang berbeda seperti Spark atau Hadoop.

Akhirnya, R telah berevolusi dan memungkinkan operasi paralelisasi untuk mempercepat komputasi. Faktanya, R dikritik karena hanya menggunakan satu CPU pada satu waktu. Paket paralel memungkinkan Anda melakukan tugas di inti mesin yang berbeda.

Ringkasan

Singkatnya, R adalah alat yang hebat untuk mengeksplorasi dan menyelidiki data. Analisis yang rumit seperti pengelompokan, korelasi, dan reduksi data dilakukan dengan R. Ini adalah bagian terpenting, tanpa rekayasa fitur dan model yang baik, penerapan pembelajaran mesin tidak akan memberikan hasil yang berarti.