Dalam tutorial ini, Anda akan belajar -
- Menginstal NLTK di Windows
- Menginstal Python di Windows
- Menginstal NLTK di Mac / Linux
- Menginstal NLTK melalui Anaconda
- Set data NLTK
- Cara mengunduh semua paket NLTK
- Menjalankan NLP Script
- Bagaimana Menjalankan NLTK Script
Menginstal NLTK di Windows
Pada bagian ini, kita akan belajar bagaimana membuat setup NLTK melalui terminal (Command prompt di windows).
Instruksi yang diberikan di bawah ini didasarkan pada asumsi bahwa Anda belum menginstal python. Jadi, langkah pertama adalah menginstal python.
Menginstal Python di Windows:
Langkah 1) Buka tautan https://www.python.org/downloads/ , dan pilih versi terbaru untuk windows.
Catatan : Jika Anda tidak ingin mengunduh versi terbaru, Anda dapat mengunjungi tab unduhan dan melihat semua rilis.
Langkah 2) Klik pada File yang Diunduh
Langkah 3) Pilih Sesuaikan Instalasi
Langkah 4) Klik NEXT
Langkah 5) Di layar berikutnya
- Pilih opsi lanjutan
- Berikan lokasi pemasangan Kustom. Dalam kasus saya, folder di drive C dipilih untuk kemudahan pengoperasian
- Klik Pasang
Langkah 6) Klik tombol Close setelah instalasi selesai.
Langkah 7) Salin jalur folder Skrip Anda.
Langkah 8) Di command prompt windows
- Arahkan ke lokasi folder pip
- Masukkan perintah untuk menginstal NLTK
pip3 install nltk
- Instalasi harus berhasil dilakukan
CATATAN : Untuk Python2, gunakan commandpip2 install nltk
Langkah 9) Di Start Menu Windows, cari dan buka PythonShell
Langkah 10) Anda dapat memverifikasi apakah instalasi akurat dengan menyediakan perintah di bawah ini
import nltk
Jika Anda tidak melihat kesalahan, Penginstalan selesai.
Menginstal NLTK di Mac / Linux
Menginstal NLTK di Mac / Unix membutuhkan pip pengelola paket python untuk menginstal nltk. Jika pip tidak diinstal, ikuti petunjuk di bawah ini untuk menyelesaikan prosesnya
Step1) Perbarui indeks paket dengan mengetikkan perintah di bawah ini
sudo apt update
Step2) Menginstal pip untuk Python 3:
sudo apt install python3-pip
Anda juga dapat menginstal pip menggunakan easy_install.
sudo apt-get install python-setuptools python-dev build-essential
Sekarang easy_install diinstal. Jalankan perintah di bawah ini untuk menginstal pip
sudo easy_install pip
Step3) Gunakan perintah berikut untuk menginstal NLTK
sudo pip install -U nltksudo pip3 install -U nltk
Menginstal NLTK melalui Anaconda
Langkah 1) Silakan instal anaconda (yang juga dapat digunakan untuk menginstal paket yang berbeda) dengan mengunjungi https://www.anaconda.com/products/individual dan pilih versi python mana yang perlu Anda instal untuk anaconda.
Catatan: Lihat tutorial ini untuk mengetahui langkah-langkah mendetail untuk menginstal anaconda
Langkah 2) Di prompt Anaconda,
- Masukkan perintah
conda install -c anaconda nltk
- Tinjau peningkatan paket, downgrade, instal informasi dan masukkan ya
- NLTK diunduh dan diinstal
Set data NLTK
Modul NLTK memiliki banyak dataset yang perlu Anda unduh untuk digunakan. Lebih teknisnya disebut corpus . Beberapa contohnya adalah stopwords , gutenberg , framenet_v15 , large_grammars dan sebagainya.
Cara mengunduh semua paket NLTK
Langkah 1) Jalankan interpreter Python di Windows atau Linux
Langkah 2)
- Masukkan perintahnya
import nltknltk.download ()
- Jendela Unduhan NLTK Terbuka. Klik Tombol Unduh untuk mengunduh kumpulan data. Proses ini akan memakan waktu, berdasarkan koneksi internet Anda
CATATAN: Anda dapat mengubah lokasi unduhan dengan mengklik File> Ubah Direktori Unduhan
Langkah 3) Untuk menguji data yang diinstal gunakan kode berikut
>>> from nltk.corpus import brown>>>brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said',…]
Menjalankan NLP Script
Kami akan membahas bagaimana skrip NLP akan dijalankan di PC lokal kami. Ada banyak perpustakaan untuk Pemrosesan Bahasa Alami yang ada di pasaran. Jadi memilih perpustakaan tergantung pada kesesuaian kebutuhan Anda. Berikut adalah daftar perpustakaan NLP.
Bagaimana Menjalankan NLTK Script
Step1) Di editor kode favorit Anda, salin kode dan simpan file sebagai " NLTKsample.py "
from nltk.tokenize import RegexpTokenizertokenizer = RegexpTokenizer(r'\w+')filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')print(filterdText)
Penjelasan Kode:
- Dalam program ini, tujuannya adalah untuk menghapus semua jenis tanda baca dari teks yang diberikan. Kami mengimpor "RegexpTokenizer" yang merupakan modul NLTK. Ini menghapus semua ekspresi, simbol, karakter, numerik atau apapun yang Anda inginkan.
- Anda baru saja meneruskan Ekspresi reguler ke modul "RegexpTokenizer".
- Selanjutnya, kami membuat token kata menggunakan modul "tokenisasi". Keluarannya disimpan dalam variabel "filterdText".
- Dan mencetaknya menggunakan "print ()."
Step2) Di prompt perintah
- Arahkan ke lokasi tempat Anda menyimpan file
- Jalankan perintah Python NLTKsample.py
Ini akan menampilkan keluaran sebagai:
['Hello', 'Guru99', 'You', 'have', 'build', 'a', 'very', 'good', 'site', 'and', 'I', 'love', ' mengunjungi ',' your ',' site ']