Topic Modeling / Word Cloud Tutorial
Apa itu WordCloud ?
Word Cloud merupakan model mapping kata yg ada dalam text mining untuk mempermudah dalam mengamati bahasan atau sesuatu hal yang sedang ramai diperbincangkan.
Untuk membuat sebuah word cloud ada beberapa hal yang perlu dipersiapkan terlebih dahulu, yaitu :
- Gephi
Sebuah software analisis dan visualisasi jaringan open-source yang ditulis dengan bahasa pemrograman java (netbeans).
Link Gephi : LINK.
- Colab
Google Colab adalah salah satu produk Google berbasis cloud yang bisa kita gunakan secara gratis. Google Colab dibuat khusus untuk para programmer atau researcher yang mungkin kesulitan untuk mendapatkan akses komputer dengan spek tinggi. Google Colab adalah coding environment bahasa pemrograman Python dengan format “notebook”.
Link Colab : LINK.
- Twitter API
Pada tutorial kali ini kita akan melakukan scraping data menggunakan platform twitter, maka diperlukan Twitter API untuk mengakses/mengambil data dari twitter.
Untuk mendapatkan API Twitter diperlukan untuk mendaftar twitter developer account.
Link apply developer account: LINK.
1. Scraping data (Gephi)
Buka Aplikasi Gephi, kemudian install TwitterStreamingImporter plugin (Tools - Plugins).
Pada TwitterStreamingImporter, klik Set Credentials TwitterStreamingImporter plugin dengan cara inputkan API Key, API Secret, Access Token, dan Access Token Secret sesuai dengan twitter account developer.
Untuk mendapatkan data scraping dengan mudah (proses cepat dan hasil data banyak), disarankan untuk melakukan scraping dengan topik yang sedang trending.
Untuk tutorial ini saya menggunakan topik “#KRINanggala402”.
Tambahkan topik tersebut untuk referensi scraping
Kemudian klik connect.
Setelah mendapatkan cukup banyak data, kita dapat melakukan export data yang diperoleh ke dalam file csv, dengan cara klik (Data Laboratory - Export table).
Berikut ini merupakan output “data.csv” yang diperoleh dari proses scraping data pada software gephi.
2. Word Cloud (Colab)
Upload “data.csv” (output gephi) dan sebuah gambar untuk mask word cloud ke dalam google drive.
Buka Colab kemudian kita akan masuk ke tahap memproses data.
Import Library (pandas, numpy, re, nltk, dan matplotlib.pyplot).
Mount Drive, kemudian inisialisasikan value dataset dengan memangil fungsi pandas : read_csv(path direktori “data.csv”).
Menampilkan head dari dataset.
Dari dataset itu, kita hanya mengambil Label (isi tweet) untuk dimasukkan kedalam variabel label, kemudian menampilkan 10 index pertama.
Melakukan proses Text Cleaning.
Melihat hasil label setelah melakukan proses Text Cleaning.
Import library nltk dan download package (punkt & stopwords).
Import stopwords, kemudian melakukan proses stopword indonesia.
Menghapus tanda baca pada label.
Generate word cloud pada dengan mask image yang telah di-upload tadi, kemudian menampilkan wordcloud menggunakan matplotlib.pyplot atau plt.
Sehingga kita medapatkan hasil output sebagai berikut.
Full - Source Code
Penutup
Dengan melakukan proses word cloud / topic modeling kita dapat membuat gambaran frekuensi kata-kata ditampilkan dalam bentuk yang menarik namun tetap informatif. Semakin sering satu kata digunakan, maka semakin besar pula ukuran kata tersebut ditampilkan dalam word cloud.
Sehingga membuat kita lebih mudah untuk mendapatkan inti dari pembahasan yang sedang ramai diperbincangkan.
Sekian, Terimakasih.
Kunjungi :
https://untag-sby.ac.id
https://informatika.untag-sby.ac.id