Topic Modeling / Word Cloud Tutorial

Safri Firmansyah
4 min readApr 28, 2021

--

Word Cloud

Apa itu WordCloud ?

Word Cloud merupakan model mapping kata yg ada dalam text mining untuk mempermudah dalam mengamati bahasan atau sesuatu hal yang sedang ramai diperbincangkan.

Untuk membuat sebuah word cloud ada beberapa hal yang perlu dipersiapkan terlebih dahulu, yaitu :

  • Gephi

Sebuah software analisis dan visualisasi jaringan open-source yang ditulis dengan bahasa pemrograman java (netbeans).
Link Gephi :
LINK.

  • Colab

Google Colab adalah salah satu produk Google berbasis cloud yang bisa kita gunakan secara gratis. Google Colab dibuat khusus untuk para programmer atau researcher yang mungkin kesulitan untuk mendapatkan akses komputer dengan spek tinggi. Google Colab adalah coding environment bahasa pemrograman Python dengan format “notebook”.
Link Colab :
LINK.

  • Twitter API

Pada tutorial kali ini kita akan melakukan scraping data menggunakan platform twitter, maka diperlukan Twitter API untuk mengakses/mengambil data dari twitter.
Untuk mendapatkan API Twitter diperlukan untuk mendaftar twitter developer account.
Link apply developer account:
LINK.

1. Scraping data (Gephi)

Buka Aplikasi Gephi, kemudian install TwitterStreamingImporter plugin (Tools - Plugins).

Gephi Plugins

Pada TwitterStreamingImporter, klik Set Credentials TwitterStreamingImporter plugin dengan cara inputkan API Key, API Secret, Access Token, dan Access Token Secret sesuai dengan twitter account developer.

Twitter API Credential

Untuk mendapatkan data scraping dengan mudah (proses cepat dan hasil data banyak), disarankan untuk melakukan scraping dengan topik yang sedang trending.
Untuk tutorial ini saya menggunakan topik “#KRINanggala402”.

Trending Topics

Tambahkan topik tersebut untuk referensi scraping

Words to follow

Kemudian klik connect.

5867 Nodes telah diperoleh

Setelah mendapatkan cukup banyak data, kita dapat melakukan export data yang diperoleh ke dalam file csv, dengan cara klik (Data Laboratory - Export table).

Export data

Berikut ini merupakan output “data.csv” yang diperoleh dari proses scraping data pada software gephi.

Scraping-Nanggala402.csv

2. Word Cloud (Colab)

Upload “data.csv” (output gephi) dan sebuah gambar untuk mask word cloud ke dalam google drive.

Gambar yang saya gunakan
Upload G-Drive

Buka Colab kemudian kita akan masuk ke tahap memproses data.

Import Library (pandas, numpy, re, nltk, dan matplotlib.pyplot).

Import Lib

Mount Drive, kemudian inisialisasikan value dataset dengan memangil fungsi pandas : read_csv(path direktori “data.csv”).

Mount

Menampilkan head dari dataset.

dataset head

Dari dataset itu, kita hanya mengambil Label (isi tweet) untuk dimasukkan kedalam variabel label, kemudian menampilkan 10 index pertama.

Label

Melakukan proses Text Cleaning.

Text Cleaning

Melihat hasil label setelah melakukan proses Text Cleaning.

Print

Import library nltk dan download package (punkt & stopwords).

Import NLTK

Import stopwords, kemudian melakukan proses stopword indonesia.

Stopwords Indonesia

Menghapus tanda baca pada label.

Hapus tanda baca

Generate word cloud pada dengan mask image yang telah di-upload tadi, kemudian menampilkan wordcloud menggunakan matplotlib.pyplot atau plt.

Generate Cloud Word

Sehingga kita medapatkan hasil output sebagai berikut.

Output

Full - Source Code

Source Code

Penutup

Dengan melakukan proses word cloud / topic modeling kita dapat membuat gambaran frekuensi kata-kata ditampilkan dalam bentuk yang menarik namun tetap informatif. Semakin sering satu kata digunakan, maka semakin besar pula ukuran kata tersebut ditampilkan dalam word cloud.
Sehingga membuat kita lebih mudah untuk mendapatkan inti dari pembahasan yang sedang ramai diperbincangkan.

Sekian, Terimakasih.

Kunjungi :

https://untag-sby.ac.id
https://informatika.untag-sby.ac.id

--

--

No responses yet