MEMBACA
SENTIMEN GAMER LEWAT NAIVE BAYES
Oleh:
Risman Firmansyah, M.Pd *)

Ayo,
Mulai dari Hal yang Dekat dengan Kita
Pernahkah
kamu membuka Google Play Store, lalu membaca ulasan orang tentang suatu game
sebelum memutuskan untuk mendownloadnya? Atau mungkin kamu sendiri pernah
menulis komentar seperti "Game ini seru banget!" atau "Tolong
diperbaiki, banyak bug!"?
Nah,
tahukah kamu bahwa di balik ribuan ulasan itu, ada matematika yang bekerja
untuk memahami apa yang sebenarnya dirasakan oleh para pengguna? Yap!
Matematika ternyata tidak hanya tentang rumus-rumus abstrak di papan tulis,
tetapi juga bisa "membaca" perasaan manusia dari tulisan mereka.
Dalam
artikel ini, kita akan belajar bagaimana sebuah metode bernama Naive
Bayes Classifier yang berbasis pada teorema Bayes dalam teori probabilitas digunakan
untuk menganalisis sentimen (positif atau negatif) dari ulasan game Angkot
d Game di Google Play Store. Siap? Yuk, kita mulai!
Sumber: https://binus.ac.id/bandung/2019/12/algoritma-naive-bayes/
1.
Apa Itu Analisis Sentimen?
Coba
bayangkan kamu memiliki 1.000 komentar tentang sebuah game. Membaca satu per
satu pasti melelahkan, bukan? Nah, analisis sentimen adalah
cara otomatis untuk mengelompokkan komentar-komentar itu ke dalam
kategori positif atau negatif.
Dalam
penelitian yang menjadi acuan kita, para peneliti mengumpulkan 1.000 ulasan
game Angkot d Game (game simulasi jadi sopir angkot buatan
developer lokal Indonesia). Setelah dibersihkan dari ulasan yang netral
(bintang 3), tersisa 892 ulasan. Lalu, ulasan dengan bintang 1-2 diberi
label Negatif, dan bintang 4-5 diberi label Positif.
Hasilnya? Ada 46,8% ulasan positif dan 53,1% ulasan negatif.
Koneksi
ke Matematika: Ini adalah contoh awal dari statistik
deskriptif kita menghitung proporsi data untuk memahami gambaran besar
terlebih dahulu.

Sumber: https://www.excelr.com/blog/artificial-intelligence/mastering-sentiment-analysis-decoding-emotions-in-text
2.
Teorema Bayes. Jantung dari Metode Naive Bayes
Oke,
sekarang kita masuk ke inti matematika. Ada seorang matematikawan bernama Thomas
Bayes (1701–1761) yang mengemukakan sebuah teorema tentang
probabilitas bersyarat. Rumusnya seperti ini:

Jangan
panik dulu lihat rumus! Mari kita pahami dengan cerita.
Bayangkan
kamu sedang bermain tebak-tebakan: dari isi ulasan, kita mau menebak apakah
ulasan itu positif atau negatif. Dalam rumus di
atas:
adalah probabilitas
suatu ulasan termasuk kelas A (misal positif) jika diketahui kata-kata B
muncul. Ini yang ingin kita cari.
adalah
probabilitas awal (prior) bahwa suatu ulasan itu positif (tanpa melihat
kata-katanya).
adalah
probabilitas munculnya kata-kata B jika ulasan itu positif.
adalah
probabilitas munculnya kata-kata B secara keseluruhan.
Contoh
sederhana: Misalkan
dari 892 ulasan, 417 positif (46,8%). Maka
. Sekarang, jika dalam
ulasan positif kata "bagus" sering muncul, maka
akan tinggi.
Naive Bayes akan menggabungkan informasi ini untuk memprediksi kelas ulasan
baru.
Sumber: https://www.gatherthink.com/p/the-power-of-assumptions
3.
Kok Namanya "Naive"? Apakah Bodoh?
Tidak,
kok! Kata naive (naif) di sini berarti asumsi
penyederhanaan bahwa semua kata dalam suatu ulasan itu saling
bebas (independen) satu sama lain. Padahal di dunia nyata, kata
"bagus" dan "seru" sering muncul bersama. Tapi dengan
asumsi ini, perhitungan menjadi jauh lebih sederhana dan cepat—dan terbukti
tetap akurat untuk banyak kasus.
Secara
matematis, untuk sebuah ulasan dengan kata-kata
, kita menghitung:

Artinya,
kita kalikan semua probabilitas setiap kata muncul di kelas positif, lalu
kalikan dengan probabilitas awal kelas positif. Lakukan hal yang sama untuk
kelas negatif, lalu pilih kelas dengan nilai terbesar.
Istilah
kerennya: Ini
disebut Maximum a Posteriori (MAP) memilih kelas yang paling
mungkin setelah melihat bukti dari kata-kata.
4.
Sebelum Diolah, Ulasan Harus "Dibersihkan" Dulu (Preprocessing)
Ini
bagian yang mirip seperti menyortir baju sebelum dicuci. Data teks mentah tidak
bisa langsung dimasukkan ke rumus. Ada beberapa tahap:
|
Proses
|
Contoh
Awal
|
Contoh
Hasil
|
|
Case
folding
|
"Game
nya ngeleg GAK bagus"
|
"game
nya ngeleg gak bagus"
|
|
Punctuation
removal
|
Hapus
tanda baca (,.!?)
|
"game
nya ngeleg gak bagus"
|
|
Tokenization
|
Memecah
kalimat jadi kata per kata
|
['game',
'nya', 'ngeleg', 'gak', 'bagus']
|
|
Filtering
|
Hapus
kata tidak penting (stopword)
|
['game',
'ngeleg', 'gak', 'bagus']
|
|
Stemming
|
Ubah
ke kata dasar
|
'ngeleg'
→ 'leg' (agak disederhanakan)
|
Hasil
akhirnya adalah kumpulan kata-kata bersih yang siap dihitung.
5.
Membobot Kata dengan TF-IDF
Setelah
bersih, setiap kata diberi bobot. Ini penting karena tidak semua kata sama
pentingnya. Kata seperti "game" mungkin muncul di hampir semua
ulasan, sehingga tidak terlalu membedakan sentimen. Sebaliknya, kata
"bug" mungkin lebih khas untuk ulasan negatif.
Rumus
yang digunakan adalah TF-IDF (Term Frequency Inverse Document Frequency):

: seberapa sering
kata
muncul di
ulasan 
: total ulasan
(misal 892)
: jumlah ulasan
yang mengandung kata 
Logika
di baliknya: kata yang jarang muncul tapi spesifik (misal "macet",
"fitur") akan mendapat bobot tinggi. Kata yang muncul di mana-mana
("game") bobotnya rendah.
Koneksi
ke Matematika: Ini adalah aplikasi fungsi logaritma untuk
menekan pengaruh frekuensi yang terlalu tinggi.

Sumber: https://health.detik.com/berita-detikhealth/d-2004066/susah-pahami-matematika
6.
Mengevaluasi Kinerja Model: Confusion Matrix
Setelah
model dilatih, kita harus menguji seberapa baik kemampuannya. Caranya menggunakan confusion
matrix, yaitu tabel 2×2 seperti ini:
|
Prediksi
Positif
|
Prediksi
Negatif
|
|
Aktual
Positif
|
TP
(True Positif)
|
FN
(False Negatif)
|
|
Aktual
Negatif
|
FP
(False Positif)
|
TN
(True Negatif)
|
Dari
penelitian ini, diperoleh hasil:
- Akurasi = 88,51% →
dari 163 ulasan uji, 132 diklasifikasikan dengan benar.
- Sensitivity
= 82,57% → model mampu menangkap 82% ulasan positif yang
sebenarnya.
- Specificity
= 94,2% → model sangat baik mengenali ulasan negatif.
- Nilai AUC = 88,38% →
termasuk kategori Sangat Baik (karena 0,80–0,90).
AUC (Area
Under Curve) adalah ukuran kemampuan model membedakan dua kelas. Semakin
mendekati 1, semakin baik.
7.
Apa Hasilnya? Dan Apa Manfaatnya?
Dari
wordcloud dan frekuensi kata, ditemukan:
- Kata sering muncul
di ulasan positif: game, mobil, bagus, tumpang, main, grafik
- Kata sering muncul
di ulasan negatif: game, bagus, bug, main, tolong, update
- Kata
"bagus" bisa muncul di kedua sisi tergantung konteksnya.
- Kata "bug" muncul
131 kali, "loading" 39 kali, "fitur" 42
kali, "update" 199 kali.
Implikasi
untuk pengembang game:
Para
pemain menginginkan update berkala, perbaikan bug, dan loading yang lebih
cepat. Dengan mengetahui ini, developer bisa memprioritaskan perbaikan yang
paling dikeluhkan.

Sumber: https://lms.ittelkom-pwt.ac.id/course/info.php?id=381
8.
Simpulan. Matematika Itu Berguna, Bukan Sekadar Teori
Metode Naive
Bayes Classifier terbukti sangat baik untuk menganalisis sentimen
ulasan game, dengan akurasi 88,51%. Ini menunjukkan bahwa teori
probabilitas dan logaritma yang dipelajari di SMA benar-benar bisa
diterapkan di industri digital saat ini. Untuk kamu yang suka game atau
tertarik dengan data, ilmu matematika seperti ini adalah pintu masuk untuk
menjadi data analyst atau AI engineer di masa
depan. Bayangkan, perusahaan game bisa meningkatkan pendapatan (yang di
Indonesia sudah mencapai Rp25 triliun per tahun!) hanya dengan memahami ulasan
penggunanya. Jadi, lain kali jika kamu melihat ulasan di Play Store, sadarilah
bahwa di balik layar, ada rumus-rumus matematika yang bekerja keras mengubah
kata-kata menjadi wawasan berharga. Keren, kan?
Rangkuman
Ekspres untuk Kamu:
|
Konsep
|
Arti
Simpel
|
|
Analisis
Sentimen
|
Membaca
opini otomatis dari teks
|
|
Teorema
Bayes
|
Menghitung
peluang berdasarkan bukti
|
|
Naive
Bayes
|
Metode
klasifikasi dengan asumsi kata-kata bebas
|
|
Preprocessing
|
Membersihkan
teks sebelum diproses
|
|
TF-IDF
|
Membobot
kata berdasarkan frekuensi dan keunikannya
|
|
Confusion
Matrix
|
Alat
evaluasi seberapa benar prediksi
|
|
Akurasi
88,51%
|
Model
ini cukup handal untuk digunakan
|
*)
Guru Matematika di SMAN 1 Pangalengan. Staf Kesiswaan, Pengelola Sekolah
Terbuka di SMAN 1 Pangalengan
**)
Hasil Tulis ulang dari artikel:
Sitti
Masyitah Meliyana R, dkk. "Analisis Sentimen Ulasan Game Simulator
Indonesia di Google Play Store Menggunakan Algoritma Naive Bayes".
VARIANSI: Journal of Statistics, Vol. 7 No. 2 (2025).