Farah Amelia Saputri

Normalisasi teks media sosial dalam bahasa Indonesia yang sensitif terhadap konteks Indonesia berdasarkan neural word embeddings

Agustus 29, 2024

Makalah ini membahas tantangan dalam memproses teks media sosial, terutama dalam bahasa Indonesia, yang sering kali tidak mengikuti aturan bahasa konvensional. Teks media sosial sering mengandung penyimpangan tata bahasa dan ejaan, yang menyulitkan pemodelan bahasa alami (NLP) untuk memprosesnya dengan akurat. Masalah ini membatasi aplikasi alat NLP yang dilatih untuk bahasa standar. Untuk mengatasi masalah ini, penulis mengusulkan metode normalisasi yang mengubah token dari teks media sosial ke bentuk bahasa standar dengan makna yang sama. Metode ini menggunakan representasi vektor dari penyisipan kata neural, yang memperhitungkan konteks kata di sekitar token. Penyisipan kata ini dilatih pada lebih dari satu juta tweet dari akun-akun Indonesia, mewakili berbagai domain dan tingkat penyimpangan bahasa. Kata standar dipilih sebagai pengganti hanya jika representasi penyisipan menunjuk...

Baca selengkapnya

Postingan

Normalisasi teks media sosial dalam bahasa Indonesia yang sensitif terhadap konteks Indonesia berdasarkan neural word embeddings