Normalisasi teks media sosial dalam bahasa Indonesia yang sensitif terhadap konteks Indonesia berdasarkan neural word embeddings

Makalah ini membahas tantangan dalam memproses teks media sosial, terutama dalam bahasa Indonesia, yang sering kali tidak mengikuti aturan bahasa konvensional. Teks media sosial sering mengandung penyimpangan tata bahasa dan ejaan, yang menyulitkan pemodelan bahasa alami (NLP) untuk memprosesnya dengan akurat. Masalah ini membatasi aplikasi alat NLP yang dilatih untuk bahasa standar.

         Untuk mengatasi masalah ini, penulis mengusulkan metode normalisasi yang mengubah token dari teks media sosial ke bentuk bahasa standar dengan makna yang sama. Metode ini menggunakan representasi vektor dari penyisipan kata neural, yang memperhitungkan konteks kata di sekitar token. Penyisipan kata ini dilatih pada lebih dari satu juta tweet dari akun-akun Indonesia, mewakili berbagai domain dan tingkat penyimpangan bahasa.

         Kata standar dipilih sebagai pengganti hanya jika representasi penyisipan menunjukkan kemiripan tinggi dengan token. Pengganti kemudian dipilih berdasarkan kemiripan ortografis. Percobaan menunjukkan bahwa model penyisipan yang dilatih dengan Continuous Bag of Words (CBOW) memberikan hasil lebih baik daripada Skip-Gram, dengan akurasi normalisasi pesan sebesar 79,56%. Namun, dalam normalisasi token individual, penting untuk memastikan bahwa token tersebut adalah ejaan salah dan bukan kata benda diri atau kata dari bahasa lain.

         Makalah ini diatur dengan menjelaskan karya terkait, penyisipan kata neural, arsitektur sistem normalisasi, data, dan metode penilaian. Kinerja sistem dibahas untuk normalisasi kata dan pesan, diakhiri dengan kesimpulan dan saran untuk penelitian di masa depan.

Gaya bahasa yang digunakan di media sosial sering kali menyimpang dari bahasa baku, dengan variasi seperti kesalahan ejaan, singkatan, emotikon, dan penggantian karakter yang mempersulit pemrosesan otomatis dan pemahaman pesan. Variasi ini menyulitkan alat NLP konvensional dan dapat mengganggu pemahaman informasi, sehingga normalisasi teks menjadi penting. Normalisasi teks mirip dengan koreksi ejaan, yang umumnya menggunakan ukuran jarak seperti Levenshtein untuk mengganti token dengan padanan standarnya.

         Berbagai metode telah dikembangkan untuk menangani normalisasi teks. Beberapa metode menggunakan jarak Levenshtein dan kesamaan fonetik, sedangkan metode lain memanfaatkan daftar kata, pola string, atau transduser keadaan-hingga. Peneliti juga memanfaatkan ketergantungan konteks dari makna kata untuk menyesuaikan token dengan kata standar. Misalnya, Wang et al. Menggunakan kolokasi konteks untuk fitur berbasis aturan dan statistik dalam pengklasifikasi, sementara Han et al. Membangun kamus normalisasi dengan mengukur kesamaan konteks melalui ukuran seperti divergensi Kullback-Leibler dan jarak Jensen-Shannon.

         Penelitian ini menunjukkan bahwa pendekatan yang memanfaatkan konteks dan berbagai ukuran kesamaan dapat meningkatkan akurasi dalam normalisasi teks media sosial, yang penting untuk aplikasi yang bergantung pada pencocokan string atau statistik frekuensi

         Dalam pemrosesan teks, representasi kata biasanya menggunakan metode seperti keberadaan kata dalam dokumen, tf-idf, atau ukuran skalar lainnya. Namun, pendekatan baru yang lebih canggih adalah representasi terdistribusi yang diperkenalkan oleh Hinton dan koleganya, di mana setiap kata diwakili oleh vektor kontinu. Pendekatan ini mendapatkan perhatian luas setelah publikasi Mikolov dan tim yang memperkenalkan teknik untuk mempelajari vektor kata dari kumpulan data besar dengan miliaran kata dan kosakata jutaan. Sebelumnya, Collobert dan Weston menunjukkan bahwa representasi kata terdistribusi dapat meningkatkan aplikasi NLP secara signifikan.

         Model vektor kata ini, dikenal sebagai penyisipan kata, memungkinkan penangkapan keteraturan linier antara kata-kata, yang penting untuk sintaksis dan semantik. Penyisipan kata telah menjadi metode populer dalam representasi kata, mendominasi penelitian di konferensi NLP utama.

         Model utama dalam representasi vektor kata adalah continuous-bag-of-words (CBOW) dan Skip-gram. Keduanya adalah jenis model bahasa dengan arsitektur mirip jaringan saraf feedforward tetapi tanpa lapisan tersembunyi nonlinier, di mana semua kata berbagi lapisan proyeksi. CBOW memprediksi sebuah kata dari kata-kata sebelumnya tanpa memperhatikan urutannya, sementara dalam model Skip-gram, kata saat ini digunakan untuk memprediksi kata-kata konteks di sekelilingnya. Kedua model ini menggunakan vektor kontinu untuk representasi kata dalam konteks yang berbeda, memungkinkan analisis semantik dan sintaksis yang lebih mendalam.

          Langkah-langkah dalam proses normalisasi kata dimulai dengan mengubah teks masukan menjadi huruf kecil dan men-tokenisasi teks tersebut. Setiap token kemudian dinormalisasi berdasarkan beberapa kondisi. Pertama, jika token sudah dikenali sebagai kata yang dieja dengan benar atau jika token hanya terdiri dari satu karakter, token tersebut dikembalikan tanpa perubahan.

         Jika token bukan kata yang benar atau terdiri dari satu karakter, langkah berikutnya adalah memeriksa apakah token terdapat dalam tabel pencarian token yang kata koreksinya telah diketahui. Tabel ini berfungsi sebagai memo untuk mempercepat pencarian koreksi berdasarkan pemetaan token sebelumnya.

         Jika token tidak ada dalam tabel pencarian, model penyisipan kata digunakan untuk menemukan kandidat kata yang paling mirip secara semantis dengan token tersebut. Kata-kata kandidat ini harus ada dalam leksikon Bahasa Indonesia untuk memastikan penggantian yang sesuai. Jika model tidak menghasilkan kandidat, hal ini biasanya terjadi pada kata benda diri, dan dalam kasus tersebut, token dibiarkan tanpa perubahan.

         Jika model menghasilkan beberapa kandidat, pemilihan kata pengganti yang terbaik dilakukan dengan mempertimbangkan kesamaan kontekstual yang ditangkap oleh penyematan kata. Penyematan kata ini, yang dilatih pada tugas pemodelan bahasa, mampu menangkap kesamaan semantik dan kontekstual antar kata, sehingga memungkinkan penggantian yang lebih akurat.

         Dari 1000 token yang diuji, sistem berhasil menormalkan 441 token dengan benar dan mengalami kesalahan pada sisanya. Analisis kesalahan mengungkapkan beberapa masalah utama: Kata Benda Diri: Banyak kesalahan terjadi pada token yang merupakan kata benda diri yang tidak ada dalam leksikon. Untuk mengatasi ini, perlu ada mekanisme untuk membedakan kata benda diri dari kata yang salah eja, seperti menggunakan Named Entity Recognition (NER) berbasis fitur ortografi atau penyematan tingkat karakter.

         Singkatan: Model kesulitan menangani singkatan yang merupakan gabungan dari beberapa kata. Misalnya, ‘lalin’ sebagai singkatan ‘lalu lintas’ dinormalisasi menjadi ‘lalim’, yang tidak sesuai dengan makna sebenarnya. Pendekatan untuk menangani singkatan mungkin diperlukan.

          Kata Asing: Sistem juga gagal menangani token yang merupakan kata asing, terutama dari bahasa Inggris, seperti ‘one’. Menambahkan fitur untuk mendeteksi bahasa asing atau memanfaatkan penyematan tingkat karakter untuk membedakan token dari bahasa lain mungkin membantu.

          Namun, ada korelasi kuat antara skor kesamaan kandidat dengan token dan keberhasilan normalisasi. Token dengan skor kesamaan tinggi umumnya dinormalisasi dengan benar, dengan akurasi 96% untuk 100 token teratas. Ini menunjukkan bahwa meningkatkan kualitas data dan model dapat memperbaiki hasil normalisasi dengan lebih baik dalam kasus-kasus yang bermasalah.

           Makalah ini membahas metode normalisasi teks media sosial dalam Bahasa Indonesia dengan menggunakan neural word embeddings. Kami memanfaatkan penyematan kata neural untuk memahami konteks token dan menghasilkan versi formal dari token tersebut, memilih kandidat normalisasi yang paling mirip secara ortografis. Meskipun ejaan dalam teks media sosial sering kali tidak teratur, penggunaan word embeddings membantu memetakan token ke ejaan yang benar dengan mempertimbangkan konteks sekitarnya. Hasil penelitian menunjukkan bahwa model CBOW lebih efektif daripada Skip-gram dalam menghasilkan kandidat normalisasi yang akurat, dengan kontribusi faktor-faktor lain seperti fitur ortografi dan metode pencarian token yang minimal.

           Makalah ini mengeksplorasi metode normalisasi teks media sosial dalam Bahasa Indonesia dengan menggunakan neural word embeddings. Sistem kami mengubah teks menjadi huruf kecil, men-tokenisasi, dan memanfaatkan penyematan kata untuk menemukan bentuk formal dari token, dengan mempertimbangkan konteks sekitarnya. Skor kesamaan ortografis dari jarak Levenshtein dan Jaro-Winkler juga digunakan untuk memilih kandidat normalisasi yang tepat.

           Dari 1000 token yang diuji, sistem berhasil menormalkan 441 token dan mengalami kesalahan pada 559 token. Kesalahan sering terjadi pada kata benda diri atau kata asing yang seharusnya tidak dinormalisasi, dan pada singkatan informal yang salah dinormalisasi menjadi kata tunggal. Pendekatan yang menggabungkan penyematan kata dengan fitur ortografi menunjukkan hasil yang baik, dengan akurasi tinggi pada kandidat dengan skor kesamaan tertinggi.

           Sistem mencapai akurasi tertinggi 79,56% dalam normalisasi pesan secara keseluruhan. Menurunkan ambang batas kesamaan kandidat meningkatkan akurasi, tetapi juga meningkatkan risiko normalisasi yang salah. Model CBOW menunjukkan kinerja lebih baik daripada Skip-gram, dengan kemungkinan keunggulan pada data yang lebih besar.

Beberapa area untuk pengembangan lebih lanjut termasuk:

Pengenalan Entitas Bernama (NER): Untuk membedakan kata benda diri dari kesalahan ejaan.

Penyematan Tingkat Karakter: Untuk membedakan antara kata bahasa Indonesia dan kata asing, serta mengidentifikasi kata benda diri.

Menangani Singkatan: Mengadaptasi metode untuk mengidentifikasi dan normalisasi singkatan frasa dengan lebih baik.

            Pendekatan baru ini berupaya memberikan solusi yang lebih komprehensif untuk normalisasi teks media sosial dalam Bahasa Indonesia dan menghadapi tantangan yang terkait dengan bahasa yang terus berkembang di platform media sosial.