Normalisasi teks media sosial dalam bahasa Indonesia yang sensitif terhadap konteks Indonesia berdasarkan neural word embeddings
Makalah
ini membahas tantangan dalam memproses teks media sosial, terutama dalam bahasa
Indonesia, yang sering kali tidak mengikuti aturan bahasa konvensional. Teks
media sosial sering mengandung penyimpangan tata bahasa dan ejaan, yang
menyulitkan pemodelan bahasa alami (NLP) untuk memprosesnya dengan akurat.
Masalah ini membatasi aplikasi alat NLP yang dilatih untuk bahasa standar.
Untuk
mengatasi masalah ini, penulis mengusulkan metode normalisasi yang mengubah
token dari teks media sosial ke bentuk bahasa standar dengan makna yang sama.
Metode ini menggunakan representasi vektor dari penyisipan kata neural, yang
memperhitungkan konteks kata di sekitar token. Penyisipan kata ini dilatih pada
lebih dari satu juta tweet dari akun-akun Indonesia, mewakili berbagai domain
dan tingkat penyimpangan bahasa.
Kata standar dipilih sebagai pengganti
hanya jika representasi penyisipan menunjukkan kemiripan tinggi dengan token.
Pengganti kemudian dipilih berdasarkan kemiripan ortografis. Percobaan
menunjukkan bahwa model penyisipan yang dilatih dengan Continuous Bag of Words
(CBOW) memberikan hasil lebih baik daripada Skip-Gram, dengan akurasi
normalisasi pesan sebesar 79,56%. Namun, dalam normalisasi token individual,
penting untuk memastikan bahwa token tersebut adalah ejaan salah dan bukan kata
benda diri atau kata dari bahasa lain.
Makalah ini diatur dengan menjelaskan
karya terkait, penyisipan kata neural, arsitektur sistem normalisasi, data, dan
metode penilaian. Kinerja sistem dibahas untuk normalisasi kata dan pesan,
diakhiri dengan kesimpulan dan saran untuk penelitian di masa depan.
Gaya
bahasa yang digunakan di media sosial sering kali menyimpang dari bahasa baku,
dengan variasi seperti kesalahan ejaan, singkatan, emotikon, dan penggantian
karakter yang mempersulit pemrosesan otomatis dan pemahaman pesan. Variasi ini
menyulitkan alat NLP konvensional dan dapat mengganggu pemahaman informasi,
sehingga normalisasi teks menjadi penting. Normalisasi teks mirip dengan
koreksi ejaan, yang umumnya menggunakan ukuran jarak seperti Levenshtein untuk
mengganti token dengan padanan standarnya.
Berbagai metode telah dikembangkan
untuk menangani normalisasi teks. Beberapa metode menggunakan jarak Levenshtein
dan kesamaan fonetik, sedangkan metode lain memanfaatkan daftar kata, pola
string, atau transduser keadaan-hingga. Peneliti juga memanfaatkan
ketergantungan konteks dari makna kata untuk menyesuaikan token dengan kata
standar. Misalnya, Wang et al. Menggunakan kolokasi konteks untuk fitur
berbasis aturan dan statistik dalam pengklasifikasi, sementara Han et al. Membangun
kamus normalisasi dengan mengukur kesamaan konteks melalui ukuran seperti
divergensi Kullback-Leibler dan jarak Jensen-Shannon.
Penelitian ini menunjukkan bahwa
pendekatan yang memanfaatkan konteks dan berbagai ukuran kesamaan dapat
meningkatkan akurasi dalam normalisasi teks media sosial, yang penting untuk
aplikasi yang bergantung pada pencocokan string atau statistik frekuensi
Dalam pemrosesan teks, representasi
kata biasanya menggunakan metode seperti keberadaan kata dalam dokumen, tf-idf,
atau ukuran skalar lainnya. Namun, pendekatan baru yang lebih canggih adalah
representasi terdistribusi yang diperkenalkan oleh Hinton dan koleganya, di
mana setiap kata diwakili oleh vektor kontinu. Pendekatan ini mendapatkan
perhatian luas setelah publikasi Mikolov dan tim yang memperkenalkan teknik
untuk mempelajari vektor kata dari kumpulan data besar dengan miliaran kata dan
kosakata jutaan. Sebelumnya, Collobert dan Weston menunjukkan bahwa
representasi kata terdistribusi dapat meningkatkan aplikasi NLP secara
signifikan.
Model vektor kata ini, dikenal sebagai
penyisipan kata, memungkinkan penangkapan keteraturan linier antara kata-kata,
yang penting untuk sintaksis dan semantik. Penyisipan kata telah menjadi metode
populer dalam representasi kata, mendominasi penelitian di konferensi NLP
utama.
Model utama dalam representasi vektor
kata adalah continuous-bag-of-words (CBOW) dan Skip-gram. Keduanya adalah jenis
model bahasa dengan arsitektur mirip jaringan saraf feedforward tetapi tanpa
lapisan tersembunyi nonlinier, di mana semua kata berbagi lapisan proyeksi.
CBOW memprediksi sebuah kata dari kata-kata sebelumnya tanpa memperhatikan
urutannya, sementara dalam model Skip-gram, kata saat ini digunakan untuk
memprediksi kata-kata konteks di sekelilingnya. Kedua model ini menggunakan
vektor kontinu untuk representasi kata dalam konteks yang berbeda, memungkinkan
analisis semantik dan sintaksis yang lebih mendalam.
Langkah-langkah dalam proses
normalisasi kata dimulai dengan mengubah teks masukan menjadi huruf kecil dan
men-tokenisasi teks tersebut. Setiap token kemudian dinormalisasi berdasarkan
beberapa kondisi. Pertama, jika token sudah dikenali sebagai kata yang dieja
dengan benar atau jika token hanya terdiri dari satu karakter, token tersebut
dikembalikan tanpa perubahan.
Jika token bukan kata yang benar atau
terdiri dari satu karakter, langkah berikutnya adalah memeriksa apakah token
terdapat dalam tabel pencarian token yang kata koreksinya telah diketahui.
Tabel ini berfungsi sebagai memo untuk mempercepat pencarian koreksi
berdasarkan pemetaan token sebelumnya.
Jika token tidak ada dalam tabel
pencarian, model penyisipan kata digunakan untuk menemukan kandidat kata yang
paling mirip secara semantis dengan token tersebut. Kata-kata kandidat ini
harus ada dalam leksikon Bahasa Indonesia untuk memastikan penggantian yang
sesuai. Jika model tidak menghasilkan kandidat, hal ini biasanya terjadi pada
kata benda diri, dan dalam kasus tersebut, token dibiarkan tanpa perubahan.
Jika
model menghasilkan beberapa kandidat, pemilihan kata pengganti yang terbaik
dilakukan dengan mempertimbangkan kesamaan kontekstual yang ditangkap oleh
penyematan kata. Penyematan kata ini, yang dilatih pada tugas pemodelan bahasa,
mampu menangkap kesamaan semantik dan kontekstual antar kata, sehingga
memungkinkan penggantian yang lebih akurat.
Dari 1000 token yang diuji, sistem
berhasil menormalkan 441 token dengan benar dan mengalami kesalahan pada
sisanya. Analisis kesalahan mengungkapkan beberapa masalah utama: Kata Benda
Diri: Banyak kesalahan terjadi pada token yang merupakan kata benda diri yang
tidak ada dalam leksikon. Untuk mengatasi ini, perlu ada mekanisme untuk
membedakan kata benda diri dari kata yang salah eja, seperti menggunakan Named
Entity Recognition (NER) berbasis fitur ortografi atau penyematan tingkat
karakter.
Singkatan: Model kesulitan menangani
singkatan yang merupakan gabungan dari beberapa kata. Misalnya, ‘lalin’ sebagai
singkatan ‘lalu lintas’ dinormalisasi menjadi ‘lalim’, yang tidak sesuai dengan
makna sebenarnya. Pendekatan untuk menangani singkatan mungkin diperlukan.
Kata Asing: Sistem juga gagal menangani token
yang merupakan kata asing, terutama dari bahasa Inggris, seperti ‘one’.
Menambahkan fitur untuk mendeteksi bahasa asing atau memanfaatkan penyematan
tingkat karakter untuk membedakan token dari bahasa lain mungkin membantu.
Namun, ada korelasi kuat antara skor
kesamaan kandidat dengan token dan keberhasilan normalisasi. Token dengan skor
kesamaan tinggi umumnya dinormalisasi dengan benar, dengan akurasi 96% untuk
100 token teratas. Ini menunjukkan bahwa meningkatkan kualitas data dan model
dapat memperbaiki hasil normalisasi dengan lebih baik dalam kasus-kasus yang
bermasalah.
Makalah ini membahas metode
normalisasi teks media sosial dalam Bahasa Indonesia dengan menggunakan neural
word embeddings. Kami memanfaatkan penyematan kata neural untuk memahami
konteks token dan menghasilkan versi formal dari token tersebut, memilih kandidat
normalisasi yang paling mirip secara ortografis. Meskipun ejaan dalam teks
media sosial sering kali tidak teratur, penggunaan word embeddings membantu
memetakan token ke ejaan yang benar dengan mempertimbangkan konteks sekitarnya.
Hasil penelitian menunjukkan bahwa model CBOW lebih efektif daripada Skip-gram
dalam menghasilkan kandidat normalisasi yang akurat, dengan kontribusi
faktor-faktor lain seperti fitur ortografi dan metode pencarian token yang
minimal.
Makalah ini mengeksplorasi metode
normalisasi teks media sosial dalam Bahasa Indonesia dengan menggunakan neural
word embeddings. Sistem kami mengubah teks menjadi huruf kecil, men-tokenisasi,
dan memanfaatkan penyematan kata untuk menemukan bentuk formal dari token,
dengan mempertimbangkan konteks sekitarnya. Skor kesamaan ortografis dari jarak
Levenshtein dan Jaro-Winkler juga digunakan untuk memilih kandidat normalisasi
yang tepat.
Dari 1000 token yang diuji, sistem
berhasil menormalkan 441 token dan mengalami kesalahan pada 559 token.
Kesalahan sering terjadi pada kata benda diri atau kata asing yang seharusnya
tidak dinormalisasi, dan pada singkatan informal yang salah dinormalisasi
menjadi kata tunggal. Pendekatan yang menggabungkan penyematan kata dengan
fitur ortografi menunjukkan hasil yang baik, dengan akurasi tinggi pada
kandidat dengan skor kesamaan tertinggi.
Sistem mencapai akurasi tertinggi 79,56% dalam
normalisasi pesan secara keseluruhan. Menurunkan ambang batas kesamaan kandidat
meningkatkan akurasi, tetapi juga meningkatkan risiko normalisasi yang salah.
Model CBOW menunjukkan kinerja lebih baik daripada Skip-gram, dengan
kemungkinan keunggulan pada data yang lebih besar.
Beberapa
area untuk pengembangan lebih lanjut termasuk:
Pengenalan
Entitas Bernama (NER): Untuk membedakan kata benda diri dari kesalahan ejaan.
Penyematan
Tingkat Karakter: Untuk membedakan antara kata bahasa Indonesia dan kata asing,
serta mengidentifikasi kata benda diri.
Menangani
Singkatan: Mengadaptasi metode untuk mengidentifikasi dan normalisasi singkatan
frasa dengan lebih baik.
Pendekatan baru ini berupaya
memberikan solusi yang lebih komprehensif untuk normalisasi teks media sosial
dalam Bahasa Indonesia dan menghadapi tantangan yang terkait dengan bahasa yang
terus berkembang di platform media sosial.