IN-IDRIS: MODIFICATION OF IDRIS STEMMING ALGORITHM FOR INDONESIAN TEXT

Febiarty Wulan Suci; Nur Hayatin; Yuda Munarko

doi:10.31436/iiumej.v23i1.1783

Authors

Febiarty Wulan Suci https://orcid.org/0000-0003-3205-0304
Nur Hayatin https://orcid.org/0000-0002-5883-031X
Yuda Munarko https://orcid.org/0000-0002-9656-3945

DOI:

https://doi.org/10.31436/iiumej.v23i1.1783

Keywords:

Idris stemming, IN-Idris, NLP, text preprocessing

Abstract

Stemming has an important role in text processing. Stemming of each language is different and strongly affected by the type of text language. Besides that, each language has different rules in the use of words with an affix. A large number of the words used in the Indonesian language are formed by combining root words with affixes and other combining forms. One of the problems in Indonesian stemming is having different types of affixes, and also having some prefixes that changes according to the first letters of the root words. Implementing Idris stemmer for Indonesian text is of interest because Indonesia and Malaysia have the same language root. However, the results do not always produce the actual word, because the Idris algorithm first removes the prefix according to Rule 2. This elimination directly affected the Idris stemmer result when implemented to Indonesian text. In this study, we focus on a modified Idris stemmer (from Malay) to IN-Indris with Indonesia context. In order to test the proposed modification to the original algorithm, Indonesian online novels excerpts are used to measure the performance of IN-Idris.test was conducted to compare the proposed algorithm with other stemmers. From the experiment result, IN-Idris had an accuracy of approximately 82.81%. There was an increased accuracy up to 5.25% when compared to Idris accuracy. Moreover, the proposed stemmer is also running faster than Idris with a gap of speed of around 0.25 seconds.

ABSTRAK: Stemming mempunyai peranan penting dalam pemprosesan teks. Stem setiap bahasa adalah berbeza dan sangat dipengaruhi oleh jenis bahasa teks. Selain itu, setiap bahasa mempunyai peraturan yang berbeza dalam penggunaan kata dengan awalan. Sebilangan besar kata-kata yang digunakan dalam bahasa Indonesia dibentuk dengan menggabungkan kata akar dengan afiks dan bentuk gabungan lain. Salah satu masalah dalam bahasa Indonesia adalah mempunyai pelbagai jenis awalan, dan juga mempunyai beberapa awalan yang berubah sesuai dengan huruf pertama kata dasar. Menerapkan stemder Idris untuk teks Indonesia adalah minat kerana Indonesia dan Malaysia mempunyai akar bahasa yang sama. Namun, hasilnya tidak selalu menghasilkan kata yang sebenarnya, kerana algoritma Idris pertama kali menghapus awalan menurut Peraturan 2. Penghapusan ini secara langsung mempengaruhi hasil batang Idris ketika diterapkan ke teks Indonesia. Dalam kajian ini, kami memfokuskan pada stemmer Idris yang diubahsuai (dari bahasa Melayu) ke IN-Indris dengan konteks Indonesia. Untuk menguji cadangan pengubahsuaian pada algoritma asli, petikan novel dalam talian Indonesia digunakan untuk mengukur prestasi IN-Idris. Ujian dilakukan untuk membandingkan algoritma yang dicadangkan dengan stemmer lain. Dari hasil eksperimen, IN-Idris mempunyai ketepatan sekitar 82,81%, ada peningkatan ketepatan hingga 5,25% dibandingkan dengan ketepatan Idris. Selain itu, stemmer yang dicadangkan juga berjalan lebih cepat daripada Idris dengan jurang kelajuan sekitar 0.25 saat.

Downloads

Download data is not yet available.

Metrics

Metrics Loading ...

References

Vijayarani DS, Ilamathi, MJ., Nithya M. (2015) Preprocessing techniques for text mining - An overview. J. Computer Science & Communication Networks, 5(1): 7-16. DOI: https://doi.org/10.5121/ijcga.2015.5105

Buntoro G, Arifin R, Syaifuddiin G, Selamat A, Krejcar O, Hamido F. (2021) The Implementation of the machine learning algorithm for the sentiment analysis of Indonesia’s 2019 Presidential election. IIUM Engineering Journal, 22(1): 78-92. DOI: https://doi.org/10.31436/iiumej.v22i1.1532

Nassirtoussia AK, Aghabozorgia S, Wah TY, David CLN. (2014) Text mining for market prediction: A systematic review. Expert Systems with Applications, 7653-7670. DOI: https://doi.org/10.1016/j.eswa.2014.06.009

Rizki AS, Tjahyanto A, Trialih R. (2019) Comparison of stemming algorithms on Indonesian text processing. Telkomnika, 17(1): 95-102. DOI: https://doi.org/10.12928/telkomnika.v17i1.10183

Utomo FS, Suryana N, Sanusi Azmi, M. (2020) Stemming Impact analysis on Indonesia Quran translation and their tafsir classification for ontology instances. IIUM Engineering Journal, 21(1): 33-50. DOI: https://doi.org/10.31436/iiumej.v21i1.1170

Permatasari N. (2016) Analisis Perbandingan algoritma Idris dan algoritma enhanced confix stripping (ECS) stemmer pada dokumen teks bahasa Indonesia. Universitas Komputer Indonesia. https://repository.unikom.ac.id/130/

Titin W, Kerami J, Arief S. (2017) Determining Term on text document clustering using algorithm of enhanced confix stripping stemming. International Journal of Computer Applications, 157(9): 8-13. DOI: https://doi.org/10.5120/ijca2017912761

Prasidhatama A, Suryaningrum KM. (2018) Perbandingan algoritma Nazief & Adriani dengan algoritma Idris Untuk pencarian kata dasar. Jurnal Teknologi & Manajemen Informatika, 4(1): 1-4. DOI: https://doi.org/10.26905/jtmi.v4i1.1773

Prihatini PM, Putra ID, Giriantari IAD, & Sudarma M. (2017) Stemming Algorithm for Indonesian Digital News Text Processing. International Journal of Engineering and Emerging Technology, 2(2): 1-7.

Mena VV, Saputri K. (2018) Contrastive analysis between English and Indonesian prefixes and suffixes in the descriptive texts of student’s textbooks. English Community Journal, 2(1): 175-182. DOI: https://doi.org/10.32502/ecj.v2i1.1007

Jelita A. (2007) Effective Techniques for Indonesian Text Retrieval. Melbourne: RMIT University.

Adriani M, Asian J, Nazief B, Tahaghoghi SMM, & Williiams HE. (2007) Stemming Indonesian: A confix-stripping approach. ACM Transactions on Asian Language Information Processing (TALIP), 6(4): 1-33. DOI: https://doi.org/10.1145/1316457.1316459

Widayanto H & Huda AF. (2017) Comparison Nazief Adriani and CS stemmer algorithm for stemm real data. In e-Proceeding of Engineering, 4(3): 5215. Bandung, Indonesia.

Arifin AZ, Mahendra IPAK, & Ciptaningtyas HT. (2009) Enhanced Confix stripping stemmer and ants algorithm for classifying news document in Indonesian language. in International Conference on Information & Communication Technology and Systems. In The International Conference on Information & Communication Technology and Systems, 5:149-158. Surabaya, Indonesia.

Idris N, Mustapha SS. (2001) Stemming For Term Conflation In Malay Texts.

Porter, M. F. (1980). An algorithm for suffix stripping. Program1, 14(3): 130-137. DOI: https://doi.org/10.1108/eb046814

Paramitha ES. (2012) Analisis dan implementasi stemming menggunakan algoritma Idris pada dokumen teks berbahasa indonesia. Telkom University, Indonesia.

Mardiana T, Adji TB, Hidayah I. (2016) Stemming Influence on Similarity Detection of Abstract Written in Indonesia. Telkomnika, 14(1): 219-227. DOI: https://doi.org/10.12928/telkomnika.v14i1.1926

Rifai W, Winarko E. (2019) Modification of Stemming algorithm using a non deterministic approach to Indonesian text. Indonesian Journal of Computing and Cybernetics Systems, 13(4): 379-388. DOI: https://doi.org/10.22146/ijccs.49072

Vega VB. (2001) Information retrieval for the Indonesian language. Master’s thesis, National University of Singapore.

Arifin AZ & Setiono AN. (2002) Klasifikasi dokumen berita kejadian berbahasa Indonesia dengan algoritma single pass clustering. In Prosiding Seminar on Intelligent Technology and its Applications (SITIA). Teknik Elektro, Institut Teknologi Sepuluh Nopember Surabaya.

Asian J, Williams HE, & Tahaghoghi SMM. (2005) Stemming Indonesian. In Proceedings of the Twenty-eighth Australasian conference on Computer Science, 38: 307-314. Australia.

Winarti T, Kerami J, Arief S. (2014) Tokenization and Filtering process in rapidminer. International Journal of Applied Information Systems, 7(2): 16-18. DOI: https://doi.org/10.5120/ijais14-451139

Zaman B. (2014) Modifikasi algoritma Porter untuk stemming pada kata bahasa Indonesia. In Seminar Nasional Teknologi Informasi dan Komunikasi (SENTIKA 2014), 543-550. Surabaya, Indonesia.