1. Case Folding
Case folding merupakan tahapan yang mengubah
semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf ‘a’ sampai dengan
‘z’ yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter
(pembatas)(Triawati, 2009).Contoh
penggunaan case folding adalah sebagai berikut :
2. Tokenizing Tokenizing adalah tahap pemotongan string input berdasarkan pada tiap kata yang menyusunnya.
Contoh :
3. Filtering
Tahap filtering adalah tahap mengambil kata - kata penting dari hasil tokenizing. Proses filtering dapat menggunakan algoritma stoplist (membuang kata yang kurang penting) atau wordlist (menyimpan kata penting). Stoplist / stopword adalah kata-kata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words. Contoh stopword adalah “yang”, “dan”, “di”, “dari” dan lain – lain.
Contoh :
Stemming merupakan suatu proses yang terdapat dalam sistem IR
yang mentransformasi kata-kata yang terdapat dalam suatu dokumen ke kata-kata
akarnya (root word) dengan
menggunakan aturan-aturan tertentu (Agusta,
2009).
Stemming kebanyakan digunakan pada
teks berbahasa inggris dikarenakan teks berbahasa inggris memiliki struktur
imbuhan yang tetap dan mudah untuk diolah sementara stemming untuk proses bahasa Indonesia memiliki struktur imbuhan
yang rumit / kompleks sehingga agak lebih susah untuk diolah.
Contoh :
Tidak ada komentar:
Posting Komentar