Data Mining: 2017

Kamis, 28 September 2017

Text Mining

Salah satu penerapan dari data mining (Knowledge Discovery) adalah Text Mining. Text Mining sering juga disebut dengan Text Data Mining (TDM) atau Knowledge Discovery in Textual Database (KDT). Metode ini digunakan untuk menggali informasi dari data-data dalam bentuk teks seperti buku, makalah, paper, dan lain sebagainya. Secara umum text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan antar dokumen.

1. Case Folding

Case folding merupakan tahapan yang mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf ‘a’ sampai dengan ‘z’ yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter (pembatas)(Triawati, 2009).Contoh penggunaan case folding adalah sebagai berikut :

2. Tokenizing
Tokenizing adalah tahap pemotongan string input berdasarkan pada tiap kata yang menyusunnya.
Contoh :

3. Filtering
Tahap filtering adalah tahap mengambil kata - kata penting dari hasil tokenizing. Proses filtering dapat menggunakan algoritma stoplist (membuang kata yang kurang penting) atau wordlist (menyimpan kata penting). Stoplist / stopword adalah kata-kata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words. Contoh stopword adalah “yang”, “dan”, “di”, “dari” dan lain – lain.
Contoh :

4. Steaming

Stemming merupakan suatu proses yang terdapat dalam sistem IR yang mentransformasi kata-kata yang terdapat dalam suatu dokumen ke kata-kata akarnya (root word) dengan menggunakan aturan-aturan tertentu (Agusta, 2009). Stemming kebanyakan digunakan pada teks berbahasa inggris dikarenakan teks berbahasa inggris memiliki struktur imbuhan yang tetap dan mudah untuk diolah sementara stemming untuk proses bahasa Indonesia memiliki struktur imbuhan yang rumit / kompleks sehingga agak lebih susah untuk diolah.

Contoh :

Rabu, 27 September 2017

Tutorial WEKA Mengolah data NaiveBayes

Dalam pembelajaran mesin, pengklasifikasi Bayes naif adalah keluarga pengelompokan probabilistik sederhana berdasarkan penerapan teorema Bayes dengan asumsi independensi yang kuat (naif) antara fitur. Naif Bayes telah dipelajari secara ekstensif sejak tahun 1950an. Ini diperkenalkan dengan nama yang berbeda ke dalam komunitas pengambilan teks pada awal tahun 1960an, dan tetap menjadi metode dasar (untuk dasar kategorisasi teks yang populer), masalah menilai dokumen sebagai salah satu kategori atau kategori lainnya (seperti spam atau sah, olahraga atau politik, dll) dengan frekuensi kata sebagai fitur. Dengan pra-pengolahan yang tepat, kompetitif dalam domain ini dengan metode yang lebih maju termasuk mesin vektor pendukung. Ini juga menemukan aplikasi dalam diagnosis medis otomatis.
Pengklasifikasi Naive Bayes sangat terukur, membutuhkan sejumlah parameter linier dalam jumlah variabel dalam masalah belajar. Pelatihan dengan kemungkinan maksimum dapat dilakukan dengan mengevaluasi ekspresi bentuk tertutup, yang membutuhkan waktu linier, dan bukan dengan pendekatan iteratif mahal seperti yang digunakan untuk banyak jenis pengklasifikasi lainnya. Dalam literatur statistik dan sains komputer, model Naive Bayes dikenal dengan berbagai nama, termasuk Bayes dan Bayes Bayays yang sederhana. Semua nama ini merujuk pada penggunaan teorema Bayes dalam peraturan keputusan pengklasifikasi, tapi naif Bayes tidak (tentu saja) merupakan metode Bayesian (Sumber : WikiPedia)

Dan dibawah ini akan dijelaskan bagaimana mengolah data menggunakan metode NaiveBayes dengan memakai aplikasi WEKA

1. Buka Aplikasi Weka pilih Explorer

2. Buka File yang ingin di Olah

3. Pilih filenya lalu open

4. Setelah Membuka File Akan Muncul Tampilan Seperti Gambar Dibawah ini

5. pilih Classify Untuk Metode Naive Bayes

6. Pilih Choose, pilih Bayes lalu pilih Naive Bayes

7. Dan Tahap Akhir Silahkan Pilih Start Untuk Memproses Data