Minggu, 22 September 2019

Modul - Data Warehouse dan Data Mining - Bab 13 - Model Prediktif Data Mining



Modul Data Warehouse dan Data Mining

Download Modul Data Warehouse dan Data Mining Bab 13 - Model Prediktif Data Mining

Bab 13 - Model Prediktif Data Mining

Abstract
Menjelaskan konsep model prediktif dalam data mining

Kompetensi
Mahasiswa mampu menggunakan model prediktif dalam data mining

Teknik Data Mining
Teknik data mining terbagi menjadi tiga, yaitu: Association Rule Mining, Classification,
Clustering dan Regretion.
2.4.1 Association Rule Mining
Menurut Olson dan Shi (2013), Association Rule Mining merupakan teknik data
mining untuk menemukan aturan asosiatif antara suatu kombinasi item atau untuk
menemukan hubungan hal tertentu dalam suatu transaksi data dengan hal lain di dalam
transaksi, yang digunakan untuk memprediksi pola. Sedangkan menurut Han dan Kamber
(2011, p246), Association Rule Mining terdiri dari itemset yang sering muncul.
Association Rule Mining dapat
dianalisa lebih lanjut untuk mengungkap aturan korelasi untuk menyampaikan korelasi
statistik antara itemsets A dan B.
2.4.2 Classification
Menurut Olson dan Shi (2013), Klasifikasi (Classification), metode-metodenya
ditunjukan untuk pembelajaran fungsi-fungsi berbeda yang memetakan masing-masing
data terpilih ke dalam salah satu dari kelompok kelas yang telah ditetapkan sebelumya.
Menurut Han dan Kamber (2011, 327), Classification adalah proses untuk menemukan
model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan
tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui.
dasar pengukuran untuk mengukur kualitas dari penemuan teks, yaitu:
 Precision: tingkat ketepatan hasil klasifikasi terhadap suatu kejadian.
 Recall: tingkat keberhasilan mengenali suatu kejadian dari seluruh kejadian yang
seharusnya dikenali.
 F-Measure adalah nilai yang didapatkan dari pengukuran precision dan recall antara
class hasil cluster dengan class sebenarnya yang terdapat pada data masukan.
Precision dan recall bisa didapatkan dengan rumus sebagai berikut :
Rumus untuk menghitung nilai F-Measure:
Gambar 2.8: Rumus F-Measure
Sumber: (Wicaksana & Widiartha, 2012)
Keterangan nya adalah ni adalah jumlah data dari kelas i yang diharapkan sebagai
hasil query, nj adalah jumlah data dari cluster j yang dihasilkan oleh query, dan nij adalah
jumlah elemen dari kelas i yang masuk di cluster j. Untuk mendapatkan pembobotan
yang seimbang antara precision dan recall, digunakan nilai b = 1. Untuk mendapatkan
nilai F-Measure dari dataset dengan jumlah data n, maka rumus yang digunakan adalah
sebagai berikut :
Gambar 2.9: Rumus F-Measure Dataset
Sumber: (Wicaksana & Widiartha, 2012)
Salah satu pengukur kinerja klasifikasi adalah tingkat akurasi. Sebuah sistem
dalam melakukan klasifikasi diharapkan dapat mengklasifikasi semua set data dengan
benar, tetapi tidak dipungkiri bahwa kinerja suatu sistem tidak bisa 100% akurat.
(Prasetyo, 2012).
Untuk menghitung akurasi digunakan formula :
2.4.3 Clustering
Menurut Han dan Kamber (2011), Clustering adalah proses pengelompokkan
kumpulan data menjadi beberapa kelompok sehingga objek di dalam satu kelompok
memiliki banyak kesamaan dan memiliki banyak perbedaan dengan objek dikelompok
lain. Perbedaan dan persamaannya biasanya berdasarkan nilai atribut dari objek tersebut
dan dapat juga berupa perhitungan jarak. Clustering sendiri juga disebut Unsupervised
Classification, karena clustering lebih bersifat untuk dipelajari dan diperhatikan. Cluster
analysis merupakan proses partisi satu set objek data ke dalam himpunan bagian. Setiap
himpunan bagian adalah cluster, sehingga objek yang di dalam cluster mirip satu sama
dengan yang lainnya, dan mempunyai perbedaan dengan objek dari cluster yang lain.
Partisi tidak dilakukan dengan manual tetapi dengan algoritma clustering. Oleh karena
itu, Clustering sangat berguna dan bisa menemukan group yang tidak dikenal dalam data.
Teknik clustering umumnya berguna untuk merepresentasikan data secara visual,
karena data dikelompokkan berdasarkan kriteria-kriteria umum. Dari representasi target
tersebut, dapat dilihat adanya kecenderungan lebih tingginya jumlah lubang pada bagianbagian
atau kelompok-kelompok teretentu dari target tersebut.
2.4.4 Regresi
Menurut Han dan Kamber (2011, p245), Regresi merupakan fungsi pembelajaran
yang memetakan sebuh unsur data ke sebuah variabel prediksi bernilai nyata.
2.5 Metode Data Mining
Menurut Han dan Kamber (2011, p327), metode data mining terdiri dari:
2.5.1 Naïve Bayes
Naïve Bayes merupakan pengklasifikasian dengan metode probabilitas dan
statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes. Menurut Olson dan
Delen (2008, p102) menjelaskan Naïve bayes untuk setiap kelas keputusan, menghitung
probabilitas dengan syarat bahwa kelas keputusan adalah benar, mengingat vektor
informasi obyek. Algoritma ini mengasumsikan bahwa atribut obyek adalah independen.
Probabilitas yang terlibat dalam memproduksi perkiraan akhir dihitung sebagai jumlah
frekuensi dari "master" tabel keputusan. Sedangkan menurut Han dan Kamber (2011,
p351) Proses dari The Naïve Bayesian classifier, atau Simple Bayesian Classifier, sebagai
berikut:
1. Variable D menjadi pelatihan set tuple dan label yang terkait dengan kelas.
Seperti biasa, setiap tuple diwakili oleh vektor atribut n-dimensi, X = (x1, x2, ...,
xn), ini menggambarkan pengukuran n dibuat pada tuple dari atribut n, masingmasing,
A1, A2, ..., An.
2. Misalkan ada kelas m, C1, C2, ..., Cm. Diberi sebuah tuple, X, classifier akan
memprediksi X yang masuk kelompok memiliki probabilitas posterior tertinggi,
kondisi-disebutkan pada X. Artinya, classifier naive bayesian memprediksi bahwa
X tuple milik kelas Ci jika dan hanya jika :
Gambar 2.11 Rumus Classifier Naïve Bayesian (1)
Sumber: Han dan Kamber (2011, p351)
Jadi memaksimalkan P (Ci | X). Ci kelas yang P (Ci | X) dimaksimalkan disebut
hipotesis posteriori maksimal. Dengan teorema Bayes:
Gambar 2.12: Rumus Classifier Naïve Bayesian (2)
Sumber: Han dan Kamber (2011, p351)
Keterangan :
P(Ci|X) = Probabilitas hipotesis Ci jika diberikan fakta atau record X (Posterior
probability)
P(X|Ci) = mencari nilai parameter yang memberi kemungkinan yang paling besar
(likelihood)
P(Ci) = Prior probability dari X (Prior probability)
P(X) = Jumlah probability tuple yg muncul
1. Ketika P (X) adalah konstan untuk semua kelas, hanya P (X | Ci) P (Ci) butuh
dimaksimalkan. Jika probabilitas kelas sebelumnya tidak diketahui, maka
umumnya diasumsikan ke dalam kelas yang sama, yaitu, P (C1) = P (C2) = · ·
· = P (Cm), maka dari itu akan memaksimalkan P (X | Ci). Jika tidak, maka
akan memaksimalkan P (X | Ci) P (Ci). Perhatikan bahwa probabilitas
sebelum kelas dapat diperkirakan oleh P (Ci) = | Ci, D | / | D |, dimana | Ci, D |
adalah jumlah tuple pelatihan kelas Ci di D.
2. Mengingat dataset mempunyai banyak atribut, maka akan sangat sulit dalam
mengkomputasi untuk menghitung P(X|Ci). Agar dapat mengurangi
perhitungan dalam mengevaluasi P(X|Ci), asumsi naïve independensi kelas
bersyarat dibuat. Dianggap bahwa nilai-nilai dari atribut adalah kondisional
independen satu sama lain, diberikan kelas label dari tuple (yaitu bahwa tidak
ada hubungan ketergantungan diantara atribut ) dengan demikian :
Gambar 2.13 : Rumus Classifier Naïve Bayesian (3)
Sumber: Han dan Kamber (2011, p351)
Maka dapat dengan mudah memperkirakan probabilitas P (x1 | Ci), P (x2 |
Ci),. . . , P (xn | Ci) dari pelatihan tuple. Ingat bahwa di sini xk mengacu
pada nilai atribut Ak untuk tuple X. Untuk setiap atribut, dilihat dari
apakah atribut tersebut kategorikal atau continuous-valued . Misalnya,
untuk menghitung P (X | Ci) mempertimbangkan hal-hal berikut:
a. Jika Ak adalah kategorikal, maka P (Xk | Ci) adalah jumlah tuple kelas
Ci di D memiliki nilai Xk untuk atribut Ak, dibagi dengan | Ci, D |,
jumlah tuple kelas Ci di D.
b. Jika Ak continuous-valued , maka perlu melakukan sedikit lebih
banyak pekerjaan, tapi perhitunganya cukup sederhana. Sebuah atribut
continuous-valued biasanya diasumsikan memiliki distribusi Gaussian
dengan rata-rata μ dan standar deviasi σ, didefinisikan oleh:
Gambar 2.14 : Rumus Classifier Naïve Bayesian (4)
Sumber: Han dan Kamber (2011, p351)
sehingga :
Gambar 2.15 : Rumus Classifier Naïve Bayesian (5)
Sumber: Han dan Kamber (2011, p351)
Setelah itu hitung μCi dan σCi, yang merupakan deviasi mean (ratarata)
dan standar masing-masing nilai atribut k untuk tuple pelatihan kelas
Ci. Setelah itu gunakan kedua kuantitas dalam Persamaan, bersama-sama
dengan xk, untuk memperkirakan P (xk | Ci).
3. Untuk memprediksi label kelas x, P(X|Ci)P(Ci) dievaluasi untuk setiap kelas
Ci. Classifier memprediksi kelas label dari tuple x adalah kelas Ci, jika
Gambar 2.16 : Rumus Classifier Naïve Bayesian (6)
Sumber: Han dan Kamber (2011, p351)
Dengan kata lain, label kelas diprediksi adalah Ci yang mana P (X | Ci) P
(Ci) adalah maksimal.
Pengklasifikasi Bayesian memiliki tingkat kesalahan minimal
dibandingkan dengan klasifikasi lainnya. Namun, dalam prakteknya hal ini
tidak selalu terjadi, karena ketidakakuratan asumsi yang dibuat untuk
penggunaannya, seperti kondisi kelas independen, dan kurangnya data
probabilitas yang tersedia. Pengklasifikasi Bayesian juga berguna dalam
memberikan pembenaran teoritis untuk pengklasifikasi lain yang tidak
secara eksplisit menggunakan teorema Bayes.
2.5.2 Decision Tree
Menurut Han dan Kamber (2011, p332), Decision Tree adalah top-down
pohon rekursif dari algoritma induksi, yang menggunakan ukuran seleksi atribut
untuk memilih atribut yang diuji. Algoritma decision tree mencoba untuk
meningkatkan akurasi dengan menghapus cabang-cabang pohon yang
mencerminkan noise dalam data. Decision tree merupakan salah satu teknik yang
dapat digunakan untuk melakukan klasifikasi terhadap sekumpulan objek atau
record. Teknik ini terdiri dari kumpulan decision node, dihubungkan oleh cabang,
bergerak ke bawah dari root node sampai berakhir di leaf node (Yusuf, 2009).
Decision Tree adalah sistem pendukung keputusan yang berupa pohon grafik
keputusan. Decision Tree digunakan untuk belajar classification function yang
menyimpulkan nilai atribut dependen (variabel). (Girja, Bhargava & Mathuria,
2013)
 Entropy
Entropy "digunakan dalam proses ini. Entropy adalah ukuran dari
gangguan (disorder) data. Entropy diukur dalam bit. Ini juga disebut
pengukuran ketidakpastian dalam setiap variabel acak. (Girja, Bhargava &
Mathuria, 2013)
Gambar 2.17 : Rumus Entropy
Sumber: (Girja, Bhargava & Mathuria, 2013)
 Information Gain
Informasi Gain adalah untuk mengukur input dan output diantara
asosiasi. (Girja, Bhargava & Mathuria, 2013)
Gambar 2.18 : Rumus Information Gain
Sumber: (Girja, Bhargava & Mathuria, 2013)
 Confusion Matrix
Confusion Matrix berisi informasi aktual dan klasifikasi prediksi
dilakukan dengan sistem klasifikasi. Kinerja sistem nya menggunakan data
dalam matriks. (Girja, Bhargava & Mathuria, 2013)
 Confidence
Confidence adalah ukuran yang menilai tingkat kepastian asosiasi
terdeteksi, ini diambil sebagai probabilitas bersyarat P (Y | X), yaitu
probabilitas bahwa transaksi yang mengandung X juga Berisi Y (Han dan
Kamber,2011,p21).
 Support
Support adalah ukuran yang mewakili persentase transaksi dari
database transaksi yang diberikan aturan yang memuaskan, ini diambil
untuk menjadi P probabilitas (XUY), di mana XUY menunjukkan bahwa
transaksi berisi baik X dan Y, yaitu sekumpulan itemset X dan Y. (Han dan
Kamber,2011,p21)
2.5.3 K-Means
Menurut Aryan (2010) K-Means merupakan algoritma yang umum
digunakan untuk clustering dokumen. Prinsip utama K-Means adalah menyusun k
prototype atau pusat massa (centroid) dari sekumpulan data berdimensi n.
Sebelum diterapkan proses algoritma K-means, dokumen akan di preprocessing
terlebih dahulu. Kemudian dokumen direpresentasikan sebagai vektor yang
memiliki term dengan nilai tertentu. Sedangkan menurut Chen yu (2010), KMeans
merupakan algoritma untuk cluster n objek berdasarkan atribut menjadi k
partisi, dimana k < n.
Dari teori-teori yang dijabarkan oleh para ahli diatas, bahwa K-means
merupakan salah satu metode data clustering non hirarki untuk clustering
dokumen yang berusaha mempartisi data yang ada ke dalam bentuk satu atau
lebih cluster/kelompok berdasarkan atribut menjadi k partisi, dimana k < n.
 Algoritma K-means
Menurut Widyawati, (2010), Algoritma k-means merupakan algoritma
yang membutuhkan parameter input sebanyak k dan membagi sekumpulan n
objek kedalam k cluster sehingga tingkat kemiripan antar anggota dalam satu
cluster tinggi sedangkan tingkat kemiripan dengan anggota pada cluster lain
sangat rendah. Kemiripan anggota terhadap cluster diukur dengan kedekatan
objek terhadap nilai mean pada cluster atau dapat disebut sebagai centroid
cluster atau pusat massa.
Menurut Kantardzic (2009), teknik data mining yang paling umum,
antara lain:
 Metode statistika klasik yaitu linier, quadratic dan logistic discriminate
analyses.
 Teknik statistika modern yaitu projection pursuit classification, density
estimation, k-nearest neighbor, Bayesian networks.
 Artificial Neural Network (ANN), yaitu model matematis yang meniru
atau mensimulasikan struktur dan aspek fungsi dari jaringan saraf biologis.
 Support Vector Machine (SVM), yaitu rangkaian metode supervised
learning yang digunakan untuk klasifikasi dan regresi.
 Decision Trees (DT), yaitu tool pendukung suatu keputusan yang
menggunakan grafik seperti pohon atau model keputusan yang terdiri dari
konsekuensi-konsekuensi.
 Association Rules (AR), yaitu suatu metode riset untuk menemukan
hubungan yang menarik antar variabel dalam suatu database yang besar.
 Case Based Reasoning (CBS), yaitu proses untuk memecahkan suatu
masalah baru berdasarkan solusi dari masalah-masalah masa lalu yang
mirip.
 Fuzzy Logic System (FLS), yaitu sebuah bentuk dari logika nilai ganda
yang terkait dengan kesimpulan dari suatu alasan (reasoning) secara
pendekatan. Logika fuzzy mempunyai nilai kebenaran diantara 0 dan 1.
 Genetic Algorithms (GA), yaitu algoritma pencarian heuristic yang
meniru proses evolusi alam (genetika), untuk mendapatkan solusi yang
optimum.
Semakin meningkatnya kompleksitas dari sistem, maka beberapa teknik data
mining digunakan secara bersama-sama dalam suatu penelitian. Menurut Paton &
Amazouz (2009), beberapa peneliti menggunakan gabungan teknik data mining untuk
mendapatkan kelebihan dari masing-masing teknik diantaranya :
 Hall Barbosa et al (2009) menggunakan Bayesian Neural Network untuk
memprediksi kualitas dari produk destilasi untuk REPAR refinery di Brazil.
 Zhou (2009) mengembangkan model NN untuk memonitor proses, deteksi kegagalan
(fault) dan skema klasifikasi pada batch reaktor polimerisasi dalam proses produksi
polymethylmethacrylate. Feedforward NN digunakan untuk memodelkan proses dan
radial basis function (RBF) NN digunakan untuk klasifikasi. Zhou menggunakan
regresi polynomial untuk mereduksi dimensi dari model NN.
 Zamprogna et al (2010) mengembangkan model berdasarkan PCA dan Partial Least
Squares (PLS) untuk memonitor proses dan untuk mendeteksi ubnormality
pada proses penuangan logam (steel casting). PCA/PLS digunakan untuk
mengidentifikasi korelasi data dalam kondisi normal. Model memberikan pemahaman
yang mendalam mengenai interaksi antar parameter proses sehingga dapat digunakan
untuk mendeteksi kegagalan (ubnormality) di dalam proses.
 Ahvenlamp et al (2010) menggunakan kombinasi NN dan fuzzy logic untuk
memprediksi nomor Kappa dan untuk memonitor perubahan di dalam variabel
proses, untuk mendeteksi kegagalan dan untuk maksud klasifikasi. Dilaporkan bahwa
kombinasi ini mempunyai performa prediksi yang baik dan dapat mendeteksi perilaku
abnormal bahkan ketika deviasinya kecil.

Sumber :
Modul Perkuliahan - Data Warehouse dan Data Mining - Program Studi Sistem Informasi - Fakultas Ilmu Komputer - Universitas Mercu Buana