Senin, 18 April 2011

Pengertian Data Mining



Penggalian data (bahasa Inggris: data mining) adalah ekstraksi pola yang menarik dari data dalam jumlah besar. Suatu pola dikatakan menarik apabila pola tersebut tidak sepele, implisit, tidak diketahui sebelumnya, dan berguna. Pola yang disajikan haruslah mudah dipahami, berlaku untuk data yang akan diprediksi dengan derajat kepastian tertentu, berguna, dan baru. Penggalian data memiliki beberapa nama alternatif, meskipun definisi eksaknya berbeda, seperti KDD (knowledge discovery in database), analisis pola, arkeologi data, pemanenan informasi, dan intelegensia bisnis. Penggalian data diperlukan saat data yang tersedia terlalu banyak (misalnya data yang diperoleh dari sistem basis data perusahaan, e-commerce, data saham, dan data bioinformatika), tapi tidak tahu pola apa yang bisa didapatkan.
Proses Pencarian Pola
Penggalian data adalah salah satu bagian dari proses pencarian pola. Berikut ini urutan proses pencarian pola:
1.      Pembersihan Data: yaitu menghapus data pengganggu (noise) dan mengisi data yang hilang.
2.      Integrasi Data: yaitu menggabungkan berbagai sumber data.
3.      Pemilihan Data: yaitu memilih data yang relevan.
4.      Transformasi Data: yaitu mentransformasi data ke dalam format untuk diproses dalam penggalian data.
5.      Penggalian Data: yaitu menerapkan metode cerdas untuk ekstraksi pola.
6.      Evaluasi pola: yaitu mengenali pola-pola yang menarik saja.
7.      Penyajian pola: yaitu memvisualisasi pola ke pengguna.
Perkembangan yang pesat di bidang pengumpulan data dan teknologi penyimpanan di berbagai bidang, menghasilkan basis data yang terlampau besar. Namun, data yang dikumpulkan jarang dilihat lagi, karena terlalu panjang, membosankan, dan tidak menarik. Seringkali, keputusan -yang katanya berdasarkan data- dibuat tidak lagi berdasarkan data, melainkan dari intuisi para pembuat keputusan. Sehingga, lahirlah cabang ilmu penggalian data ini.
Analisis data tanpa menggunakan otomasi dari penggalian data adalah tidak memungkinkan lagi, kalau data terlalu banyak, dimensionalitas data terlalu besar, data terlalu kompleks untuk dianalisis manual (misalnya: data time series, data spatiotemporal, data multimedia, data streams).
Pada dasarnya penggalian data dibedakan menjadi dua fungsionalitas, yaitu deskripsi dan prediksi. Berikut ini beberapa fungsionalitas penggalian data yang sering digunakan:
·         Karakterisasi dan Diskriminasi: yaitu menggeneralisasi, merangkum, dan mengkontraskan karakteristik data.
·         Penggalian pola berulang: yaitu pencarian pola asosiasi (association rule) atau pola intra-transaksi, atau pola pembelian yang terjadi dalam satu kali transaksi.
·         Klasifikasi: yaitu membangun suatu model yang bisa mengklasifikasikan suatu objek berdasar atribut-atributnya. Kelas target sudah tersedia dalam data sebelumnya, sehingga fokusnya adalah bagaimana mempelajari data yang ada agar klasifikator bisa mengklasifikasikan sendiri.
·         Prediksi: yaitu memprediksi nilai yang tidak diketahui atau nilai yang hilang, menggunakan model dari klasifikasi.
·         Penggugusan/Cluster analysis: yaitu mengelompokkan sekumpulan objek data berdasarkan kemiripannya. Kelas target tidak tersedia dalam data sebelumnya, sehingga fokusnya adalah memaksimalkan kemiripan intrakelas dan meminimalkan kemiripan antarkelas.
·         Analisis outlier: yaitu proses pengenalan data yang tidak sesuai dengan perilaku umum dari data lainnya. Contoh: mengenali noise dan pengecualian dalam data.
·         Analisis trend dan evolusi: meliputi analisis regresi, penggalian pola sekuensial, analisis periodisitas, dan analisis berbasis kemiripan.
Berikut ini adalah 9 algoritma penggalian data yang paling populer berdasarkan konferensi ICDM '06, semua algoritma dinominasikan oleh para pemenang ACM KDD Innovation Award dan IEEE ICDM Research Contributions Award:
1.      C4.5 (61 suara)
2.      k-Means (60 suara)
3.      SVM (58 suara)
4.      Apriori (52 suara)
5.      EM (48 suara)
6.      PageRank (46 suara)
7.      AdaBoost (45 suara)
8.      kNN (45 suara)
9.      Naive Bayes (34 suara)

Pengerapan Data Mining dalam bidang Analisa Pasar dan Manajemen

            Untuk analisa pasar, banyak sekali sumber data yang dapat digunakan seperti transaksi kartu kredit, kartu anggota club tertentu, kupon diskon, keluhan pembeli, ditambah dengan studi tentang gaya hidup publik.
            Beberapa solusi yang bisa diselesaikan dengan data mining diantaranya:
1.      Menembak target pasar
Data mining dapat melakukan pengelompokan (clustering) dari model-model pembeli dan melakukan klasifikasi terhadap setiap pembeli sesuai dengan karakteristik yang diinginkan seperti kesukaan yang sama, tingkat penghasilan yang sama, kebiasaan membeli dan karakteristik lainnya.
2.      Melihat pola beli pemakai dari waktu ke waktu
Data mining dapat digunakan untuk melihat pola beli seseorang dari waktu ke waktu. Sebagai contoh, ketika seseorang menikah bisa saja dia kemudian memutuskan pindah dari single account ke joint account (rekening bersama) dan kemudian setelah itu pola beli-nya berbeda dengan ketika dia masih bujangan.
3.      Cross-Market Analysis
Kita dapat memanfaatkan data mining untuk melihat hubungan antara penjualan satu produk dengan produk lainnya. Berikut ini saya sajikan beberapa contoh:
a.       Cari pola penjualan Coca Cola sedemikian rupa sehingga kita dapat mengetahui barang apa sajakah yang harus kita sediakan untuk meningkatkan penjualan Coca Cola?
b.      Cari pola penjualan IndoMie sedemikian rupa sehingga kita dapat mengetahui barang apa saja yang juga dibeli oleh pembeli IndoMie. Dengan demikian kita bisa mengetahui dampak jika kita tidak lagi menjual IndoMie.
c.       Cari pola penjualan
4.      Profil Customer
Data mining dapat membantu Anda untuk melihat profil customer/pembeli/nasabah sehingga kita dapat mengetahui kelompok customer tertentu suka membeli produk apa saja.
5.      Identifikasi Kebutuhan Customer
Anda dapat mengidentifikasi produk-produk apa saja yang terbaik untuk tiap kelompok customer dan menyusun faktor-faktor apa saja yang kira-kira dapat menarik customer baru untuk bergabung/membeli.
6.      Menilai Loyalitas Customer
VISA International Spanyol menggunakan data mining untuk melihat kesuksesan program-program customer loyalty mereka.
7.      Informasi Summary
Anda juga dapat memanfaatkan data mining untuk membuat laporan summary yang bersifat multi-dimensi dan dilengkapi dengan informasi statistik lainnya.