Modul Data Warehouse dan Data Mining
Download Modul Data Warehouse dan Data Mining Bab 02 - Block & Trend
Bab 02 - Block & Trend
Abstract
"Menjelaskan Data Warehouse Building
Block& Trend pada Data Warehouse"
Kompetensi
"Mahasiswa mengenal Data
warehouse Building Block dan Trend"
1. Sebuah Pendekatan Praktis
Untuk dapat merumuskan sebuah pendekatan dalam organisasi anda, anda perlu
memeriksa apa yang organisasi anda inginkan. Apakah organisasi anda mencari hasil
jangka panjang atau data mart yang cepat hanya untuk beberapa subjek untuk saat ini?
Apakah organisasi anda menginginkan implementasi yang cepat, konsep yang terbukti?
Atau organisasi anda membutuhkan beberapa pendekatan praktis lainnya?
Walaupun kedua pendekatan pada modul sebelumnya bottom-up dan top-down masingmasing
memiliki keuntungannya sendiri, Pendekatan keduanya dapat dikompromikan
menjadi suatu pendekatan yang praktis. Pengusung pendekatan praktis adalah Ralph
Kimball, seorang penulis dan ahli Data Warehouse.Tahap-tahap dalam pendekatan
praktis ini adalah sebagai berikut :
1. Merencanakan dan mendefiniskan kebutuhkan pada semua level korporat.
2. Membuat arsitektur menyeluruh untuk Data Warehouse yang komplit
3. Konformasi dan standarisasi isi data
4. Mengimplementasikan Data Warehouse sebagai seperangkat supermart, satu kali
pada satu waktu
Pada pendekatan praktis ini, anda harus masuk ke hal paling mendasar dan menentukan
apa yang benar-benar dibutuhkan organisasi anda dalam jangka panjang. Kunci
pendekatan ini adalah pertama kali merencanakan level enterprise. Kemudian
menentukan isi data untuk masing-masing supermart. Supermart harus benar-benar
menggambarkan data mart. Anda buat supermart ini satu kali. Sebelum implementasi,
anda harus memastikan bahwa isi data diantara beberapa supermart dikonformasikan
dengan tipe datanya, panjang karakter, presisi dan semantik. Sebuah Data Warehouse
oleh karenanya juga dikatakan sebagai gabungan (union) dari semua data mart yang telah
dikonformasi. Data Mart tunggal atau individual ditargetkan untuk kelompok bisnis
tertentu dalam skala enterprise, namun kumpulan semua data mart membentuk
keseluruhan yang terintegrasi yang disebut Enterprise Data Warehouse
2. Komponen-komponen Data Warehouse
Ketika membangun sebuah sistem operasional seperti entry pesanan, proses klaim, atau
tabungan, kita memasukkan beberapa komponen untuk membentuk sistem. Komponen
front-end terdiri dari GUI (Graphical User Interface) untuk menghubungkan dengan
pengguna bagi proses input data. Komponen penyimpanan data memasukkan sistem
manajemen database seperti Oracle, informix atau Microsoft SQL Server. Komponen
display adalah tampilan di layar dan laporan bagi pengguna. Interface data dan perangkat
lunak jaringan membentuk komponen jaringan. Bergantung pada kebutuhan informasi
dan framework organisasi kita menyusun komponen-komponen ini dengan seoptimal
mungkin.
Arsitektur adalah susunan komponen yang sesuai. Anda membangun sebuah Data
Warehouse dengan komponen perangkat keras dan perangkat lunak. Untuk memenuhi
kebutuhan organisasi anda, anda menyusun building block ini yang memaksimumkan
keuntungan.
Gambar 2.1. menunjukkan komponen dasar Data Warehouse. Pada gambar komponen
source data ditunjukkan disebelah kiri, kemudian pada bagian Building Block berikutnya
komponen Data Staging. Di tengah, terdapat komponen Data Storage yang mengatur
data Data Warehouse. Komponen ini tidak hanya menyimpan dan mengatur data, tapi
juga menjaga track data dengan menggunakan tempat penyimpanan data. Komponen
Information deliveryditampilkan pada sebelah kanan terdiri dari seluruh cara-cara yang
berbeda untuk menjadikan informasi Data Warehouse tersedia bagi pengguna.
Walaupun anda membangun Data Warehouse bagi perusahaan besar, sebuah grosir utama
dengan rantai penjualan dan toko yang tersedia di banyak negara atau lembaga perbankan
global, komponen dasarnya sama. Masing-masing Data Warehouse diletakkan bersama
dengan building block yang sama. Perbedaan utamanya pada masing-masing organisasi
adalah bagaimana building block ini disusun. Variasinya adalah dimana beberapa blok
dibuat lebih dominan dibandingkan lainnya dalam arsitektur.
2.1. Komponen Data Source
Komponen Data Source dibagi menjadi 4 kategori utama, yakni :
a. Data Produksi (Production Data)
Kategori data ini berasal dari beberapa sistem operasional enterprise. Berdasarkan
kebutuhan informasi dalam Data Warehouse, anda memilih segmen data dari
sistem operasional yang berbeda. Ketika berurusan dengan data ini, anda akan
mendapatkan banyak variasi format data. Hal lain yang perlu diperhatikan adalah
platform perangkat keras yang berbeda.Data juga didukung sistem operasi dan
sistem database yang berbeda.
Pada sistem operasional, kueri informasi bersifat sempit. Anda melakukan kueri
sistem operasional mengenai informasi mengenai instan spesifik dari suatu objek
bisnis. Misalkan anda membutuhkan untuk hanya mengetahui nama dan alamat
pelanggan tunggal, atau melihat sebuah invoice dan tagihan item-item pada
invoice tersebut.
Dalam sistem operasional anda tidak melakukan kueri yang luas. Seluruh kueri
dapat diprediksi, karena tidak membutuhkan kueri yang berjalan pada sistem
operasional yang berbeda. Karakteristik yang pasti dan cukup merepotkan pada
data produksi adalah perbedaan data. Tantangan anda adalah menstandarisasi dan
mentransformasi data yang berbeda dari berjenis sistem produksi, mengkonversi
data, dan mengintegrasikan bagian-bagiannya menjadi data yang berguna bagi
penyimpanan dalam Data Warehouse.
b. Data Internal (Internal Data)
Dalam setiap organisasi, pengguna memiliki lembar kerja yang bersifat “rahasia”
begitu juga dokumen, profil pelanggan dan juga database per departemen. Ini
adalah data internal, bagian yang boleh jadi berguna dalam Data Warehouse.
Jika organisasi melakukan bisnis ke pelanggan yang bersifat satu-ke-satu dan
kontribusi masing-masing pelanggan bersifat berarti. Profil pelanggan individual
menjadi sangat penting untuk dipertimbangkan.
Anda tidak dapat mengabaikan data internal yang disimpan dalam file rahasia
dalam organisasi anda. Departemen IT harus bekerja dengan departemen user
untuk mengumpulkan data internal.
Internal Data menambah komplesitas ke dalam proses transformasi dan integrasi
data sebelum disimpan ke dalam Data Warehouse. Anda harus menentukan
strategi pengumpulan data dari lembar kerja, menemukan cara mengambil data
dari dokumen tekstual dan mengaitkannya menjadi database per departemen
untuk memperoleh data yang berhubungan dari sumber-sumber tersebut.
c. Data Arsip (Archived Data)
Sistem operasional ditujukan untuk menjalankan bisnis saat ini. Dalam setiap
sistem operasional, anda secara periodik mengambil data lama dan
menyimpannya dalam file arsip. Sikon organisasi yang menentukan seberapa
sering dan seberapa banyak data operasional yang diarsipkan untuk disimpan.
Beberapa data diarsipkan setelah satu tahun. Terkadang data ditinggalkan dalam
sistem database operasional selama 5 tahun.
Ada banyak metode pengarsipan yang berbeda yang ada hingga saat ini. Ada
metode pengarsipan bertingkat, pada tingkat pertama data yang paling akhir
diarsipkan ke arsip database yang terpisah yang mungkin masih online. Pada
tingkat kedua,data yang lebih lama diarsipkan kebentuk flat file pada media
penyimpanan berupa disk. Pada tahapan berikutnya data yang paling lama
diarsipkan ke media penyimpanan data atau microfilm.
Organisasi pasti membutuhkan data historis untuk analisis setiap waktu. Untuk
memperoleh informasi historis, dapat dipeoleh dari data set yang diarsipkan.
Tergantung pada kebutuhan Data Warehouse , organisasi harus memasukkan data
historis yang mencukupi. Tipe data ini berguna dalam melihat pattem atau analisis
trend.
d. Data Eksternal (External Data)
Kebanyakan eksektif bergantung pada data dari sumber eksternal untuk
persentase informasi tinggi yang dibutuhkan. Mereka menggunakan statistik
untuk industri yang dihasilkan agen eskternal. Mereka juga menggunakan share
data pesaing. Dan juga indikator keuangan bagi bisnis mereka untuk mengukur
kinerja mereka.
Contoh Data Warehouse rental mobil berisikan data jadwal produksi saat ini dar i
perusahaan automobil ternama. Data Eksternal di dalam Data Warehouse
membantu perusahaan rental mobil merencanakan manajemen armada mereka.
Tujuan yang dilayani sumber data eksternal tidak dapat dipenuhi ketersediaan
data didalam organisasi. Umumnya data yang bersumber dari luar tidak sesuai
dengan format yang ada di organisasi. Karena itu dibutuhkan konversi data
menjadi format internal dan juga tipe datanya. Anda harus melakukan
pengorganisasian transmisi data dari sumber eksternal. Beberapa sumber
menyediakan informasi reguler maupun dengan interval.
2.2. Komponen Data Staging
Setelah mengekstrak data dari beberapa sistem operasional dan sumber eksternal,
kemudian data disiapkan untuk disimpan dalam Data Warehouse. Data yang
diekstrak berasal dari beberapa sumber yang terpisah yang perlu diubah,
dikonversikan dan dibuat siap menjadi sebuah format yang sesuai untuk
pengkuerian dan analisis.
Tiga fungsi utama yang perlu dijalankan untuk menjadi data siap yakni
mengekstrak data, mentransformasi data dan me-load data ke dalam media
penyimpanan Data Warehouse.Tiga fungsi utama ini yakni extraction,
transformation dan persiapan loading data dilakukan dalam staging area (wilayah
yang berbeda-beda). Data Staging areamenyediakan sebuah ruang dan area
dengan seperangkat fungsi untuk membersihkan, merubah, mengkombinasikan,
mengkonversi, menduplikasi dan mempersiapkan source data untuk penyimpanan
dan penggunaan di dalam Data Warehouse.
a. Data Extraction
Fungsi ini berhubungan dengan sejumlah Data Sources. Anda harus
menggunakan teknik yang cocok untuk masing-masing data source. Data Source
bisa jadi berasal dari sumber-sumber mesin yang berbeda-beda dengan format
yang beragam. Beberapa bagian data bisa jadi berasal dari DBMS atau dari data
hierarkis dan data jaringan atau mungkin beberapa flat file, juga mungkin
dimasukkan data dari spreadsheet ataupun data set departemen. Data Extraction
dalam hal ini terbilang cukup kompleks.
Tool-tooltersedia di pasaran untuk proses data extraction.Tim Implementasi Data
Warehouse mengekstraksi Data Source ke dalam lingkungan fisik yang terpisah
proses menjadikan data ke dalam Data Warehouse menjadi lebih mudah. Dalam
sebuah lingkungan yang berbeda, anda perlu mengekstrak source data menjadi
sekelompok file-file flat, atau data staging relational database atau kombinasi
dari keduanya.
b. Data Transformation
Dalam setiap implementasi sistem, konversi data adalah sebuah fungsi penting.
Sebagai contoh ketika ingin mengimplementasikan sistem operasional seperti
aplikasi majalah, pertama yang harus dilakukan adalah pempopulasian database
anda dengan data dari rekod sistem yang terlebih dahulu. Yang boleh jadi
dikonversikan dari sistem manual, atau sistem berorientasi file menjadi sistem
modern dengan dukungan tabel relational database.
Anda juga dapat melakukan sejumlah aktivitas sebagai bagian transformasi data.
Yang pertama, membersihkan data yang diekstraksi dari masing-masing sumber.
Pembersihan disni dapat berupa koreksi kesalahan penulisan atau bisa jadi
memasukkan pemecahan masalah antara kode wilayah dan kode pos dalam source
data atau boleh jadi juga berhubungan dengan penyediaan nilai default untuk
elemen-elemen data yang hilang atau menghilangkan duplikat-duplikat ketika
membawa didalam data yang sama yang berasal dari source system yang berbeda.
Data transformasi melibatkan banyak bentuk kombinasi data dari sumber yang
berbeda-beda. Anda mengkombinasikan data dari sebuah sumber rekod
tunggalatau elemen-elemen data terkait yang berasal dari banyak rekod. Disisi
lain transformasi data juga melibatkan pembersihan source data yang tidak
berguna dan pemisahan rekod sumber luar ke dalam kombinasi baru. Pengurutan
dan penggabungan data terjadi dalamskala luas dalam Data Staging Area.
Sistem operasional rantai grosir POS menjaga jumlah unit penjualan dan
pendapatan yang dilakukan dalam transaksi tunggal pada konter masing-masing
toko. Namun di dalam Data Warehouse tidak dibutuhkan menjaga data pada
tingkat yang detil ini. Anda mungkin meringkas total produk pada masing-masing
toko untuk hari tertentu dan mempertahankan jumlah total unit penjualan serta
pendapatan dalam media penyimpana Data Warehouse. Dalam hal ini maka
fungsi data transformationtermasuk ringkasan yang sesuai.
Setelah fungsi Data Transformation berakhir, anda memiliki sekumpulan data
teritegrasi yang bersih, standard dan ringkas. Maka Data siap untuk di load ke
dalam masing-masing Data Set dalam Data Warehouse.
c. Data Loading
Dua kelompok kegiatan membentuk fungsi Data Loading. Setelah melengkapi
desain dan konstruksi Data Warehouse dan berjalan untuk pertama kalinya, perlu
dilakukan initial loading Data Warehouse ke dalam media penyimpanan Data
Warehouse. Load permulaan memindahkan data bervolume besar menggunakan
jumlah waktu yang substansial. Gambar 2.2. mengilustrasikan tipe-tipe umum
perpindahan data dari staging area menjadi media penyimpanan Data Warehouse.
2.3. Komponen Data Storage
Penyimpanan Data untuk Data Warehouse adalah tempat penyimpanan yang
berbeda. Penyimpanan data untuk sistem operasional hanya berisikan data saat
ini. Penyimpanan data-data ini berisikan struktur yang benar-benar dalam format
nornal untuk pemrosesan yang cepat dan efisien. Sebaliknya, dalam penyimpanan
data Data Warehouse, yang harus dilakukan adalah menjaga data dengan volume
besar untuk analisis. Lebih jauh lagi data di dalam Data Warehouse harus dijaga
dalam struktur yang sesuai untuk analisis dan tidak untuk penerimaan secara cepat
seperangkat informasi yang dibutuhkan. Oleh karenanya, media penyimpanan
untuk Data Warehouse dipisahkan dari media penyimpanan untuk sistem
operasional.
Di dalam database yang mendukung sistem operasional, perbaikan terhadap data
terjadi seiring terjadinya transaksi, ketika analis menggunakan data dalam Data
Warehouse untuk analisis, yang harus diketahuinya adalah data bersifat stabil dan
menggambarkan snapshot pada periode tertentu.
Kebanyakan Data Warehouse juga menggunakan DBMS. Data diekstrak dari
media penyimpanan Data Warehouse dijumlahkan dengan banyak macam cara
dan ringkasan datanya dijaga dalam Multidimensional databases(MDDB).
2.4. Komponen Information Delivery
Siapa pengguna yang membutuhkan informasi dari Data Warehouse? Pengguna
awam membutuhkan Data Warehouse tanpa trainingdan oleh karenanya
membutuhkan laporan dan kueri, pengguna yang secara kebetulan hanya
membutuhkan informasi satu kali tidak secara teratur. Pengguna tipe ini juga
membutuhkan informasi yang dipaketkan. Analis bisnis membutuhkan
kemampuan untuk melakukan analisis kompleks menggunakan informasi dalam
Data Warehouse. Power user ingin dapat bernavigasi dengan Data Warehouse
memperoleh data yang menarik, membentuk kuerinya, menembus data layer dan
membuat kustomisasi laporan serta kueri ad hoc.
Agar dapat menyediakan informasi kepada komunitas pengguna data Warehouse
komponen information delivery memiliki beberapa metode information delivery.
Gambar 2.3. menyajikan beberapa metode information delivery yang berbeda. Ad
hoc report adalah laporan yang berarti bagi pengguna awam dan umum.
Ketentuan kueri yang komplek, analisis multidimensional (MD) dan analisis
statistik untuk memenuhi kebutuhkan analis bisnis dan power user. Informasi
yang memenuhi kebutuhan Executive Information System (EIS) untuk eksekutif
senior dan manajer level atas. Beberapa Data Warehouse juga menyediakan data
untuk aplikasi data-mining. Aplikasi Data-miningadalah knowledge discovery
system dimana algoritma mining membantu anda untuk mengetahui tren dan
pattern dari penggunaan data anda.
2.5. Komponen Metadata
Metadata dalam sebuah Data Warehouse mirip dengan kamus data atau katalog
data dalam sebuah DBMS. Dalam kamus data, informasi seperti struktur data
dijaga, informasi mengenai file dan alamatnya, informasi mengenai indeks dan
lain sebagainya. Kamus data berisikan data tentang data di dalam database.
Komponen Metadata adalah data mengenai data di dalam Data Warehouse.
Metadata di dalam Data Warehouse mirip dengan sebuah sebuah kamus data,
namun lebih dari sekedar kamus data.
2.6. Komponen Kontrol dan Manajemen
Komponen ini berada pada posisi yang paling atas dalam arsitektur Data
Warehouse. Komponen Kontrol dan manajemen mengkoordinasikan aktivitas dan
layanan dalam data Warehouse. Komponen ini mengontrol transformasi data dan
data ditransfer kedalam media penyimpanan Data Warehouse. Disisi lain,
mencukupi untuk information delivery ke pengguna, bekerja dengan DBMS dan
memungkinkan data disimpan secara benar dalam tempat penyimpanannya. Juga
memonitor pergerakan data ke dalam staging area dan dari situ ke dalam media
penyimpana Data Warehouse itu sendiri.
3. Metadata dalam Data Warehouse
Metadata dapat diumpamakan Yellow Pages. Komponen Metadata bertindak sebagai
direktori isi dari Data Warehouse anda. Metadata adalah komponen arsitektur kunci dari Data
Warehouse.
Metadata dalam Data Warehouse dibagi menjadi tiga kategori utama, yakni :
- Metadata Operasional, Source System ini berisikan struktur data yang berbeda. Elemenelemen
data yang berbeda yang terpilih untuk Data Warehouse memiliki panjang field
dan tipe data. Untuk pemilihan data dari source system bagi Data Warehouse anda
membagi rekod, mengkombinasikan bagian rekod dari beberapa file sumber yang
berbeda dan menerapkan skema pengkodean serta panjang field. Metadata operasional
berisikan semua informasi mengenai sumber data operasional.
- Extraction and Transformation Metadata, berisikan data mengenai ekstraksi data dari
sumber data yang dinamakan frekuensi ekstraksi, metode ekstraksi dan aturan bisnis
ekstraksi data. Kategori metadata ini berisikan informasi mengenai semua transformasi
data yang terjadi dalam Data Staging area.
- End User Metadata, adalah peta navigasi Data Warehouse. Yang memungkinkan
pengguna-akhir untuk menemukan informasi dari Data Warehouse. Metadata penggunaakhir
memungkinkan pengguna-akhir menggunakan terminologi bisnisnya sendiri dan
melihat informasi dengan cara dimana mereka secara normal berfikir bisnis.
Metadata sangat penting dalam Data Warehouse, karena :
a. Pertama, ia bertindak sebagai perekat yang menghubungkan semua bagian Data
Warehouse.
b. Kemudian, menyediakan informasi mengenai isi dan struktur pengembang.
c. Akhirnya, membuka pintu bagi pengguna-akhir dan menjadikan isinya dapat dikenali
dengan terminologinya mereka sendiri
Sumber :
Modul Perkuliahan - Data Warehouse dan Data Mining - Program Studi Sistem Informasi - Fakultas Ilmu Komputer - Universitas Mercu Buana