Minggu, 22 September 2019

Modul - Data Warehouse dan Data Mining - Bab 05 - Data Dimsensional & Tabel Fact



Modul Data Warehouse dan Data Mining

Download Modul Data Warehouse dan Data Mining Bab 05 - Data Dimsensional & Tabel Fact

Bab 05 - Data Dimsensional & Tabel Fact

Abstract
Menjelaskan Data Dimsensional dan Tabel Fact

Kompetensi
Mahasiswa mampu Memahami Jenis Data Dimensional dan Tabel Dimensional serta memahami pengertian Fact dan Tabel Fact pada Dimensional Modeling

7. Dimensional Modeling
Istilah atau nama Dimensional Modeling berasal dari dimensi bisnis yang kita perlu tuangkan
ke dalam model data logical. Pemodelan ini adalah teknik desain untuk menstrukturkan
dimensi bisnis dan matrik yang dianalisis bersama dengan dimensi-dimensi . Model juga
memberikan kinerja tinggi untuk analisis dan kueri.
Bisnis bagi manajer adalah terminologi dimensi bisnis. Contoh seorang pimpinan marketing
tertarik mengetahui jumlah pendapat bulanan, di dalam sebuah divisi, berdasarkan demografi
pelanggan yang dilakukan sales untuk jenis produk tertentu di masa yang sudah terjadi.
Dalam hal ini dimensi bisnis adalah bulan, divisi, demografi, sales, dan jenis produk.
Pendapatan adalah fact yang ingin diketahui pimpinan marketing.
Dimensional Modeling adalah teknik pemodelan favorit dalam Data Warehouse. Di dalam
Dimensional Modeling, sebuah model tabel dan relasi digunakan untuk tujuan pengoptimalan
kinerja kueri pengambilan keputusan dalam database relasional, relatif terhadap pengukuran
atau seperangkat pengukuran proses bisnis yang akan dimodel. Sebaliknya model E-R
konvensional digunakan untuk (1) menghilangkan pengulangan (redundan) dalam model
data, (2) memfasilitasi perolehan rekod individual yang memiliki sejumlah identifier tertentu
dan (3) mengoptimalkan kinerja OLTP.
Pada sebuah toko ritel, pengukuran yang penting atau fact adalah unit penjualan. Dimensi
bisnis bisa jadi waktu, promosi, produk atau toko. Untuk suatu perusahaan asuransi,
pengukurannya atau fact adalah klaim dan dimensi bisnisnya agen, kebijakan, pihak yang
diasuransikan,status dan waktu.
Praktisi Dimensional Modeling menggunakan pendekatan model data logik dengan
pemilihan proses bisnis yang akan dimodel dan kemudian memutuskan masing-masing rekod
dalam “fact table”. Fact table adalah fokus analisis dimensional, adalah tabel dengan kueri
berdimensi untuk memberikan seperangkat solusi. Kriteria untuk segmentasi ada di dalam
satu atau lebih “tabel dimensi” dimana primary key tunggalnya menjadi foreign keyfact table
yang berelasi dalam desain dimensional model.
Contoh dibawah ini menunjukkan bahwa dimensi bisnis dan relevansinya terhadap industri
serta subjek untuk analisa. Begitu juga dimensi waktu bersifat penting untuk semua industri –
yang hampir semua analisis bisnis jalankan di setiap waktu.
8. TABEL DIMENSIONAL
Ketika suatu dimensi bisnis diabstraksikan dan direpresentasikan dalam sebuah tabel
database, ia dikenal dengan tabel dimensional. Sebuah dimensi dapat dipandang sebuah
sebuah entitas. Sebuah tabel dimensional menyediakan deskripsi tekstual dari sebuah dimensi
bisnis melalui atribut-atributnya.
Tabel dimensional cenderung secara relatif dangkal dalam hal jumlah baris-barisnya, namun
dilengkapi banyak kolom-kolom. Sebuah tabel dimensional memiliki sebuah primary key
tunggal dan telah didenormalisasi.
Atribut tabel Dimensional memainkan sebuah peran vital dalam pemrosesan kueri dan
pelabelan laporan. Kekuatan sebuah Data Warehouse secara langsung proporsional
berhubungan dengan kualitas dan kedalaman atribut-atribut dimensinya.
9. FACTS
Factadalah pengukuran yang diperoleh dari kejadian yang ada dipasaran, merupakan sumber
pengetahuan dan observasi.Seorang pelanggan membeli sebuah produk pada suatu lokasi
tertentu pada waktu tertentu. Persilangan dari keempat dimensi yang terjadi ini menciptakan
sebuah penjualan. Penjualan dapat dideskripsikan sejumlah uang yang diterima, jumlah item
terjual, berat produk yang dikirimkan dan lain-lain. Fact digunakan untuk
merepresentasikankan sebuah ukuran bisnis.
Dalam sebuah Data Warehouse, fact didefinisikan sebuah persilangan dari dimensi-dimensi
yang menggunakan entitas-entitas dasar transaksi bisnis. Untuk menunjukkan persilangan
lebih dari tiga dimensi dalam sebuah diagram bukan perkara mudah, namun fact dalam
sebuah Data Warehouse boleh jadi berasal dari banyak dimensi.
10. TABEL FACT
Sebuah tabel adalah tabel primer di dalam model dimensional dimana pengukuran kinerja
secara numerik dari bisnis disimpan. Ada banyak pengukuran kinerja atau fact dalam sebuah
tabel fact. Sebuah baris dalam sebuah tabel fact berhubungan dengan pengukuran. Fact yang
paling berguna dalam sebuah tabel fact adalah numerik dan tambahan.
Semua tabel-tabel fact memiliki dua atau lebih foreign key yang berhubungan dengan
primary key tabel dimensi. Ketika semua key di dalam tabel fact cocok dan berpasangan
dengan primary key-nya secara benar dengan tabel dimensi maka dapat dikatakan tabel
tersebut memenuhi referential integrity. Tabel fact diakses melalui tabel dimensi yang diikut
sertakannya.
Tabel fact sendiri secara umum memiliki primary key yang disusun seperangkat foreign key.
Key ini dikenal dengan sebuah key composite atau concatenated(berentetan) . Setiap tabel
factdalam sebuah model dimensional memiliki sebuah key composite, dan sebaliknya setiap
tabel yang memiliki sebuah key composite adalah sebuah tabel fact.
Cara lain untuk mengungkap hal ini adalah di dalam sebuah dimensional model, setiap tabel
yang mengekspresikan relasi banyak-ke-banyak sudah pasti sebuah tabel fact. Semua tabel
lainnya adalah tabel-tabel dimensi.
11. Star Schema
Suatu model yang menggabungkan dimensi dan fact bersamaan dikenal dengan dimensional
model. Di dalam model ini, tabel fact terdiri dari pengukuran numerik yang disertakan ke
seperangkat tabel dimensi yang dipenuhi atribut deksriptif.
Di dalam model ini, Tabel fact berada di tengah dan tabel dimensi bergelantungan disekitarnya
seperti sebuah bintang. Struktur dengan karakteristik demikian seringkali dikenal dengan star
schema. Saat id pelanggan, id produk dan periode waktu digunakan untuk menentukan barisbaris
manakah yang dipilih dari tabel fact, cara pengumpulan data demikian dikenal dengan
istilah star schema join.
Dimensional model sederhana dan simetris, datanya lebih mudah difahami dan dinavigasikan.
Setiap dimensi ekuivalen; semua dimensi memiliki entri poin yang sama secara simetris ke
dalam tabel fact. Kesederhanaan juga menguntungkan kinerja, sedikit join penting bagi
pemrosesan kueri. Sebuah mesin database mampu menciptakan asumsi yang kuat mengenai tabel
dimensi dengan indeksnya.
Dengan dimensional model juga dapat ditambahkan secara lengkap dimenasi baru ke skema
bersamaan dengan nilai tunggal dimensi tersebut didefinisikan untuk masing-masing baris fact
yang ada.
Cara lain memahami memahami kesederhaaan star schema adalah dengan melihat bagaimana
dimensi dan fact berkontribusi terhadap laporan. Atribut tabel dimensi menawarkan pelabelan
laporan, sebagaimana tabel fact menawarkan nilai numerik laporan.
13. Data Cube
Pendekatan lain untuk
melihat model data
multi-dimensional adalah
melalui sebuah data
cube. Hal ini memungkinkan data dimodel dan dilihat dalam banyak dimensi, konsep ini juga
dikembangkan berdasarkan fact dan dimensi.
Data Cube dapat didefinisikan sebagai persilangan dimensi-dimensi yang menyediakan
beberapa fact yang menarik bagi bisnis. Cube cocok bagi pemrosesan OLAP(pemotongan
dan pembagian sebuah dimensi bisnis),dapat dikomparasikan dengan star schema yang
cocok untuk pemrosesan kueri.
Data Cubedapat diterjemahkan menjadi star schema. Bagaimanapun, agregasi data level
tinggi secara efisien disimpan sebagai cube; yang telah dikalkulasikan. Cube klasik adalah
pelanggan berdasarkan produk berdasarkan waktu (atau tempaty), dan merupakan sebuah
cube 3-dimensi (3-D).
Walaupun dalam pandangan kita kubus memiliki struktur geometris 3-D, dalam Data Warehouse
data cube dapat berupa n-dimensional. Untuk memperoleh pemahaman yang lebih baik
mengenai data cube, kita dapat memulai dengan memahami contoh sebuah data cube 2-D seperti
tabel atau spreadsheet untuk data penjualan per kuarter(dimensi waktu) pada item-item tertentu
(dimensi produk) untuk sebuah lokasi tertentu. Ukuran Fact adalah nilai uang dalam ribuah dolar
yang terjual., perhatikan gambar dibawah ini untuk lebih memahaminya

Gambar diatas adlah bentuk 2-D data penjualan untuk seluruh elektronik berdasarkan dimensi
waktu dan item, dimana penjualan berasal dari cabang yang berada di kota “vancouver”.
Untuk melihat data penjualan dalam bentuk tiga dimensi(lokasi), kita dapat menambahkan data
penjualan 2-D untuk lokasi lainnya. Secara konseptual kita dapat melihat data ini dalam bentuk
data cube 3-D seperti gambar dibawah ini :

Gambar diatas adalah tampilan 3-D data penjualan seluruh elektronik berdasarkan dimensi
waktu, item dan lokasi. Satuan mata uang uang digunakan tetap dalam tibuan dolar.
Gambar diatas adalah representasi data cube dari data dalam tabel, menurut dimensi waktu, item
dan lokasi. Andaikan kita ingin melihat data penjualan dengan bentuk empat dimensi, seperti
suplier. Tampilan 4-D untuk dilihat pasti rumit, namun bagaimanapun, kita dapat
membayangkan kubus 4-D sebagai rangkaian kubus 3-D, sebagai digambarkan dibawah ini. Jika
kita menggunakan cara dibawah ini, maka kita dapat menampilkan data sebanyak n-D dalam
sebuah rangkaian kubus (n-1) D.
Data Cuba adalah sebuah konsep untuk penyimpana data multidimensional, penyimpnana fisik
actual dari data demikian boleh jadi berbeda dengan representasi logiknya.
Dalam literatur Data Warehouse, kubus 1-D, 2-D,3-D dst dikenal dengan sebutan cuboid.
Dengan seperangkat dimensi-dimensi, kita dapat membuat seperangkat cuboid, masing-masing
menunjukkan data pada level ringkasan data yang berbeda. Cuboid yang menangani level
ringkasan terenda dikenal dengan base cuboid . sebagai contoh, cuboid 4-D dibawah ini adalah
cuboid dasar untuk dimensi waktu, item, lokasi dan suplier tertentu. Puncak cuboid ditunjukkan
oleh semua.
14. Hierarki dalam Dimensi
Dalam sebuah Data Warehouse atau Data Mart, Pengukuran disimpan dalam tabel fact dengan
tingkat ketelitian sedemikian rupa sehingga pengguna dapat melacak ringkasan berdasarkan
levelnya. Hal ini dikenal dengan agregasi. Sebagai contoh, jika data penjualan dalam sebuah toko
grosirdijaga dalam level sebuah pelanggan tunggal yang membeli item tertentu pada hari tertentu
dalam toko tertentu, sehingga kita dapat meringkas atau menjumlahkan data untuk hari, minggu,
bulan, kuartal dan tahun tertentu; dan semua hal ini adalah untuk sebuah toko, zona, wilayah dan
negara sebagaimana beradasarkan produk, kelompok produk, departemen dan seterusnya.
Hanya data penjualan pada level terendah yang dijaga dalam tabel fact, namun deskripsi dari
berbagai level data di jaga dalam tabel dimensi,sehingga tool yang sesuai dapat digunakan untuk
meringkas data dalam level yang bervariasi.
Sebuah hierarki mendefinisikan sebuah urutan pemetaan dari seperangkat konsep low-level
hingga level yang lebih tinggi, konsep level yang lebih umum. Bayangkan sebuah hierarki
dimensi Lokasi. Jika Kota adalah level terendah dari hierarki , maka semua kota dapat dipetakan
ke level yang lebih tinggi lagi, yakni provinsi, dan semua provinsi dapat dipetakan ke level yang
lebih tinggi lagi yakni negara. Dst.
Level dimensional membentuk struktur seperti sebuah pohon dan anggota level terendah dari
hieararki dikenal dengan leaf. Hanya ada satu anggota pada level paling atas. Sebuah dimensi
tidak dapat eksis tanpa anggota leafnya, namun hal yang mungkin untuk memiliki sebuah
dimensi tanpa anggota leaf – yakni yang hanya memiliki sebuah level.
15. Pengimplementasian Hierarki Dimensional
Hierarki dimensional disimpan sebagai atribut dalam tabel dimensi, dan seluruh hierarki terkait
disimpan dalam sebuah tabel dimensi tunggal. Deskripsi untuk masing-masing level hierarki
dijaga dalam metadata multidimensional. Sebagai contoh, tanggal, hari, bulan, dan tahun
disimpan dalam sebuah dimensi tanggal; sementara produk, merek, kategori dan departemen
disimpan dalam dimensi produk. Contoh dibawah ini mengilustrasikan skema database toko ritel
dan tanggal yang terkait maupun tabel dimensi produk,
Hierarki dimensional disimpan sebagai atribut dalam tabel dimensi, dan seluruh hierarki terkait
disimpan dalam sebuah tabel dimensi tunggal. Deskripsi untuk masing-masing level hierarki
dijaga dalam metadata multidimensional. Sebagai contoh, tanggal, hari, bulan, dan tahun
disimpan dalam sebuah dimensi tanggal; sementara produk, merek, kategori dan departemen
disimpan dalam dimensi produk. Contoh dibawah ini mengilustrasikan skema database toko ritel
dan tanggal yang terkait maupun tabel dimensi produk,
Data pada level yang lebih tinggi diperoleh melalui agregasi data fact level paling rendah untuk
instan yang sama dari sebuah atribut level dimensional. Pada contoh yang telah diberikan, jika
kita ingin menemukan total Jumlah Penjualan serta Total Harga Penjualan untuk masing dari dua
departemen, Bakery dan Frozen Food, Kita pertama kali memilih Bakery dan Frozen Food dari
tabel Dimensi Produk dan kemudian menambahkan seluruh nilai kuantitas penjualan serta Total
Harga dari tabel fact yang berhubungan dengan kedua produk tersebut. Hal ini membutuhkan
penambahan secara terpisah, nilai fact untuk key produk = 1,2,3 dan 4 serta key produk = 5,6,7,8
dan 9 bagi seluruh nilai yang mungkin dari key lainnya dalam tabel fact.
Selain agregasi berdasarkan deskripsi produk, jika kita ingin melihat lebih rinci dekripsi merk
dari produk, kita rancang Deskripsi Produk dan Deskripsi Merk dari Dimensi Produk dan
kemudian memilih seluruh kuantitas penjualan serta jumlah Total Harga Penjualan dari tabel fact
dan menambahkannya.
17. Operasi OLAP : Kueri Data Multidimensional
Dalam model multidimensional, data diorganisasikan menjadi dimensi banyak, dan masingmasing
dimensi berisikan level abstraksi yang banyak yang didefinisikan oleh hierarki-hierarki.
Organisasi ini menyediakan bagi pengguna kemampuan untuk melihat data dari perspektif tyang
berbeda. Sejumlah operasi data cube eksis untuk terwujudnya sudut pandang yng berbeda,
memungkinkan pnegkuerian dan analisis data yang interaktif. Berikut adalan beberapa operasi
OLAP untuk Data Multidimensional.
Dalam penjelasan ini akan digunakan contoh sebuah kubus (cube) yang berisikan dimensi lokasi,
waktu dan item dimana lokasi diagregasikan dengan respek terhadap data kota, waktu
diagregasikan dengan respek terhadap kuartal dan item diagregasikan dengan respek terhadap
tipe.
Roll-Up : Operasi roll-up atau drill-up menjalankan agrehasi pada sebuah data cube, baik
dengan menaiki sebuah hierarki data untuk sebuah dimensi atau dengan pengurangan dimensi.
Roll-up dengan pengurangan dimensi berarti bahwa agregasi dijalankan hingga level atas
dimensi. Sebagai contoh, jika hierarki lokasi berisikan tiga level, kota  provinsi  negara,
maka reduksi dari dimensi lokasi berarti hasil data fact diringkaskan terhadap kotanya dan
kemudian provinsinya.
Drill-Down: kebalikan roll-up. Drill down menavigasikan dari data rinci yang sedikit hingga
yang lebih detil, hal ini dapat dilakukan dengan menuruni hierarki untuk sebuah dimensi atau
memperkenalkan dimensi tambahan. Penambahan sebuah dimensi baru berarti tabel fact pasti
berisikan (atau ditambahkan) data di dalam dimensi tersebut.
Slide and Dice : Operasi slice menjalankan seperangkat seleksi pada sebuah dimensi dari cube
tertentu yang menghasilkan sebuah subcube. Sebagai contoh, kita dapat memilih seluruh data
penjualan untuk seluruh kota dan item pada kuarter tertentu = Q1
Operasi dice mendefinisikan sebuah subcube dengan menjalankan sebuah seleksi pada dua atau
lebih dimensi. Sebagai contoh, kita dapat melakukan slice pertama kali pada waktu untuk
memasukkan penjualan pada beberapa kuartal. Dan kemudian pada location untuk memasukkan
penjualan pada beberapa kota.
Pivot(Rotate) : Pivot adalah sebuah operasi visualisasiyang merotasikan data axis untuk
memberikan sebuah alternatif presentasi data


Sumber :
Modul Perkuliahan - Data Warehouse dan Data Mining - Program Studi Sistem Informasi - Fakultas Ilmu Komputer - Universitas Mercu Buana