Modul Data Warehouse dan Data Mining
Download Modul Data Warehouse dan Data Mining Bab 04 - Arsitektur Data Warehouse
Bab 04 - Arsitektur Data Warehouse
Abstract
Menjelaskan Arsitektur Data Warehouse
Kompetensi
Mahasiswa mampu menjelaskan tipe – tipe arsitektur data warehouse
5. Dukungan Infrastruktur terhadap Arsitektur
Ketika berbicara mengenai dukungan infrastruktur terhadap Arsitektur maka pertanyaan
pertama yang muncul adalah apa saja elemen-elemen yang dibutuhkan untuk mendukung
arsitektur?
Suatu infrastruktur memasukkan banyak elemen-elemen, seperti :
a. Platform basic computing, yang memasukkan semua kebutuhan sistem operasi dan
perangkat keras (hardware)
b. DBMS (Database Management System), elemen infrastruktur yang penting.
c. Semua tipe tool dan software
Infrastruktur Data Warehouse memasukkan semua elemen dasar yang memungkinkan
arsitektur untuk diimplementasikan. Sehingga infrastruktur memasukkan beberapa elemen
seperti perangkat keras server, sistem operasi, perangkat lunak jaringan, perangkat lunak
database, LAN dan WAN, tool vendor untuk setiap komponen arsitektur, orang, prosedur dan
pelatihan.
Elemen-elemen infrastruktur Data Warehouse dapat dikelompokkan menjadi dua kategori
yakni : infrastruktur operasional dan infrastruktur fisik. Pembedaaan ini penting karena
elemen-elemen pada masing-masing kategori memiliki fitur yang berbeda jika dibandingkan
dengan kategori lainnya,
a. Infrastruktur Operasional
Salah satu komponen infrastruktur merujuk pada perangkat keras komputer dan
perangkat lunak terkait. Anda membutuhkan perangkat keras dan perangkat lunak
untuk menjalankan fungsi data staging dan memberikan servis yang sesuai. Anda
juga membutuhkan tool perangkat lunak untuk menjalankan transformasi data, anda
membutuhkan perangkat lunak untuk membuat file output, anda membutuhkan
perangkat keras disk untuk menempatkan data dalam file staging area. Bagaimana
dengan orang-orang yang terlibat menjalankan fungsi-fungsi ini? Apa prosedur dan
aturan-aturan bisnis untuk transformasi data? Bagaimana dengan manajemen
perangkat lunak untuk memonitor dan mengadministrasikan kegiatan transformasi
data?
Infrastruktur Operasional dalam mendukung masing-masing komponen arsitektur
terdiri dari :
- Orang
- Prosedur
- Pelatihan
- Perangkat lunak manajemen
Orang dan prosedur disini bukan untuk pengembangan Data Warehouse, namun agar
Data Warehouse dapat tetap berjalan, elemen-elemen ini sama pentingnya dengan
perangkat lunak dan perangkat keras yang menjaga agar Data Warehouse tetap
berjalan. Mereka mendukung manajemen Data Warehouse dan memelihara
efisiensinya.
b. Infrastruktur Fisik
Gambar 4.1 menampilkan elemen-elemen utama infrastruktur fisik. Setiap sistem
termasuk Data Warehouse harus memiliki keseluruhan platform dimana ia
ditempatkan. Secara esensial, platform terdiri dari komponen perangkat keras dasar,
sistem operasi disertai dengan software utiliti, jaringan dan software jaringan.
Gambar 4.1. Infrastruktur Fisik
6. Sistem Operasi Dan Perangkat Keras
Sistem operasi dan perangkat keras menciptakan lingkungan komputer untuk Data
Warehouse anda.
Seluruh kegiatan ekstraksi data, transformasi, integrasi dan staging berjalan pada perangkat
keras terpilih dengan sistem operasinya. Ketika anda mentransportasikan data yang telah
dikonsolidasikan dan diintegrasikan dari staging area ke tempat penyimpana Data
Warehouse anda, anda menggunakan perangkat lunak sistem operasi dan perangkat keras
server.
Berikut adalah petunjuk pemilihan perangkat keras, yang tidak secara keseluruhan spesifik
pada perangkat keras bagi Data Warehouse.
Scalability : Ketka Data Warehouse memiliki makin banyak pengguna, maka dapat
dipastikan perangkat keras pilihan anda dapat menangani jumlah kueri dan kompleksitasnya
yang semakin meningkat.
Support : Dukungan vendor bersifat krusial bagi pemeliharaan perangkat keras. Pastikan
bahwa dukungan dari vendor perangkat keras berada pada peringkat tertinggi yang paling
mungkin.
Vendor Reference : Hal yang cukup penting untuk dilakukan yakni pengecekan referensi
vendor dengan lainnya menggunakan perangkat keras vendor tersebut. Anda harus
mengantisipasi terjadinya Data Warehouse down karena malfungsi perangkat keras ketika
CEO menginginkan beberapa analisis kritis yang harus diselesaikan.
Vendor Stability : Cek stabilitas dan waktu nyala.
Berikutnya kita dapat mempertimbangkanbeberapa kriteria umum untuk pemilihan sistem
operasi. Yang pertama, sistem operasi harus kompatibel dengan perangkat keras. Daftar
kriterianya adalah sebagai berikut :
Scalability : Scalibility berada pada daftar pertama karena merupakan salah satu fitur utama
setiap Data Warehouse. Data Warehouse tumbuh sangat cepat. Begitu juga dengan perangkat
lunak dan perangkat keras database, sistem operasi harus dapat mendukung peningkatan
jumlah pengguna dan aplikasi.
Security : Ketika banyak workstationklien mengakses server, sistem operasi dapat
melindungi masing-masing klien dan sumber daya terkait. Sistem operasi harus menyediakan
masing-masing klien sebuah lingkungan yang aman.
Reliability : Sistem operasi harus dapat melindungi lingkungan Data Warehouse dari
malfungsi aplikasi.
Availability : merupakan akibat langsung dari reliability. Lingkungan komputerisasi harus
tetap available setelah penghentian aplikasi abnormal.
Preemptive Multitasking : Perangkat keras server harus mampu menyeimbangkan alokasi
waktu dan sumber data antara banyaknya aktivitas yang berjalan. Sistem operasi juga harus
mampu menentukan aktivitas dengan prioritas yang lebih tinggi yang mendahului atau
menginterupsi aktivitas lainnya ketika dibutuhkan.
Use multithreaded approach : Sistem operasi harus dapat melayakni banya permintaan
yang terjadi secara serentak dengan pendistribusian thread ke banyak prosesor dalam
konfigurasi perangkat keras multiprosesor. Fitur ini sangat penting karena konfigurasi
multiprosesor adalah arsitektur pilihan dalam sebuah lingkungan Data Warehouse.
Memory Protection :Dalam lingkungan Data Warehouse, ada banyak kueri dalam jumlah
besar, yang berarti bahwa banyak kueri yang akan dieksekusi secara serentak. Sebuah fitur
proteksi memori dalam sistem operasi mencari mencegah sebuah aktivitas dari merambah
ruang memori lainnya.
a. Pilihan Platform
Platform komputer adalah seperangkat komponen perangkat keras, sistem operasi dan
jaringan serta perangkat lunak jaringan. Baik merupakan fungsi dari sebuah sistem OLTP
atau sistem pengambilan keputusan seperti Data Warehouse, fungsinya harus dijalankan
dalam sebuah platform komputer.
i. Pilihan Single Platform :adalah pilihan paling sederhana dan mudah. Pada pilihan
ini, seluruh fungsi dari ekstraksi data back-endhingga pemrosesan kueri front-end
dijalankan pada sebuah platform komputer tunggal. Ini adalah pendekatan paling
awal yang dikembangkan para developer ketika mengimplementasikan Data
Warehouse pada mainframe yang sedang eksis, minikomputer atau sebuah server
tunggal berbasis UNIX.
Karena seluruh operasi dalam perolehan data, penyimpana data dan area pengiriman
informasi terjadi pada platform yang sama, pilihan ini sulit menangani masalah
kompatibilitas dan interface. Tidak dibutuhkan perangkat middleware, seluruh tool
bekerja dalam sebuah lingkungan komputer tunggal.
ii. Legacy Platform Stretched to Capacity :Pada banyak perusahaan, lingkungan
komputerisasi yang eksis boleh jadi telah ada sejak beberapa dekade dan sudah
memenuhi sesuai kapasitasnya. Linkungan komputernya boleh jadi dimana ia tidak
dapat lagi diupgradelebih jauh untuk mengakomodasi Data Warehouse anda.
iii. Nonavailability of Tools :Tool perangkat lunak mengambil porsi yang cukup besar
dari infrastruktur Data Warehouse. Kebanyakan tool disediakan oleh sejumlah
vendor Data Warehouse tidak mendukung linkungan mainframe atau minikomputer.
Tanpa tool yang cocok dalam infrastruktur maka Data Warehouse akan berantakan.
iv. Multiple Legacy Platform
Walaupun kita menduga bahwa warisan komputer mainframe atau lingkungan
minikomputer dapat diperbesar dengan memasukkan Data Warehouse, fakta
praktisnya menunjuk pada sebuah situasi yang berbeda.
v. Company’s Migration Policy
Anda pasti mengenai banyak keuntungan Arsitektur Client-Server. Anda juga pasti
menyadari bahwa setiap perusahaan berubah untuk menerapkan paradigma baru
komputerisasi dengan melakukan perubahan model aplikasi dari platform mainframe
dan minikomputer. Pada kebanyakan perusahaan, kebijakan penggunaan Teknologi
Informasi tidak memungkinkan platform-platform tua untuk abadi. Jika perusahaan
anda memiliki kebijakan yang sama, makan anda tidak akan diizinkan untuk
menambahkan sistem lain yang signifikasi seperti Data Warehouse pada platform
tua.
b. Hybrid Option
Setelah menganalisis warisan sistem dan aplikasi yang lebih modern dalam perusahaan
anda, maka berikutnya anda dapat memutuskan bahwa pendekatan single-platform tidak
dapat bekerja untuk Data Warehouse anda. Ini menjadi alasan banyak perusahaan tidak
menjalankannya, disisi lain, jika perusahaan anda harus memilih kategori dimana
platform warisan dapat mengakomodasi Data Warehouse maka pendekatan singleplatformmenjadi
solusi. Untuk lebih jelas, kita akan melihat tahapan data flow dan
memeriksa pilihan platform.
i. Data Extraction : Pada Data Warehouse yang terbaik adalah menjalankan fungsi
ekstraksi data dari masing-masing sistem sumber pada platform komputer itu sendiri.
ii. Initial Reformatting and Merging : Setelah pembuatan data mentah yang diekstrak
dari beberapa sumber, file-file yang diekstrak dari masing-masing sumber di format
kembali dan digabungkan menjadi sejumlah file ekstraksi yang lebih kecil. Verifikasi
Data ekstrak terhadap laporan source system dan rekonsiliasi jumlah rekod input
maupun output ada pada tahapan ini. Seperti tahapan ekstraksi, yang terbaik adalah
menjalankan tahapan awal penggabungan masing-masing perangkat sumber ekstrak
pada platform sumber itu sendiri.
iii. Preliminary Data Cleansing. Pada tahapan ini, anda memverifikasi data yang telah
diekstrak dari masing-masing source data untuk nilai data yanghilang pada field
field tunggal, memberikan nilai default dan menjalankan edit dasar. Ini adalah
tahapan lainnya pada platform komputer dari source system itu sendiri.
Bagaimanapun, dalam beberapa Data Warehouse tipe pembersihan data ini terjadi
setelah data dari semua sumber direkonsiliasikan dan dikonsolidasikan. Pada masingmasing
kasus, fitur-fitur dan kondisi-kondisi data dari source system anda
mendiktekan kapan dan dimana tahapan ini harus dijalankan bagi Data Warehouse
anda.
iv. Transformation and Consolidation : Tahapan ini berisikan seluruh transformasi data
utama dan fungsi integrasi. Anda akan menggunakan tool perangkat lunak
transformasi untuk tujuan ini.
v. Validation and Final Quality Check : Tahapan validasi final dan pemeriksaan
kualitas adalah kandidat kuat staging area. Anda akan menyusun tahapan ini agar
terjadipada platform tersebut.
vi. Creation of Load Images : Tahapan ini menciptakan load images untuk file-file
database tunggal dari media penyimpanan Data Warehouse. Tahapan ini hampir
selalu terjadi dalam staging area dan oleh karenanya pada platform dimana staging
area ditempatkan.
c. Option for Staging Area
Adalah tempat dimana seluruh data untuk Data Warehouse dikumpulkan dan disiapkan.
Platform paling cocok untuk staging area tergantung status platform sumbernya, untuk
lebih jelasnya mari kita eksplorasi pilihan penempatan staging area.
i. Dalam salah satu Legacy Platform. Jika kebanyakan warisan Data sources
ada pada platform yang sama dan jika kapasitas ekstra tersedia, maka
pertimbangkan penjagaan area data staging anda dalam legacy platform.
Untuk pilihan ini, anda akan menghemat waktu dan tenaga dalam
memindahkan data berbeda platform ke staging area.
ii. Pada Platform Data Storage. Ini adalah platform dimana DBMS Data
Warehouse berada dan berjalan.
iii. Pada Platform yang terpisah.Mungkin saja anda membutuhkan
transformasi data kompleks. Hal yang mungkin saja terjadi dimana anda
dapat bekerja dengan data anda untuk membersihan dan mempersiapkannya
bagi Data Warehouse anda. Dalam hal ini, anda membutuhkan sebuah
platform terpisah untuk memilah-milah data sebelum diteruskan ke
database.
d. Data Movement Consideration
Pada platform komputer apapun tahapan tunggal data acquisition dan data storage
terjadi, data harus dipindahkan ke platform yang berbeda. Bergantung pada source
platform perusahaan dan pilihan platform untuk data staging dan data storage, anda
harus menyediakan transportasi data pada platform yang berbeda. Pada masingmaisng
pergerakan data lintas platform komputer, tentukan pilihan yang paling cocok
untuk lingkungan tersebut. Penjelasan singkat dari pilihan standard tersebut adalah
sebagai berikut :
i. Shared Disk
Metode ini kembali ke zaman mainframe. Aplikasi berjalan pada wilayah
dan partisi yang berbeda diizinkan untuk berbagi data dengan penempatan
data pada suatu disk share. Anda dapat mengadaptasi metode ini dari satu
tahap ke tahapan lainnya untuk data acquisition dalam Data Warehouse
anda. Anda harus menentukan disk storage dan pengaturannya sehingga
masing-masing dari kedua platform mengenali area disk storage nya sendiri.
ii. Mass Data Transmission.
Dalam hal ini, tranmisi data berbeda platform terjadi melalui port data. Port
data adalah perangkat interplatform yang sederhana yang memungkinkan
kuantitas data massal ditransportasikan dari satu platform ke yang lainnya.
Masing-masing platform harus dikonfigurasikan untuk menangani transfer
melalui port. Pilihan ini membutuhkan komponen perangkat keras,
perangkat lunak dan jaringan khusus. Juga dibutuhkan bandwith jaringan
yang cukup dalam pemrosesan data skala besar.
iii. Real-Time Connection
Dalam pilihan ini, dua platform menciptakan koneksi secara real time
sehingga sebuah program dapat berjalan pada sebuah platform yang mampu
menggunakan sumber daya platform lainnya. Sebuah program pada sebuah
platform dapat melakukan penulisan terhadap disk storage lainnya. Kegiatan
yang berjalan pada sebuah platform dapat melakukan penjadwalan aktivitas
dan event lainnya.
iv. Manual Methods
Pilihan ini sederhana dan mudah. Sebuah program pada sebuah platform
melakukan penulisan terhadap sebuah media eksternal seperti tape dan disk.
Program lainnya pada platform penerima membaca data dari media
eksternal
Gambar 4.3. Data Movement Consideration
e. Client-Server Architecture for the Data Warehouse
Walaupun platform minikomputer dan mainframe lebih dahulu diimplementasikan
untuk Data Warehouse, namun saat ini, ketika semakin besar, Data Warehouse
dikembangkan dengan menggunakan arsitektur client-server. Kebanyakan dari ini
adalah multitiered, arsitektur client/server generasi kedua. Gambar 4.4.
mengilustrasikan arsitektur client/server untuk implementasi Data Warehouse.
Gambar 4.4. Arsitektur client/server Data Warehouse
f. Considerations for Client Workstations
Ketika anda siap untuk mempertimbangkan konfigurasi mesin workstation, anda akan
lebih cepat menyadari bahwa anda butuh untuk memisahkan tipe pengguna. Kita
hanya mempertimbangkan kebutuhan workstation terkait pengiriman informasi dari
Data Warehouse. Pengguna diharapkan puas dengan sebuah mesin yang dapat
berjalan pada sebuah browser web untuk mengakses laporan HTML. Analisis serius,
disisi lain, membutuhkan mesin workstation yang lebih besar dan powerful. Tipe
pengguna lainya antara dua keekstriman ini membutuhkan sebuah model layanan.
Gunakan ceklis dibawah ini ketika mempertimbangkan workstation :
o Sistem operasi Workstation
o Processing power
o Memori
o Disk Storage
o Transportasi Data dan jaringan
o Dukungan tool
g. Options as The Data Warehouse Matures
Anda mungkin dapat menyimpulkan bahwa pilihan platform telah benar dan pilihan
awal ditentukan. Hal yang menarik untuk dicatat bahwa Data Warehouse pada
masing-masing enterprise yang telah mapan, maka susunan platformnya juga
berevolusi. Data Staging dan Data Storage dapat berada pada platform komputer yang
sama. Seiring waktu berjalan dan lebih banyak pengguna mulai bergantung pada Data
Warehouse anda untuk pengambilan keputusan strategis, anda akan menemukan
bahwa pilihan platform dapat dievolusikan.
Sumber :
Modul Perkuliahan - Data Warehouse dan Data Mining - Program Studi Sistem Informasi - Fakultas Ilmu Komputer - Universitas Mercu Buana