Minggu, 22 September 2019

Modul - Data Warehouse dan Data Mining - Bab 06 - Ekstrak Transformasi & Loading



Modul Data Warehouse dan Data Mining

Download Modul Data Warehouse dan Data Mining Bab 06 - Ekstrak Transformasi & Loading

Bab 06 - Ekstrak Transformasi & Loading

Abstract
Menjelaskan konsep Ekstrak Transformasi dan Loading

Kompetensi
Mahasiswa mampu memahami dan menjelaskan konsep ETL dalam Data Warehouse

18. Pengantar mengenai Extraction, Transformation dan Loading
Data Warehouse dibutuhkan selalu untuk melayani tujuan dan kepentingan analis bisnis. Untuk
melakukan hal ini maka data yang berasal dari satu atau beberapa sistem operasi harus diekstrak
dan dikopi ke dalam Data Warehouse. Tantangan dalam lingkungan Data Warehouse adalah
untuk mengintegrasikan, menyusun kembali dan mengkonsolidasikan volume data yang cukup
besar melalui banyak sistem, yang oleh karenanya memberikan satu kesatuan informasi baru
yang menjadi basis bagi business intelligence.
Proses Ekstraksi data dari beberapa sumber data dan memasukkannya ke dalam Data Warehouse
dikenal dengan sebutan ETL, yang merupakan singkatan dari Extraction, Transformation dan
Loading. Dimana ETL menunjukkan sebuah proses luas yang terdiri dari tiga tahapan. Akronim
ETL nampak terlihat sederhana karena menghilangkan fase transportasi dan masing-masing fase
proses lainnya yang berbeda-beda. Walaupun, keseluruhan proses tersebut dikenal dengan
sebutan ETL.
Metodologi dan kegiatan ETL dikenal dengan baik selama beberapa tahun, dan tidak hanya
bersifat unik digunakan dalam lingkungan Data Warehouse: sistem database dan aplikasi berhak
cipta yang menjadi backbone proses IT skala Enterprise. Data telah dishare antara aplikasi atau
sistem, mencoba untuk mengintegrasikannya, memberikan paling tidak dua aplikasi gambaran
yang sama mengenai dunia. Data Sharing demikian paling sering dikenal dengan mekanisme
yang disebut ETL.
19. Ekstraksi dalam Data Warehouse
Ekstraksi (Extraction) adalah operas ekstraksi data dari sebuah sistem sumber untuk digunakan
lebih jauh dalam lingkungan Data Warehouse. Tahapan ini adalah yang paling pertama dalam
proses ETL. Setelah Ekstraksi, data ini akan ditransformasikan dan di-load ke dalam Data
Warehouse.
Pendesainan dan Pembuatan proses Ekstraksi adalah satu kegiatan yang paling sering menyita
waktu di dalam proses ETL dan dalam keseluruhan proses Data Warehouse. Sistem sumber
sangat proses komplek serta didokumentasikan secara buruk, sehingga menentukan data yang
dibutuhkan untuk diekstrak menjadi sulit. Data diekstrak tidak hanya sekali namun beberapa kali
dalam suatu periode untuk mensuplai data ke dalam Data Warehouse dan menjaga agar up-todate.
Lebih jauh lagi, Sistem sumber tidak dapat dimodifikasi atau bahkan kinerja dan
ketersediaannya tidak dapat diatur untuk mengakomodasi kebutuhan proses ekstraksi Data
Warehouse.
Metode Ekstraksi dalam Data Warehouse adalah beberapa bentuk dan benar-benar tergantung
pada Sistem sumber juga kebutuhan bisnis dalam lingkungan target Data Warehouse. Tidak ada
kemungkinan untuk menambahkan logika tambahan ke dalam sistem sumber dalam proses
ekstraksi data yang bersifat inkremental sehubungan dengan kinerja atau beban kerja sistem yang
meningkat.
Ada dua bentuk Metode Ekstraksi logical.
i. Ekstraksi Full(Full Extraction)
Data diekstrak secara lengkap dari sistem sumber. Ekstraksi ini melibatkan seluruh data yang
sedang tersedia dalam sistem sumber. Data sumber disediakan dan tidak dibutuhkan logika
informasi tambahan (seperti timestamp) yang dibutuhkan pada situs sumber. Sebuah contoh
ekstraksi penuh adalah ekspor file dari sebuah tabel yang berbeda atau kueri remote SQL
yang membaca sumber data lengkap
ii. Ekstraksi Inkremental (Incremental Extraction)
Pada poin waktu tertentu, hanya data yang memiliki histori data akan diekstrak. Event ini
adalah proses ekstraksi yang dilakukan paling akhir atau sebagai contoh sebuah event bisnis
yang komplek seperti hari booking terakhir dari suatu periode fiskal. Informasi ini juga dapat
disediakan oleh data sumber itu sendiri seperti sebuah kolom aplikasi, merefleksikan timestamp
yang paling akhir berubah atau sebuah tabel yang berubah dimana sebuah mekanisme
tambahan yang sesuai menjaga track perubahan selain transaksi yang permulaan. Dalam
banyak hal, menggunakan metode ini berarti menambah logika ekstraksi ke dalam sistem
sumber.
Kebanyakan Data Warehouse tidak menggunakan teknik menangkap perubahan sebagai
bagian proses ekstraksi. Sebalaiknya seluruh tabel dari sistem sumber diekstrak ke Data
Warehouse atau staging area, dan tabel-tabel ini dibandingkan dengan yang telah diekstrak
sebelumnya dari sistem sumber untuk mengidentifikasi data yang berubah. Pendekatan ini
boleh jadi tidak memiliki pengaruh yang signifikan terhadap sistem sumber, namun secara
jelas dapat menciptakan sebuah beban yang dapat dipertimbangkan pada proses Data
Warehouse, terutama sekali jika volume data sangat besar.
Bergantung pada metode ekstrasi logikal yang dipilih dan kapabilitasnya serta restriksi pada
sisisumber data, dta yang diekstrak secara fisik diekstrak dengan dua mekanisme. Data dapat
diekstrak online dari sistem sumber atau dari sebuah struktur offline. Struktur offline
demikian boleh jadi ada atau dapat dihasilkan oleh sebuah fungsi ekstraksi.
Ada dua metode ekstraksi fisik (physical extraction)
iii. Online Extraction
Data diekstrak langsung dari sistem sumber itu sendiri. Proses ekstraksi dapat berhubungan
secara langsung dengan sistem sumber untuk mengakses tabel sumber atau ke sebuah sistem
perantara yang menyimpan data dengan sebuah cara yang dikonfigurasikan terlebih dahulu
(sebagai contoh log atau tabel perubahan). Dengan catatan bahwa sistem perantara secara
fisik tidak berbeda dari sistem sumber.
iv. Offline Extraction
Data tidak diekstrak secara langsung dari sistem sumber namun dibatasi secara eksplisit
diluar sistem sumber orisinil. Data telah memiliki struktur atau telah dibuat melalui prosedur
ekstraksi.
Beberapa struktur yang harus dipertimbangkan antara lain :
 Flat file
 Dump File, informasi mengenai objek yang dimasukkan atau tidak dimasukkan,
bergantung pada utility yang dipilih.
 Log Archive dan Redo
 Transportable Tablespaces, cara ekstrak dan memindahkan data bervolume besar antar
Database.
Beberapa contoh Ekstraksi Data Warehouse, antara lain :
v. Ekstraksi menggunakan Data File
Kebanyakan Sistem database menyediakan mekanisme pengeksporan atau pelimpahan data
dari format database internal menjadi file flat. Ekstraksi dari sistem mainframe seringkali
menggunakan program COBOL, namun kebanyakan database, sebagaimana vendor
perangkat lunak pihak ketiga, menyediakan ekspor atau pelimpahan utility.
Ekstraksi Data tidak berarti bahwa seluruh struktur database dilimpahkan dalam flat file.
Dalam banyak hal, boleh jadi hal ini sesuai atau cocok untuk melimpahkan seluruh tabel
database atau objek. Dalam hal lain, bisa jadi yang cocok hanya melimpahkan seperangkat
tabel yang diberikan seiring perubahan pada sistem sumber. Jika dalam sistem Database
oracle atau SQL Server, ada beberapa alternatif yang tersedia untuk mengekstrak Data
menjadi File antara lain :
a. Ekstraksi menjadi Flat File menggunakan SQL*Plus
Adalah teknik dasar dalam ekstraksi data yang paling banyak digunakan dan langsung
menciptakan hasil kueri ke dalam bentuk file. Sebaai contoh mengekstraksi flat file
country_city.log dengan menggunakan delimiter piping ‘|’ antar koom data,yang
berisikan daftar kota di US dalam tabel countries dan customers, maka kueri yang
dapat dijalankan adalah sbb:
SET echo off SET pagesize 0 SPOOL country_city.log
SELECT distinct t1.country_name ||'|'|| t2.cust_city
FROM countries t1, customers t2 WHERE t1.country_id = t2.country_id
AND t1.country_name= 'United States of America';
SPOOL off
b. Ekstraksi ke File Ekspor menggunakan Utility Export
Utility Export memungkinkan Tabel (termasuk data) untuk diekspor menjadi file
Ekspor Database. Yang menerangkan ekstraksi dari hasil kueri SQL. Ekspor berbeda
dengan metode sebelumnya dengan perbedaan sbb:
 File Export berisikan metadata seperti data. File Export berisikan tidak hanya
Data mentah dari sebuah tabel, melainkan juga informasi bagaimana membuat
tabel kembali, secara potensial termasuk indeks, constraint, grant dan atribut
lainnya yang berhubungan dengan tabel.
 Sebuah File export tunggal boleh jadi berisikan seperangkat objek tunggal,
banyak objek database atau bahkan keseluruhan skema.
 Export tidak dapat secara langsung digunakan untuk mengeksport hasil kueri
komplek. Export dapat digunakan hanya untuk mengekstrak seperangkat
objek database yang berbeda.
 Hasil dari utility export dapat diproses menggunakan utility import.
c. Ekstraksi ke File Eksport menggunakan Tabel Eksternal
Selain menggunakan utility Export, eksternal tabel juga dapat digunakan untuk
mengekstrak hasil menggunakan operasi SELECT. Data disimpan dalam platform
bebas. Contoh ekstraksi hasil operasi join yang diparalelkan menjadi empat file. Jika
menggunakan Oracle, maka format yang digunakan ORACLE_DATAPUMP
CREATE DIRECTORY def_dir AS
'/net/dlsun48/private/hbaer/WORK/FEATURES/et';
DROP TABLE extract_cust;
CREATE TABLE extract_cust
ORGANIZATION EXTERNAL
(TYPE ORACLE_DATAPUMP DEFAULT DIRECTORY def_dir ACCESS
PARAMETERS
(NOBADFILE NOLOGFILE)
LOCATION ('extract_cust1.exp', 'extract_cust2.exp', 'extract_cust3.exp',
'extract_cust4.exp'))
PARALLEL 4 REJECT LIMIT UNLIMITED AS
SELECT c.*, co.country_name, co.country_subregion, co.country_region
FROM customers c, countries co where co.country_id=c.country_id;
20. Loading dan Transformasi
Transformasi Data seringkali sangat komplek, dalam hal waktu proses, bagian proses ekstraksi,
transformasi dan loading yang paling membutuhkan banyak biaya. Proses ini boleh jadi
merentang dari konversi data sederhana hingga teknik pengumpulan data komplek yang ekstrim.
Dari perspektif arsitektural, Data dapat ditransformasikan dengan dua cara :
 Multistage Data Transformation
Logika transformasi data bagi kebanyakan Data Warehouse terdiri dari beberapa tahapan.
Sebagai contoh, dalam transformasi rekod baru yang dimasukkan ke dalam sebuah tabel
penjualan (sales), boleh jadi terdapat tahapan transformasi logik yang terpisah untuk
memvalidasi masing-masing key dimensi. Gambaran secara grafis dari proses
transformation logic adalah sbb :
 Pipelined Data Transformation
Arus proses ETL dapat diubah secara dramatis dan database menjadi sebuah bagian
integral solusi ETL. Fungsionalitas barunya melukiskan beberapa pembentukan tahapan
proses penting yang kuno ketika beberapa yang lainnya dapat dimodel kembali untuk
menambah arus data dan transformasi data menjadi lebih dapat diukur. Kegiatannya
bergeser dari transformasi serial hingga proses load (dengan kebanyakan kegiatan
dilakukan diluar database) atau load-kemudian proses transformasi untuk meningkatkan
transformasi selagi loading.

Sumber :
Modul Perkuliahan - Data Warehouse dan Data Mining - Program Studi Sistem Informasi - Fakultas Ilmu Komputer - Universitas Mercu Buana