Senin, 24 November 2014

RESUME Ketepatan dalam memilih atau menentukan keperluan data yang dipakai dalam ETL

Why Is Data Quality So Critical?

Meningkatkan kepercayaan diri dalam pengambilan keputusan
Memperbaiki pelayanan kpd Customer
Meningkatkan kesempatan untuk menghasilkan value yang lebih baik bagi pelayanan
Mengurangi resiko dari keputusan yang sifatnya berbahaya
Mengurangi biaya, terutama untuk pemasaran,
Mengembangkan strategi untuk pembuatan keputusan,
Meningkatkan produktivitas dengan memangkas beberapa proses
Menghindari efek komplikasi dari data yang terkontaminasi


Data Accuracy VS Data Quality

Data Accuracy

Hal spesifik dari entitas secara akurat menggambarkan kejadian tersebut pada entitas
Elemen data menentukan syarat dari teknologi database
Elemen data memenuhi kepada validation constraints
Elemen data individu mempunyai tipe data yang benar
Secara tradisional, berhubungan dengan sistem operasional
Data Quality

Data item benar2 cocok untuk tujuan yang mana telah ditentukan oleh pengguna bisnis
Konsep yang lebih luas berdasarkan spesifikasi bisnis dari perusahaan
Berhubungan tidak hanya dengan satu elemen data, tetapi untuk sistem secara keseluruhan
Bentuk dan isi elemen data yang konsisten di seluruh sistem
Pada dasarnya diperlukan sebuah data warehouse perusahaan secara luas untuk pengguna bisnis
Indikator Data Quality

Accuracy = data yang tersimpan nilainya benar (nama cocok dengan alamatnya)
Domain Integrity = nilai attributnya sesuai batasan yang diperkenankan (nilai attribut laki n perempuan)
Data Type = Nilai data disimpan dalam tipe data yang sesuai (data nama disimpan dengan tipe text)
Consistency = nilai sebuah field data akan sama semua dalam berbagai berkas (field produk A dgn kode 123, akan selalu sama kodenya di setiap berkas lain)
Redundancy = tidak boleh ada data yang sama disimpan di tempat yang berbeda dalam satu sistem
Completeness = Tidak ada nilai atribut salah / hilang yang diberikan dalam sistem
Duplication = tidak ada baris record yang sama dalam satu sistem
Conformance To Business Rules = sesuai dengan aturan bisnis yang berlaku (di bank รจ loan balance = + or 0)
Structural Definiteness = dapat didefinisikan strukturnya (nama = firstname + middlename + lastname
Data Anomaly = sebuah field harus digunakan untuk tujuan yang telah ditentukan
Clarity= Penamaan elemen data agar mudah dimengerti oleh user
Timely= Data harus bersifat aktual
Usefulness = Setiap elemen data dalam data warehouse harus memuaskan banyak kebutuhan dari koleksi user
Benefit of Improved Data Quality

Analysis with Timely Information
Better Cutomer Service
Newer Opportunities
Reduced Cost and Risk
Improved Productivity
Reliable Strategic Decision Making
Data Quality Challenges

1. Sources of Data Pollution

System Conversions
Data Aging
Heterogeneous System Integration
Poor database design
Incomplete information at DATA ENTRY
Input errors
Internationalzation / Localization
Fraud
Lack of Policies
2. Validation Names and Addresses

Masalah yang melekat ketika menginputkan nama-nama dan alamat-alamat :

No unique key
Many names on one lines
One name on two lines
Name and the address in a single line
Personal and company are mixed
Different addresses for the same person
Different names and spelling for the same customer
Contoh :



3. Costs of Poor Data Quality

Biaya implementasi konsep Data Quality mahal dan membutuhkan usaha yang besar

Data Quality Tools

Berisi algoritma untuk  mengurai, mengubah, mencocokan, mengkonsolidasi, dan memperbaiki data
Ada 2 cara untuk melakukan pembersihan data agar dapat meningkatkan kualitas data :
Data Error Discovery -> to identify inaccuracies and inconsistencies
Data Correction -> to help fix the corrupt data
Data Error Discoverymeliputi fungsi :

Mengidentifikasi duplikasi record dengan cepat dan mudah
Mengidentifikasi item data yang nilai-nilainya di luar jarak dari nilai legal domain
Menemukan inkonsistensi data
Memeriksa jarak dari nilai yang diijinkan
Mendeteksi inkonsistensi antar item-item data dari sumber yang berbeda
Mengijinkan user untuk mengidentifikasi dan mengukur masalah kualitas data
Memantau tren kualitas data dari waktu ke waktu
Melaporkan kepada user tentang kualitas data yang digunakan untuk analisis
Memperbaiki masalah dari referential integrity dari DBMS
Data Correctionmeliputi fungsi :

Menormalkan inkonsistensi data.
Meningkatkan penggabungan data dari sumber data yang berbeda.
Mengelompokkan dan menghubungkan data data customer yang  memiliki “rumah” yang sama.
Memberikan pengukuran bagi kualitas data.
Memvalidasi nilai – nilai yang diijinkan.
Kesimpulan

Data Quality adalah hal yang sangat kritis karena dapat meningkatkan kepercayaan diri data, memungkinkan pelayanan customer menjadi lebih baik, meningkatkan pengambilan keputusan strategik, dan mengurangi risiko dari keputusan rawan.
Dimensi Data Quality meliputi accuracy, domain integrity, consistency, completeness, structural definiteness, clarity, dll.
Data Quality dihasilkan dari berbagai sumber dalam sebuah data warehouse dan berbagai sumber polusi yang mengintensifkan tantangan yang dihadapi ketika mencoba untuk membersihkan data.
Buruknya kualitas data nama dan alamat memberikan keprihatinan serius kepada organisasi. Daerah ini adalah salah satu tantangan terbesar dari Data Quality.


Tambahan seputar Data Accuracy VS Data Quality

Kualitas sumber data untuk pengolahan GIS menjadi keprihatinan yang semakin meningkat di kalangan spesialis aplikasi GIS . Dengan masuknya perangkat lunak GIS di pasar komersial dan aplikasi mempercepat teknologi GIS untuk pemecahan masalah dan pengambilan keputusan peran , kualitas dan keandalan produk GIS akan datang di bawah pengawasan yang lebih ketat . Banyak perhatian telah dibangkitkan untuk kesalahan relatif yang mungkin melekat dalam metodologi pengolahan GIS . Sedangkan penelitian sedang berlangsung , dan tidak ada standar yang terbatas tersebut belum diadopsi di pasar GIS komersial, beberapa rekomendasi praktis telah diidentifikasi yang membantu untuk menemukan sumber kesalahan yang mungkin , dan menentukan kualitas data. Berikut review dari kualitas data berfokus pada tiga komponen yang berbeda , akurasi data, kualitas, dan kesalahan.

Accuracy (ketepatan)
Isu mendasar sehubungan dengan data akurasi . Akurasi adalah kedekatan hasil observasi dengan nilai-nilai benar atau nilai diterima sebagai benar . Ini berarti bahwa pengamatan sebagian fenomena spasial biasanya hanya dianggap perkiraan nilai sebenarnya . Perbedaan antara nilai yang diamati dan benar ( atau diterima sebagai benar ) menunjukkan akurasi pengamatan .

Pada dasarnya dua jenis akurasi ada. Ini adalah posisi dan akurasi atribut . Posisi accuracyis penyimpangan yang diharapkan di lokasi geografis dari suatu objek dari posisi tanah yang benar . Ini adalah apa yang biasanya kita pikirkan ketika akurasi jangka dibahas . Ada dua komponen untuk akurasi posisi . Ini adalah akurasi relatif dan absolut . Akurasi mutlak menyangkut akurasi elemen data sehubungan dengan skema koordinat , misalnya UTM . Akurasi relatif menyangkut posisi fitur peta relatif terhadap satu sama lain .

Seringkali akurasi relatif menjadi perhatian lebih besar dari akurasi mutlak . Sebagai contoh, sebagian besar pengguna GIS bisa hidup dengan fakta bahwa mereka koordinat kota survei tidak bertepatan persis dengan kain survei , bagaimanapun , tidak adanya satu atau dua paket dari peta pajak dapat memiliki konsekuensi langsung dan mahal .

Akurasi Atribut sama pentingnya dengan akurasi posisi . Hal ini juga mencerminkan perkiraan kebenaran . Menafsirkan dan menggambarkan batas-batas dan karakteristik untuk tegakan hutan atau poligon tanah bisa sangat sulit dan subjektif . Kebanyakan spesialis sumber daya akan membuktikan fakta ini . Dengan demikian , tingkat homogenitas ditemukan dalam batas-batas yang dipetakan tersebut tidak setinggi dalam realitas seperti itu akan tampak pada peta-peta .

Quality (kualitas)
Kualitas hanya dapat didefinisikan sebagai kesesuaian untuk digunakan untuk satu set data tertentu . Data yang sesuai untuk digunakan dengan satu aplikasi mungkin tidak cocok untuk digunakan dengan yang lain . Hal ini sepenuhnya tergantung pada skala , akurasi , dan tingkat kumpulan data , serta kualitas data lainnya set yang akan digunakan . AS baru-baru Spasial Transfer Data Standar ( SDTS ) mengidentifikasi lima komponen untuk definisi kualitas data . Ini adalah :

Garis keturunan
Ketelitian Posisi
Ketelitian Atribut
Konsistensi logis
Kelengkapan
Lineage (garis keturunan)

Silsilah data berkaitan dengan aspek sejarah dan kompilasi data seperti :
 
sumber data ;

isi data
Data spesifikasi capture
cakupan geografis dari data
Metode kompilasi data , misalnya digitalisasi dibandingkan dipindai
metode ransformation diterapkan pada data, dan
penggunaan algoritma yang bersangkutan selama kompilasi , misalnya penyederhanaan linear , fitur generalisasi .
Positional Accuracy (Ketelitian Posisi)
Identifikasi akurasi posisi penting . Ini termasuk pertimbangan kesalahan yang melekat ( error source) dan kesalahan operasional ( kesalahan diperkenalkan ) . Sebuah tinjauan yang lebih rinci disediakan pada bagian berikutnya .

Attribute Accuracy (Ketelitian Atribut)
Pertimbangan keakuratan atribut juga membantu untuk menentukan kualitas data . Komponen ini menyangkut kualitas identifikasi keandalan, atau tingkat kemurnian ( homogenitas ) , dalam satu set data.

Logical Consistency (Konsistensi logis)
Komponen ini berkaitan dengan menentukan kesetiaan dari struktur data untuk satu set data . Ini biasanya melibatkan inkonsistensi data spasial seperti persimpangan yang salah baris , duplikat garis atau batas , atau kesenjangan dalam baris. Ini disebut sebagai kesalahan spasial atau topologi .

Completeness (kelengkapan)
Komponen kualitas akhir melibatkan pernyataan tentang kelengkapan data set . Ini mencakup pertimbangan lubang dalam data , daerah unclassified , dan prosedur kompilasi apapun yang mungkin telah menyebabkan data yang akan dihilangkan .

Kemudahan yang data geografis dalam GIS dapat digunakan pada skala apapun menyoroti pentingnya kualitas informasi data rinci . Meskipun kumpulan data mungkin tidak memiliki skala tertentu setelah dimuat ke database GIS , itu diproduksi dengan tingkat akurasi dan resolusi yang membuatnya sesuai untuk digunakan hanya pada skala tertentu , dan dalam kombinasi dengan data skala yang sama .

Error (kesalahan)
Dua sumber kesalahan , melekat dan operasional , memberikan kontribusi pada penurunan kualitas produk yang dihasilkan oleh sistem informasi geografis . Kesalahan yang melekat hadir kesalahan dalam dokumen sumber dan data. Kesalahan operasional adalah jumlah kesalahan yang dihasilkan melalui data capture dan fungsi manipulasi GIS . Kemungkinan sumber kesalahan operasional meliputi:

Mis – pelabelan area pada peta tematik ;
salah penempatan horisontal batas ( posisi ) ;
kesalahan manusia dalam digitalisasi
kesalahan klasifikasi ; .
GIS ketidakakuratan algoritma , dan
Bias manusia.
Sementara kesalahan akan selalu ada dalam setiap proses ilmiah , tujuan dalam pengolahan GIS harus mengidentifikasi kesalahan yang ada dalam sumber-sumber data dan meminimalkan jumlah kesalahan ditambahkan selama pengolahan. Karena kendala biaya sering lebih tepat untuk mengelola kesalahan daripada upaya untuk menghilangkannya . Ada trade-off antara mengurangi tingkat kesalahan dalam data base dan biaya untuk menciptakan dan memelihara database .

Sebuah kesadaran akan status kesalahan set data yang berbeda akan memungkinkan pengguna untuk membuat pernyataan subyektif pada kualitas dan keandalan produk yang berasal dari pengolahan GIS .

Validitas dari setiap keputusan didasarkan pada produk GIS secara langsung berkaitan dengan kualitas dan keandalan rating produk .

Tergantung pada tingkat melekat dalam data sumber kesalahan, dan kesalahan operasional dihasilkan melalui pengambilan data dan manipulasi , produk GIS mungkin memiliki sejumlah besar kesalahan.
Salah satu masalah utama saat ada dalam GIS adalah aura akurasi sekitar data geografis digital. Sering hardcopy peta sumber termasuk peta keandalan rating atau kepercayaan wisatawan dalam legenda peta. Peringkat ini membantu pengguna dalam menentukan kesesuaian untuk digunakan untuk peta . Namun, jarang ada informasi ini dikodekan dalam proses konversi digital .

Seringkali karena data GIS adalah dalam bentuk digital dan dapat diwakili dengan presisi tinggi itu dianggap benar-benar akurat . Pada kenyataannya , buffer ada di sekitar masing-masing fitur yang merupakan lokasi posisi sebenarnya dari fitur tersebut . Sebagai contoh , data yang diambil pada skala 1:20.000 umumnya memiliki akurasi posisi dari + / – 20 meter . Ini berarti lokasi sebenarnya dari fitur dapat berbeda 20 meter di kedua arah dari posisi diidentifikasi dari fitur di peta . Mengingat bahwa penggunaan GIS biasanya melibatkan integrasi beberapa set data, biasanya pada skala yang berbeda dan kualitas , orang dapat dengan mudah melihat bagaimana kesalahan dapat diperbanyak selama pemrosesan .

Contoh bidang ketidakpastian untuk menyalut Data

Beberapa komentar dan pedoman pengakuan dan penilaian dari kesalahan dalam pengolahan GIS telah dipromosikan dalam makalah pada subjek . Ini adalah sebagai berikut:

Ada kebutuhan untuk mengembangkan laporan kesalahan untuk data yang terdapat dalam sistem informasi geografis ( Vitek et al , 1984) .
Integrasi data dari sumber yang berbeda dan dalam format asli yang berbeda (misalnya titik, garis , dan area ) , pada skala yang asli yang berbeda , dan memiliki kesalahan yang melekat dapat menghasilkan produk akurasi dipertanyakan ( Vitek et al , 1984).
Keakuratan produk GIS yang diturunkan tergantung pada karakteristik yang melekat pada produk sumber , dan kebutuhan pengguna , seperti skala produk output yang diinginkan dan metode dan resolusi data encoding ( Marmer , Peuquet , 1983) .
Akurasi tertinggi dari setiap produk keluaran GIS hanya dapat seakurat tema data yang paling akurat dari informasi yang terlibat dalam analisis ( Newcomer , Szajgin , 1984) .
Akurasi data berkurang sebagai resolusi spasial menjadi lebih kasar ( Walsh et al , 1987) . , dan
Karena jumlah lapisan dalam analisis suatu meningkat , jumlah kemungkinan kesempatan untuk kenaikan error ( Newcomer , Szajgin , 1984) .

Senin, 17 November 2014

Resume ETL (Extraction, Transformasi, Dan Loading)

vETL adalah kumpulan proses menyiapkan data dari operational source untuk data. Proses ini terdiri dari extracting, transforming, loading, dan beberapa proses yang dilakukan sebelum dipublikasikan ke dalam data warehouse. Jadi, ETL atau extract, transform, loading adalah fase pemrosesan data dari sumber data masuk ke dalam data warehouse. Tujuan ETL adalah mengumpulkan, menyaring, mengolah dan menggabungkan datadata yang relevan dari berbagai sumber untuk disimpan ke dalam data warehouse. ETL juga dapat digunakan untuk mengintegrasikan data dengan sistem yang sudah ada sebelumnya.
  Hasil dari proses ETL adalah dihasilkannya data yang memenuhi kriteria data warehouse seperti data historis, terpadu, terangkum, statis dan memiliki struktur yang dirancang untuk keperluan proses analisis.
  Berikut ini Tahapan - Tahapan Dari Prosess ETL 

EXTRACT
vLangkah pertama dari proses ETL adalah proses penarikan data dari satu atau lebih sistem operasional sebagai sumber data (bisa diambil dari sistem OLTP, tapi bisa juga dari sumber data di luar system database). Kebanyakan proyek data warehouse menggabungkan data dari sumber-sumber yang berbeda. Pada hakekatnya, proses ekstraksi adalah proses penguraian dan pembersihan data yang diekstrak untuk mendapatkan suatu pola atau struktur data yang diinginkan.
TTRANSFORMATION
vProses membersihkan data yang telah diambil pada proses extract sehingga data itu sesuai dengan struktur data warehouse atau data mart. Hal-hal yang dapat dilakukan dalam tahap transformasi : Hanya memilih kolom tertentu saja untuk dimasukkan ke dalam data warehouse. Menerjemahkan nilai berupa kode (misal, database sumber menyimpan nilai 1 untuk pria dan 2 untuk wanita, tetapi data warehouse menyimpan M untuk pria dan F untuk wanita). Proses yang dilakukan disebut automated data cleansing, tidak ada pembersihan secara manual selama proses ETL. Mengkodekan nilai-nilai ke dalam bentuk bebas ( missal memetakan ”male” ,”I”, danMr ke dalam ”M”). Melakukan perhitungan nilai-nilai baru (misal sale_amount = qty*unit_price). 
Menggabungkan data dari berbagai sumeber bersama-sama. Membuat ringkasan dari sekumpulan baris data (misal, total penjualan untuk setiap bagian). Kesulitan yang terjadi pada proses transformasi adalah data harus digabungkan dari beberapa sistem terpisah, harus dibersihkan sehingga konsisten dan harus diagregasi untuk mempercepat analisis.
LOAD
Fase load merupakan tahapan yang berfungsi untuk memasukkan data ke dalam target akhir, yaitu ke dalam suatu data warehouse. Waktu dan jangkauan untuk mengganti atau menambah data tergantung pada perancangan data warehouse pada waktu menganalisa keperluan informasi. Fase load berinteraksi dengan suatu database, constraint didefinisikan  dalam  skema  database  sebagai  suatu  trigger  yang diaktifkan pada waktu  melakukan  load  data  (contohnya   :
uniqueness,referential, integrity,   mandatory   fields),   yang   juga berkontribusi untuk keseluruhan tampilan dan kualitas data dari proses ETL.