DATA MINING
Data
Mining adalah
kegiatan
untuk
menemukan
informasi
atau
pengetahuan
yang berguna
secara
otomatis
dari
data yang jumlahnya
besar.
Data
Mining merupakan
salah
satu
proses
dari
keseluruhan
proses
yang ada
pada
Knowledge Discovery in Databases (KDD).
KDD
Knowledge
Discovery in Databases (KDD) merupakan
sekumpulan
proses
untuk
menemukan
pengetahuan
yang bermanfaat
dari
data.
Kumpulan proses
dalam
KDD meliputi
: pembersihan
data (data cleaning),
integrasi
data (data integration),
pemilihan
data (data selection),
transformasi
data (data transformation),
penambangan
data (data mining), evaluasi
pola
(pattern evaluation),
dan
presentasi
pengetahuan
(knowledge presentation).
Berdasarkan
definisi
ini
terlihat
bahwa
data mining hanya
merupakan
salah
satu
proses
dari
keseluruhan
proses
yang ada
pada
KDD, tetapi
merupakan
proses
yang sangat
penting
dalam
menemukan
pola-pola
yang berguna
dari
sejumlah
data yang besar
(data tersebut
bisa
disimpan
dalam
basisdata,
Data Warehouse,
atau
media penyimpanan
informasi
lainnya).
KDD dan DM
Menurut
Cabena,
Data Mining = Knowledge Discovery in Database (KDD).
Menurut
Jiawei Han,
Data Mining merupakan Subset atau salah satu tahap
dari
KDD saja.
Sehingga,
batasan
ini
yang selanjutkan
digunakan.
Data Mining bertujuan mengekplorasi
basis data untuk menemukan
pola-pola
pengetahuan
yang tersembunyi
di
dalam
data tersebut.
TAHAPAN KNOWLEDGE DISCOVERY IN DATABASE
Menurut Peter Cabena, Tahapan
– tahapan
dalam KDD
adalah
sebagai
berikut
:
Penentuan
Sasaran
Bisnis
(Business Objective Determination)
Persiapan
Data (Preparation Data)
Data
Selection
Data
Preprocessing
Data
Transformation
Data Mining
Anaysis
of Result
Assimilation
of Knowledge
BUSINESS OBJECTIVE DETERMINATION 1 dan 2
Merupakan
sebuah
tahapan
yang mendefinisikan
permasalahan
atau
tantangan
bisnis
dengan
jelas.
Hal ini
merupakan
aspek
yang sangat
esensial
dalam
setiap
proyek
data mining.
Contoh Sasaran Bisnis :
Mengembangkan
suatu
strategi
marketing untuk
mempertahankan
loyalitas
customer di
Jawa
Tengah dan
Jawa
Timur
untuk
produk
soft drink dengan brand dan
ukuran
tertentu
(200ml dalam
kotak
alumunium)
selama
bulan
April, Mei , Juni yang akan
datang.
Perusahaan akan menggunakan
kombinasi
dari
berbagai
strategi
marketing (mixed marketing),
yang salah
satunya
adalah
direct mail campaign
kepada
customer yang tampaknya
"mudah
rusak"
loyalitasnya.
Sehingga
dampak
keseluruhan
KDD adalah
:
– Data
Selection: dipilih
customers yang membeli produk
soft drink 200 ml dalam kotak
alumunium
di
Jawa
Tengah dan
Jawa
Timur.
– Data
Transformation: customers yang membeli
produk
soft drink 200 ml dalam kotak
alumunium
disorting
dalam
10 kategori,
yang masing-masing
membedakan
tingkat
loyalitasnya:
membeli
produk
tersebut
0-10%, 11-20%, ..... , 81-90%, 91-100% sepanjang
waktu
pembeliannya.
Selanjutnya
data inilah yang
akan dibawa ke tahap data
mining.
PERSIAPAN DATA
Merupakan
tahapan
untuk
mempersiapkan
data yang diperlukan
untuk
proses
data mining. Tujuannya
adalah
agar data yang digunakan benar-benar
sesuai
dengan
permasalahan
yang akan
dipecahkan,
dapat
dijamin
kebenarannya,
dan
dalam
format yang sesuai/tepat.
Tahap yang
paling banyak
mengkonsumsi
resources (manusia, biaya,
waktu)
yang tersedia.
Biasanya
mencapai
60% keseluruhan
proyek
KDD.
Data Selection
Mengidentifikasi
semua
sumber
informasi
internal dan
eksternal
dan
memilih
sebagian
saja
dari
data yang diperlukan
untuk
aplikasi
data mining.
Data Preprocessing
Meyakinkan
kualitas
data yang telah
dipilih
pada
tahapan
sebelumnya.
2 issue yang sering dihadapkan
pada
tahapan
ini
adalah
Noisy Data dan Missing Value.
Data Transformation
Mengubah
data ke
dalam
model analitis
serta
memodelkan
data agar sesuai
dengan
analisa
yang diharapkan
dan
format data yang diperlukan oleh
algoritma
data mining.
DATA MINING
Melakukan
proses
pencarian
pengetahuan
terhadap
data yang ditransformasikan
pada
tahap
sebelumnya.
Contoh
Pengetahuan
berbentuk
Association Rule untuk
kasus
"Soft Drink“:
IF soft drink sejenis dengan
ukuran
yang lebih
besar
(bukan
botol
kecil)
dibeli lebih dari
58% dalam
sejarah
pembelian
soft drink seorang
consumer
THEN
consumer tersebut
diprediksi
Loyal.
Pemilihan
tugas
data mining : pemilihan goal
dari
proses
KDD misalnya
klasifikasi,
regresi,
clustering, dll.
Proses Data mining yaitu
proses
mencari
pola
atau
informasi
menarik
dalam
data terpilih
dengan
menggunakan
teknik
atau
metode
tertentu.
Teknik,
metode,
atau
algoritma
dalam
data mining sangat
bervariasi.
Pemilihan
metode
atau
algoritma
yang tepat
sangat
bergantung
pada
tujuan
dan
proses
KDD secara
keseluruhan.
ANALYSIS OF RESULT
Menginterpretasikan
dan
mengevaluasi
output dari
tahap
mining: patterns.
Pendekatan
analisa
yang digunakan
akan
bervariasi
menurut
operasi
data mining yang digunakan, tetapi
biasanya
akan
melibatkan
teknik
visualisasi.
ASSIMILATION OF KNOWLEDGE
Menggunakan
hasil
mining yang telah dievaluasi
ke
dalam
perilaku
organisasi
dan
sistem
informasi
perusahaan.
DATA MINING DAN PROSES KDD
Pembersihan
data (Data Cleaning)
Digunakan
untuk
membuang
data yang tidak
konsisten
dan
noise.
Intergrasi
Data (Data Integration)
Data
yang diperlukan
untuk
data mining tidak hanya
berasal
dari
satu
database tetapi
juga
berasal
dari
beberapa
database atau
file teks.
Hasil
integrasi
data sering
diwujudkan
dalam
sebuah
data warehouse karena dengan
data warehouse, data dikonsolidasikan
dengan
struktur
khusus
yang efisien.
Selain
itu
data warehouse juga memungkinkan
tipe
analisa
seperti
OLAP.
Transformasi data
Transformasi
dan
pemilihan
data ini
untuk
menentukan
kualitas
dari
hasil
data mining, sehingga data
diubah
menjadi
bentuk
sesuai
untuk
di-Mining.
Aplikasi
Teknik Data
Mining
Aplikasi
teknik
data mining sendiri hanya
merupakan
salah
satu
bagian
dari
proses
data mining. Ada beberapa
teknik
data mining yang sudah umum
dipakai.
Evaluasi
pola yang
ditemukan
Dalam
tahap
ini
hasil
dari
teknik
data mining berupa pola-pola
yang khas
maupun
model prediksi
dievaluasi
untuk
menilai
apakah
hipotesa
yang ada
memang
tercapai.
Presentasi
Pengetahuan
Presentasi
pola
yang ditemukan
untuk
menghasilkan
aksi
tahap
terakhir
dari
proses
data mining adalah bagaimana
memformulasikan
keputusan
atau
aksi
dari
hasil
analisa
yang didapat.
INPUT DAN OUTPUT DATA MINING
Tidak ada komentar:
Posting Komentar