== BLOG KU.COM ==

jUSt Smil3 to The WoRlD (^^)

DATA GALI (DaTa Mining)

Secara sederhana, data mining merujuk pada ekstraksi atau penggalian pengetahuan dari sejumlah besar data. termin ini sebetulnya adalah salah kaprah. Karena penggalian emas dari batu atau dari pasar disebut dengan penggalian emas, bukan penggalian batu atau penggalian pasir. Oleh karena itu, data mining seharusnya diberi nama knowledge mining from data. Termin pendeknya knowledge mining sama sekali tidak menggambarkan proses penggalian data untuk mendapatkan pengetahuan. Oleh karena itu kesalahkaprahan yang menggambarkan data dan mining tetap digunakan.

Banyak orang yang memperlakukan Knowledge Discovery in Databases atau KDD sebagai sinonim dari data mining. Selain itu, sebagian orang melihat data mining sebagai langkah esensial dalam pencarian pengetahuan (knowledge discovery) dalam database. Pencarian pengetahuan sebagai sebuah proses terdiri dari urutan berulang dari langkah-langkah sebagai berikut:

  1. Data Cleaning. Untuk membuang noise atau data yang tidak konsisten
  2. data integration. Dimana multiple sumber data digabungkan.
  3. Data selection. Dimana data yang relevan dengan analisis didapat dari database
  4. Data transformation. Dimana data ditransformasikan dan dikonsolidasikan kedalam bentuk yang sesuai untuk penggalian dengan melakuka operasi penjumlahan atau agregasi.
  5. Data Mining. Sebuah proses esensial dimana metode cerdas diaplikasikan untuk mengekstrak pola data
  6. Pattern evaluation. Untuk mengidentifikasi pola tertentu yang merepresentasikan pengetahuan berdasar pada pengukuran ketertarikan
  7. Knowledge presentation. Dimana visualisasi dan teknik representasi pengetahuan digunakan untuk menghadirkan pengetahuan yang telah digali pada user

Langkah data mining memungkinkan untuk berinteraksi dengan user atau berbasis pengetahuan. Pola yang menarik ditampilkan pada user, dan dapat disimpan sebagai pengetahuan baru dalam basis pengetahuan (knowledge base). Berdasarkan pandangan ini, data mining adalah sebuah bagian dari keseluruhan proses. Meskipun merupakan proses yang esensial karena akan mengungkapkan pola tersembunyi untuk dievaluasi lebih lanjut.

Jadi, data mining, yang menjadi termin yang lebih populer daripada KDD, adalah proses pencarian pengetahuan tertentu dari sejumlah besar data yang disimpan baik dalam database, data warehouse, maupun penyimpanan informasi lainnya.

Arsitektur umum dari sistem data mining dapat memiliki komponen sebagai berikut:

    Database, data warehouse, maupun penyimpanan informasi lainnya.
    Server database atau data warehouse. Server database atau data warehouse bertanggung jawab untuk mengambil data yang relevan, berdasarkan pada permintaan data mining user
    Knowledge base. Bagian ini merupakan domain pengetahuan yang digunakan untuk membimbing pencarian atau mengevaluasi ketertarikan pada pola hasil. Pengetahun in dapat termasuk konsep hirarki, digunakan untuk mengorganisir atribut atau nilai atribut ke dalam berbagai level abstraksi.
    Data mining engine. Modul ini merupakan bagian yang esensial dalam sistem data mining dan idealnya terdiri dari modul funsional untuk tugas-tugas misalkan seperti karakterisasi, asosiasi, klasifikasi, analisa kluster, dan analisa evolusi dan deviasi
    Pattern evaluation module. Komponen ini secara umum mengatur tingkat kepentingan dan berinteraksi dengan modul data mining sehingga dapat memfokuskan pencarian terhadap pola tertentu.
    Graphical user interface. Modul ini mengkomunikasikan user dengan sistem data mining, mengizinkan user untuk berinteraksi dengan sistem dengan mendefinisikan query atau tugas data mining, menyediakan informasi agar user terbantu untuk tetap fokus dalam pencarian. Sebagai tambahan, komponen ini mengizinkan user untuk mencari skema atau struktur data database dan data warehouse, mengevaluasi pola yang telah digali, dan memvisualisasi pola dalam bentuk yang berbeda.

Tidak semua “sistem data mining” yang digunakan dalam kehidupan nyata dapat melakukan proses data mining yang sebenarnya. Sebuah sistem analisis data yang tidak menangani data dalam jumlah besar seharusnya dikategorikan dalam sistem mechine learning, alat analisa data statistik, atau prototipe sistem eksperimental. Sebuah sistem yang hanya dapat melakukan temu kembali data atau informasi, termasuk mencari nilai agregasi, atau yang melakukan penjawaban query dalam database yang besar harusnya dikategorika sebagai sistem database, atau sistem temu kembali informasi, atau sistem database deduktif.

Data mining melibatkan sebuah integrasi teknik dari berbagai disiplin seperti teknologi database, statistik, machine learning, pengenalan pola, neural network, visualisasi data, temu kembali informasi, pemrosesan citra dan sinyal, dan analisa data spasial. Dengan melakukan data mining, pengetahuan tertentu, informasi level biasa atau level tinggi dapat diekstrak dari database dan dapat dilihat atau dicari dari sudut pandang yang berbeda. Pengetahuan yang ditemukan dapat digunakan untuk pembuatan keputusan, kontrol proses, manajemen informasi, dam pemrosesan query. Oleh karena itu, data mining disadari merupakan salah satu dari bagian terpenting dalam sistem database dan salah satu pengembangan interdisiplin paling menjanjikan dalam industri informasi

October 19, 2007 - Posted by | Database

No comments yet.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: