Pengertian data Mining

Data mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge) secara otomatis.

Permasalahan Pada Data Mining

Sistem data mining berdasar pada basis data yang menyediakan data mentah dan ini memunculkan permasalahan dalam basis data yang cenderung dinamis, tidak lengkap, ber-noise dan besar. Permasalahan lain muncul sebagai akibat dari kecukupan dan relevansi dari informasi yang disimpan.

Sumber Gambar: ilmuskripi.com

Basis data seringkali didesain untuk tujuan yang berbeda dari data mining dan kadangkala properti atau atribut yang akan menyederhanakan pekerjaan pembelajaran tidak tersedia atau tidak dapat dimintai dari dunia nyata. Data yang tidak meyakinkan menyebabkan permasalahan karena jika ada atribut-atribut esensial bagi pengetahuan tentang domain aplikasi tidak ada dalam data tidak memungkinkan untuk menemukan pengetahuan yang tepat mengenai domain yang diberikan.Sebagai contoh, kita tidak dapat mendiagnosa malaria dari basis data pasien jika basis data tersebut tidak mengandung jumlah sel darah merah pasien.

Baca Juga: Model dan Struktur Data Warehouse pada Data Mining

Basis data biasanya dicemari oleh error sedemikian hingga tidak dapat diasumsikan bahwa data secara keseluruhan benar.Atribut-'atribut yang ada pada subyek atau pertimbangan ukuran dapat memunculkan kesalahan (error) sedemikian hingga beberapa contoh mungkin menjadi mis-klasifikasi.Error dalam salah satu nilai atribut atau informasi kelas dikenal sebagai noise. Secara nyata'ada kemungkinan kita perlu sekali untuk menghilangkan noise dari informasi klasifikasi saat hal ini mempengaruhi akurasi aturan yang dibangkitkan secara keseluruhan.

Data yang hilang dapat dibenahi dengan Sistem penemuan dalam berbagai cara, seperti :
  1. Secara sederhana dengan mengabaikan nilai-nilai yang hilang.
  2. Menghilangkan record yang berhubungan.
  3. Menebak nilai yang hilang dari nilai-nilai yang diketahui.
  4. Memperlakukan data .yang hilang sebagai sebuah nilai khusus yang dimasukkan sebagai tambahan dalam domain atribut. .
  5. Atau menghitung rata-rata nilai yang hilang menggunakan teknik Bayesian.
Data yang mengandung noise dalam pengertian menjadi tidak teliti merupakan karakteristik dari semua koleksi data dan secara khus'us cocok untuk sebuah distribusi statistik biasa seperti Gaussian saat nilai-nilai yang salah merupakan kesalahan masukan data.
Ketidakjelasan (uncertainty) menunjuk kepada kepelikan error dan tingkat noise dalam data. Presisi data merupakan saah satu pertimbangan penting dalam sistem penemuan.

Baca Juga: Perbedaan Data Warehouse dan Sistem OLTP pada Data Mining

Basis data cenderung menjadi besar dan dinamis dalam hal isinya yang selalu berubah saat informasi ditambahkan, dimodifikasi atau dihapus. Permasalahan dalam hal ini dari sudut pandang data mining adalah bagaimana menjamin bahwa aturan-aturan tersebut up-to-date dan konsisten dengan informasi paling terkini. luga sistem pembelajaran mempunyai time-sensitive saat beberapa nilai data berubah terhadap waktu dan system penemuan dipengaruhi oleh ketepatan waktu dari data tersebut.