119x Filetype PDF File size 0.18 MB Source: media.neliti.com
Seminar Nasional Aplikasi Teknologi Informasi 2009 (SNATI 2009) ISSN: 1907-5022 Yogyakarta, 20 Juni 2009 ANALISIS PERBANDINGAN CLUSTERING-BASED, DISTANCE-BASED DAN DENSITY-BASED DALAM MENDETEKSI OUTLIER 1 1, 2 Dedy Handriyadi , M.Arif Bijaksana, Ir .MTech Erwin Budi Setiawan, MT 1Jurusan Teknik Informatika, Fakultas Teknik Informatika, IT Telkom Bandung 2Jurusan Ilmu Komunikasi, Fakultas Sains, IT Telkom Bandung E-mail: ndogBosok@yahoo.com, mab@ittelkom.ac.id, erw@ittelkom.ac.id ABSTRAK Data Mining adalah proses pencarian pola-pola dan kecenderungan yang menarik dari dalam basis data berukuran besar. Sebuah outlier didefinisikan sebagai sebuah titik data pada suatu data set dimana sangat berbeda dibandingkan dengan titik data pada data set pada umumnya dengan suatu ukuran tertentu. Outlier ini walaupun mempunyai kelakuan yang abnormal, seringkali mengandung informasi yang sangat berguna. Permasalahan deteksi outlier ini mempunyai peran yang sangat penting pada aplikasi deteksi kecurangan, analisis kekuatan jaringan dan deteksi intrusi. Pencarian outlier biasanya dengan konsep keterdekatan berdasarkan hubungannya dengan sisa data yang ada. Pada data berdimensi tinggi, kepadatan data akan semakin berkurang, akibatnya dugaan akan keterdekatan antar data menjadi gagal.Pada makalah ini akan dilakukan perbandingan metode dalam pencarian suatu outlier dalam data berdimensi tinggi. Metode yang akan dibandingkan yaitu: Clustering-based, Distance- based, dan Density-based. Dimana masing-masing metode telah mendukung data berdimensi tinggi. Kata Kunci : data mining, outlier, deteksi outlier, metode deteksi outlier. outlier merupakan sekumpulan titik data dengan 1. PENDAHULUAN kepadatan yang sangat rendah. 1.1 Latar Belakang Permasalahan yang sekarang ini adalah data yang Dewasa ini ledakan data hampir terjadi di setiap memiliki dimensi yang tinggi. Dengan bertambahnya penjuru dunia baik industri, instansi dan internet. dimensi, data akan menjadi jarang dan mengindikasikan Dengan kondisi seperti ini terdapat banyak tuntutan bahwa tiap titik akan mendekati sebuah outlier. Dengan untuk menemukan informasi berguna yang tenggelam kata lain, untuk data yang memiliki dimensi yang dalam tumpukan data dari berbagai sumber. Data tinggi, perkiraan untuk menemukan outlier akan dengan jumlah yang begitu besar ini akan sangat menjadi rumit. menyulitkan apabila kita ingin menganalisa apakah Banyak metode yang digunakan untuk mencari terdapat suatu kesalahan dalam data tersebut. Data yang outlier akan tetapi jika digabungkan dengan data yang mempunyai sifat dan karakteristik yang berbeda dari memiliki dimensi yang tinggi, maka hanya ada data – data pada umumnya dan mempunyai kemunculan beberapa metode yang dapat digunakan yaitu kejadian relatif sedikit dikatakan sebagai outlier. Clustering-based, Distance-based, dan Density-based. Sebuah outlier dapat didefinisikan sebagai sebuah titik data pada suatu database dimana sangat berbeda 1.2 Tujuan dibandingkan dengan titik data pada database pada Berdasarkan rumusan masalah diatas, maka tujuan umumnya dengan suatu ukuran tertentu. Titik ini yang ingin dicapai dalam penelitian ini adalah: seringkali mempunyai informasi yang sangat berguna 1. Mempelajari metode Clustering-based, Distance- yang didefinisikan data pada kelakuan sistem yang based dan Density-based dalam mendeteksi outlier. abnormal. Teknik deteksi outlier digunakan pada 2. Membangun perangkat lunak deteksi outlier aplikasi kecurangan kartu kredit, network intrusion dengan menerapkan metode Clustering-based, detection, aplikasi keuangan dan lain lain. Distance-based dan Density-based. Banyak metode data mining dalam pencarian 3. Melakukan pengujian presentase ketepatan metode outlier seperti clustering yang mendefinisikan sebuah pencarian outlier pada beberapa dataset yang telah outlier tidak terdapat dalam cluster tersebut, dengan diketahui nilai kebenaran akan data anomalinya kata lain, clustering secara implisit mendefinisikan maupun yang tidak diketahui secara benar data outlier sebagai noise dari suatu cluster tertentu. Teknik yang termasuk data anomali. Dataset yang akan lainnya mendefinisikan outlier sebagai titik dimana diujikan mempunyai dimensi baik rendah maupun bukan dari bagian cluster maupun noise cluster tersebut, tinggi. akan tetapi titik tertentu yang berkelakuan sangat berbeda dengan keadaan yang normal. Metode statistik 2. DASAR TEORI dengan medefinisikan sebuah outlier berada diluar 2.1 Deteksi Outlier sekumpulan data yang ada. Metode distance-based Sebuah sumber data atau dataset pada umumnya mendefinisikan sebuah outlier berada jauh dari pusat mempunyai nilai-nilai pada setiap obyek yang tidak data. Metode density-based mendefinisikan sebuah terlalu berbeda jauh dengan obyek lain. Akan tetapi terkadang pada data tersebut juga ditemukan obyek- F-101 Seminar Nasional Aplikasi Teknologi Informasi 2009 (SNATI 2009) ISSN: 1907-5022 Yogyakarta, 20 Juni 2009 obyek yang mempunyai nilai atau sifat atau 2.1.1.3 Fungsi Jarak karakteristik yang berbeda dibandingkan dengan obyek Perhitungan jarak antara dua obyek data dilakukan pada umumnya. dengan menggunakan fungsi Euclidan dimana fungsi Deteksi oulier adalah suatu teknik untuk mencari ini dapat digunakan pada dimensi yang tinggi. obyek dimana obyek tersebut mempunyai perilaku yang berbeda dibandingkan obyek-obyek pada umumnya. 2 Teknik data mining dapat digunakan untuk mendeteksi i= Z1 (1) ()[] adanya suatu outlier pada sebuah dataset. Teknik data distance Z ,Z = Z −Z 1 2 ∑ 1i 2i mining yang diganakan adalah Clustering-based, i=1 Distance-based dan Density-based. 2.1.1.4 Analisis cluster 2.1.1 Metode Clustering-based Penentuan bahwa suatu cluster merupakan cluster Clustering merupakan salah satu teknik analisis outlier, CLAD menggunakan 2 attribut pada cluster dalam Data Mining dimana clustering melakukan yang telah terbentuk yaitu distance dan density dari pengelompokan data berdasarkan kesamaan cluster lain. Dikarenakan setiap cluster memiliki lebar karakteristik data. Dengan kesamaan karakteristik pada cluster yang tetap maka kepadatan (density) dari setiap sebuah kelompok ini dapat diambil suatu informasi cluster dihitung berdasarkan jumlah obyek yang yang mempunyai arti dan berguna. termasuk dalam cluster tersebut. Jarak (distance) antar cluster dihitung dengan menggunakan average inter- cluster distance (ICD). j=C ⎡ ⎤ ICD = distance(c ,c ) ÷(C −1) (2) i ⎢ ∑ i j ⎥ ⎢j=1,j≠i ⎥ ⎣ ⎦ Gambar 1 Ilustrasi clustering Standar deviasi yang digunakan adalah median absolute deviation (MAD) dikarenakan persebaran 2.1.1.1 Algoritma CLAD jumlah anggota cluster yang tidak merata. Pada CLAD terdapat dua fase utama yaitu ({ ( ) }) pembuatan cluster dan meng-assign obyek – obyek data MAD(P)=median p−medianP : p∈P (3) pada data set. Secara sederhana dapat dideskripsikan sebagai berikut: Dengan menggunakan fungsi ICD dan MAD dapat 1) inisialisasi cluster_outier = 0 diketahui apakah suatu cluster dikatakan sebagai cluster 2) //fase_1 outlier. Cluster dengan label sparse dikatakan sebagai 3) untuk setiap cluster_outlier hitung jarak centroid local outlier, sedangkan cluster dengan label distant cluster dengan setiap obyek data dikatakan sebagai global outlier. Sebuah cluster 4) jika jarak obyek data dengan centroid cluster dikatakan sebagai cluster outlier apabila cluster tersebut kurang dari lebar_cluster masukkan obyek ke distant dan sparse yang merupakan gabungan dari local dalam cluster outlier dan global outlier. 5) jika jarak obyek data lebih dengan centroid lebih dari lebar_cluster dan obyek data belum menjadi { ( ) ( )} C = c ∈C|ICD >AVG ICD +SD ICD (4) anggota cluster_outlier lain maka buat distant i i cluster_outlier baru dengan obyek data sebagai { ( ) ( )} C = c ∈C|Count >AVGCount −MADCount (5) centroid sparse i i 6) //fase_2 { ( ) ( )} 7) untuk setiap cluster_outlier hitung jarak centroid Cdemse = ci ∈C |Counti > AVG Count +MAD Count (6) cluster dengan setiap obyek data Sebuah cluster diakatakan sebagai cluster_outlier 8) jika jarak centroid cluster_outlier dengan obyek jika memiliki status distant dan sparse. data kurang dari lebar cluster dan obyek data belum menjadi anggota cluster_outlier maka masukkan 2.1.2 Metode Distance-based obyek data ke dalam cluster_outlier Sebuah metode pencarian outlier yang populer dengan menghitung jarak pada obyek tetangga terdekat 2.1.1.2 Lebar cluster (nearest neighbor). Dalam pendekatan ini, satu obyek Lebar cluster dideskripsikan sebagai jangkauan melihat obyek-obyek local neighborhood yang antara centroid cluster_outlier dengan obyek data. dedefinisikan dengan k-nearest neighbor. Jika Perhitungan parameter lebar cluster_dilakukan dengan ketertetanggaan antar obyek relatif dekat maka mengambil sampel data dari data set kemudian dihitung dikatakan obyek tersebut normal, akan tetapi jika jarak rata-rata. ketertetanggaan antar obyek relatif sangat jauh maka dikatakan obyek tersebut tidak normal. F-102 Seminar Nasional Aplikasi Teknologi Informasi 2009 (SNATI 2009) ISSN: 1907-5022 Yogyakarta, 20 Juni 2009 2.1.2.1 Algoritma Bay’s Algoritma Bay’s mencari outlier dengan menghitung jarak antar obyek data pada dataset. Pencarian ini dilakukan dengan membandingkan jarak yang telah dihitung dengan jarak pada k tetangga terdekat (k-nearest neighbor), kemudian dipilih untuk menjadi tetangga terdekat menggantikan tetangga terdekat yang terjauh. Gambar 3 Analisa obyek data pada metode Density- 2.1.2.2 Analisis obyek data Obyek data dikatakan sebagai outlier apabila obyek based tersebut memiliki obyek tetangga yang sangat sedikit pada jarak tertentu dan memiliki jarak yang jauh 2.1.3.3 Pengaruh nilai parameter MinPts dibandingkan dengan jarak rata-rata obyek-obyek data Algoritma density-based hanya membutuhkan satu tetangga terdekat. parameter yaitu MinPts, jumlah tetanga terdekat untuk menghitung ketertetanggaan lokal Gambar 2 Analisa obyek data pada metode Distance-based 2.1.3 Metode Distance-based Metode density-based tidak secara eksplisit Gambar 4 Pengaruh MinPts mengklasifikasikan sebuah obyek adalah outlier atau bukan, akan tetapi lebih kepada pemberian nilai kepada obyek sebagai derajat kekuatan obyek tersebut dapat Gambar diatas menunjukkan obyek – obyek data dikategorikan sebagai outlier. Ukuran derajat kekuatan didistribusikan dengan menggunakan distribusi ini adalah local outlier factor (LOF). Pendekatan untuk Gaussian. Untuk setiap nilai MinPts berkisar antara 2 pencarian outlier ini hanya membutuhkan satu sampai 50, minimum, maksimum dan rata – rata nilai parameter yaitu MinPts, dimana MinPts adalah jumlah LOF. Karena nilai MinPts dapat berubah secara tetangga terdekat yang digunakan untuk mendefinisikan fluktuatif, maka digunakan jangkauan dari MinPts yaitu local neighborhood suatu obyek. MinPts diasumsikan MinPtsLB dan MinPtsUB untuk mendefinisikan sebagai jangkauan dari nilai MinPtsLB dan MinPtsUB. jangkauan terendah dan jangkauan tertinggi dari Nilai MinPtsLB dan MinPtsUB disarankan bernilai 10 MinPts. Dengan melihat gambar 2.5 standar deviasi dari dan 20. Akhirnya semua obyek dalam dataset dihitung LOF hanya stabil saat MinPts mulai dari nilai 10 nilai LOFnya. sampai nilai kurang dari 30. 2.1.3.1 Algoritma LOF (Local Outlier Factor) 2.2 Data Secara sederhana algoritma LOF dapat Sebuah dataset merupakan sekumpulan dari obyek- dideskripsikan sebagai berikut: obyek data. Sebuah dataset terdiri dari beberapa 1) menghitung jumlah tetangga terdekat dimensi data. Masing-masing dimensi data mempunyai 2) menghitung kepadatan lokal dari setiap obyek tipe data yang berbeda antara satu dimensi dengan yang 3) menghitung LOF untuk setiap obyek data lain. 4) me-maintain obyek-obyek data dengan nilai LOF yang tinggi 2.2.1 Jumlah data Dalam data mining permasalahan yang sering 2.1.3.2 Analisis obyek data muncul adalah banyaknya jumlah data yang harus Obyek data akan dianggap memiliki nilai outlier diproses untuk menemukan informasi. Peningkatan yang tinggi jika pada jarak k tetangga terdekat memiliki jumlah data akan berpengaruh terhadap sumber daya kepadatan yang sangat kecil. Semakin banyak obyek – dan waktu untuk melakukan pemrosesan. obyek tetangga dalam jarak k-tetangga terdekat, obyek ini memiliki nilai LOF mendekati 1 dan tidak 2.2.2 Dimensi data seharusnya diberi label sebagai outlier. Suatu dataset dapat memiliki satu atau lebih attribut atau dimensi, suatu dataset dikatakan berdimensi tinggi jika data set tersebut memiliki attribut F-103 Seminar Nasional Aplikasi Teknologi Informasi 2009 (SNATI 2009) ISSN: 1907-5022 Yogyakarta, 20 Juni 2009 yang banyak (minimal 4). 3.2 Distance-based 3.2.1 DAD level 0 3.2.2 DAD level 1 Gambar 5 Pengaruh penambahan jumlah dimensi 3.3 Density-based 3.3.1 DAD level 0 2.2.3 Tipe data Terdapat beberapa tipe data pada dimensi sebuah data. Tipe data ini menentukan bagaimana harus memperlakukan data pada suatu operasi data. 3. ANALISIS DAN PERANCANGAN 3.1 Clustering-based 3.1.1 DAD level 0 3.3.2 DAD level 1 3.1.2 DAD level 1 User nameOfTable 4. nameOfTable DataPoint Change Table dataPointValue outlierClusterData dataPointValue 1. MaxWidth 4. PENGUJIAN 3. 2. Pengujian dilakukan untuk melihat apakah sistem Cluster Analysis clusterFinal Clustering maxWidthValue yang dibuat sudah memenuhi tujuan yang diharapkan atau belum. Pengujian ini dilakukan dengan menggunakan data sintetis, data-data riil nilai mahasiswa STT TELKOM, data bayi, dan data riil penggunaan telepon pada PT. TELKOM DIVRE II Datel Bogor. F-104
no reviews yet
Please Login to review.