Deteksi
outlier merupakan salah satu bidang penelitian yang penting dalam topik
data mining. Penelitian ini bermanfaat untuk mendeteksi perilaku yang
tidak normal seperti deteksi intrusi jaringan, diagnosa medis, dan lain-lain.
Banyak metode telah dikembangkan untuk menyelesaikan masalah ini, namun
kebanyakan hanya focus pada data dengan atribut yang seragam, yaitu data
numerik atau data kategorikal saja.
Contoh kasus dalam hal ini, saya
mengambil contoh kasus tentang data siswa yang mendaftar tiap tahun di setiap
SMA Negeri favorit yang ada di kota KENDARI. Misalnya jumlah siswa yang
mendaftar disetiap tahunnya di kota kendari. Disini saya akan membandingkan data siswa yang masuk untuk tiap
SMA Negeri yang ada di kota kendari untuk 5 tahun terakhir. Berikut tabel
perbandingannya.
No
|
Tahun
|
Sekolah
|
Jumlah
|
1
|
2012
|
SMAN 1
|
300
|
2
|
2011
|
SMAN 2
|
250
|
3
|
2010
|
SMAN 3
|
320
|
4
|
2009
|
SMAN 4
|
400
|
5
|
2008
|
SMAN 5
|
150
|
Tabel siswa yang masuk di tiap sekolah
Dari
tabel diatas kita bisa mengidentifikasi
outlier dengan 2 metode yaitu :
1.
Metode Grafis
Metode ini dilakukan dengan cara memplot data dengan observasi ke-i (i=1, 2, 3,…,n). Dalam beberapa software statistika, metode ini dilakukan dalam menu scatterplot. Dari plot tersebut, pencilan akan nampak memisahkan diri dari kumpulan sebagian besar data.
Metode ini dilakukan dengan cara memplot data dengan observasi ke-i (i=1, 2, 3,…,n). Dalam beberapa software statistika, metode ini dilakukan dalam menu scatterplot. Dari plot tersebut, pencilan akan nampak memisahkan diri dari kumpulan sebagian besar data.
Panah pada plot tersebut menunjuk pada data yang diduga menjadi outlier. Keuntungan dari metode ini adalah mudah dipahami (tanpa melibatkan perhitungan yang rumit) dan menarik karena menampilkan data secara grafis (gambar). Kelemahan metode ini adalah keputusan bahwa data tersebut termasuk pencilan atau tidak bergantung pada kebijakan (judgement) peneliti, karena hanya mengandalkan visualisasi grafis.
2.
Metode
Teknik Statistik
Cara paling sederhana adalah dengan cara statistik. Perlu
dilakukan perhitungan rata-rata dan standar deviasi. Kemudian berdasarkan nilai
tersebut dibuat fungsi threshold berpotensi untuk dinyatakan sebagai outlier.
Sebagai contohnya yaitu sebagai berikut:
Maka semua data yang berada diluar range {-51.4, 131.2}
adalah Treshhold. Pada contoh diatas terdapat 3 nilai yang termasuk outlier:
156, 139, -67
Contohnya:
Usia
= {3,56,23,39,156,41,22,9,28,139,31,55,20,-67,37,11,55,45,37}
Kemudian
dilakukan perhitungan terhadap nilai mean dan variance:
Mean
= 39.9
Standard
deviation = 45.65
Jika kita nyatakan
nilai thereshod untuk distribusi normal dari data sebagai berikut:
Threshold
= Mean ±2 Standar deviation
Itulah contoh
kasus data outlier yang menggunakan beberapa metode diantaranya yaitu metode
grafis dan metode teknik statistik.
Deteksi outlier
Deteksi
outlier merupakan salah satu bidang penelitian yang penting dalam topik
data mining. Penelitian ini bermanfaat untuk mendeteksi perilaku yang
tidak normal seperti deteksi intrusi jaringan, diagnosa medis, dan lain-lain.
Banyak metode telah dikembangkan untuk menyelesaikan masalah ini, namun
kebanyakan hanya focus pada data dengan atribut yang seragam, yaitu data
numerik atau data kategorikal saja.
Contoh kasus dalam hal ini, saya mengambil
contoh kasus tentang data siswa yang mendaftar tiap tahun di setiap SMA Negeri
favorit yang ada di kota KENDARI. Misalnya jumlah siswa yang mendaftar disetiap
tahunnya di kota kendari. Disini saya akan
membandingkan data siswa yang masuk untuk tiap SMA Negeri yang ada di
kota kendari untuk 5 tahun terakhir. Berikut tabel perbandingannya.
No
|
Tahun
|
Sekolah
|
Jumlah
|
1
|
2012
|
SMAN 1
|
300
|
2
|
2011
|
SMAN 2
|
250
|
3
|
2010
|
SMAN 3
|
320
|
4
|
2009
|
SMAN 4
|
400
|
5
|
2008
|
SMAN 5
|
150
|
Tabel siswa yang masuk di tiap sekolah
Dari
tabel diatas kita bisa mengidentifikasi
outlier dengan 2 metode yaitu :
3.
Metode Grafis
Metode ini dilakukan dengan cara memplot data dengan observasi ke-i (i=1, 2, 3,…,n). Dalam beberapa software statistika, metode ini dilakukan dalam menu scatterplot. Dari plot tersebut, pencilan akan nampak memisahkan diri dari kumpulan sebagian besar data.
Metode ini dilakukan dengan cara memplot data dengan observasi ke-i (i=1, 2, 3,…,n). Dalam beberapa software statistika, metode ini dilakukan dalam menu scatterplot. Dari plot tersebut, pencilan akan nampak memisahkan diri dari kumpulan sebagian besar data.
Panah pada plot tersebut menunjuk pada data yang diduga menjadi outlier. Keuntungan dari metode ini adalah mudah dipahami (tanpa melibatkan perhitungan yang rumit) dan menarik karena menampilkan data secara grafis (gambar). Kelemahan metode ini adalah keputusan bahwa data tersebut termasuk pencilan atau tidak bergantung pada kebijakan (judgement) peneliti, karena hanya mengandalkan visualisasi grafis.
4.
Metode
Teknik Statistik
Cara paling sederhana adalah dengan cara statistik. Perlu
dilakukan perhitungan rata-rata dan standar deviasi. Kemudian berdasarkan nilai
tersebut dibuat fungsi threshold berpotensi untuk dinyatakan sebagai outlier.
Sebagai contohnya yaitu sebagai berikut:
Maka semua data yang berada diluar range {-51.4, 131.2}
adalah Treshhold. Pada contoh diatas terdapat 3 nilai yang termasuk outlier:
156, 139, -67
Contohnya:
Usia
= {3,56,23,39,156,41,22,9,28,139,31,55,20,-67,37,11,55,45,37}
Kemudian
dilakukan perhitungan terhadap nilai mean dan variance:
Mean
= 39.9
Standard
deviation = 45.65
Jika kita nyatakan
nilai thereshod untuk distribusi normal dari data sebagai berikut:
Threshold
= Mean ±2 Standar deviation
Itulah contoh
kasus data outlier yang menggunakan beberapa metode diantaranya yaitu metode
grafis dan metode teknik statistik.
0 komentar:
Posting Komentar