Kamis, 30 Mei 2013

Definisi Deteksi outlier


Deteksi outlier merupakan salah satu bidang penelitian yang penting dalam topik data mining. Penelitian ini bermanfaat untuk mendeteksi perilaku yang tidak normal seperti deteksi intrusi jaringan, diagnosa medis, dan lain-lain. Banyak metode telah dikembangkan untuk menyelesaikan masalah ini, namun kebanyakan hanya focus pada data dengan atribut yang seragam, yaitu data numerik atau data kategorikal saja.

Contoh kasus dalam hal ini, saya mengambil contoh kasus tentang data siswa yang mendaftar tiap tahun di setiap SMA Negeri favorit yang ada di kota KENDARI. Misalnya jumlah siswa yang mendaftar disetiap tahunnya di kota kendari. Disini saya akan  membandingkan data siswa yang masuk untuk tiap SMA Negeri yang ada di kota kendari untuk 5 tahun terakhir. Berikut tabel perbandingannya.


No
Tahun
Sekolah
Jumlah
1
2012
SMAN 1
300
2
2011
SMAN 2
250
3
2010
SMAN 3
320
4
2009
SMAN 4
400
5
2008
SMAN 5
150
Tabel siswa yang masuk di tiap sekolah

Dari tabel  diatas kita bisa mengidentifikasi outlier dengan 2 metode yaitu :
1.       Metode Grafis
Metode ini dilakukan dengan cara memplot data dengan observasi ke-i (i=1, 2, 3,…,n). Dalam beberapa software statistika, metode ini dilakukan dalam menu scatterplot. Dari plot tersebut, pencilan akan nampak memisahkan diri dari kumpulan sebagian besar data.

Panah pada plot tersebut menunjuk pada data yang diduga menjadi outlier. Keuntungan dari metode ini adalah mudah dipahami (tanpa melibatkan perhitungan yang rumit) dan menarik karena menampilkan data secara grafis (gambar). Kelemahan metode ini adalah keputusan bahwa data tersebut termasuk pencilan atau tidak bergantung pada kebijakan (judgement) peneliti, karena hanya mengandalkan visualisasi grafis.

2.       Metode Teknik Statistik
Cara paling sederhana adalah dengan cara statistik. Perlu dilakukan perhitungan rata-rata dan standar deviasi. Kemudian berdasarkan nilai tersebut dibuat fungsi threshold berpotensi untuk dinyatakan sebagai outlier. Sebagai contohnya yaitu sebagai berikut:

Maka semua data yang berada diluar range {-51.4, 131.2} adalah Treshhold. Pada contoh diatas terdapat 3 nilai yang termasuk outlier: 156, 139, -67
Contohnya:
Usia = {3,56,23,39,156,41,22,9,28,139,31,55,20,-67,37,11,55,45,37}
Kemudian dilakukan perhitungan terhadap nilai mean dan variance:
Mean = 39.9
Standard deviation = 45.65
Jika kita nyatakan nilai thereshod untuk distribusi normal dari data sebagai berikut:
Threshold = Mean ±2 Standar deviation

      Itulah contoh kasus data outlier yang menggunakan beberapa metode diantaranya yaitu metode grafis dan metode teknik statistik.

Deteksi outlier
Deteksi outlier merupakan salah satu bidang penelitian yang penting dalam topik data mining. Penelitian ini bermanfaat untuk mendeteksi perilaku yang tidak normal seperti deteksi intrusi jaringan, diagnosa medis, dan lain-lain. Banyak metode telah dikembangkan untuk menyelesaikan masalah ini, namun kebanyakan hanya focus pada data dengan atribut yang seragam, yaitu data numerik atau data kategorikal saja.

Contoh kasus dalam hal ini, saya mengambil contoh kasus tentang data siswa yang mendaftar tiap tahun di setiap SMA Negeri favorit yang ada di kota KENDARI. Misalnya jumlah siswa yang mendaftar disetiap tahunnya di kota kendari. Disini saya akan  membandingkan data siswa yang masuk untuk tiap SMA Negeri yang ada di kota kendari untuk 5 tahun terakhir. Berikut tabel perbandingannya.

No
Tahun
Sekolah
Jumlah
1
2012
SMAN 1
300
2
2011
SMAN 2
250
3
2010
SMAN 3
320
4
2009
SMAN 4
400
5
2008
SMAN 5
150
Tabel siswa yang masuk di tiap sekolah

Dari tabel  diatas kita bisa mengidentifikasi outlier dengan 2 metode yaitu :
3.       Metode Grafis
Metode ini dilakukan dengan cara memplot data dengan observasi ke-i (i=1, 2, 3,…,n). Dalam beberapa software statistika, metode ini dilakukan dalam menu scatterplot. Dari plot tersebut, pencilan akan nampak memisahkan diri dari kumpulan sebagian besar data.

Panah pada plot tersebut menunjuk pada data yang diduga menjadi outlier. Keuntungan dari metode ini adalah mudah dipahami (tanpa melibatkan perhitungan yang rumit) dan menarik karena menampilkan data secara grafis (gambar). Kelemahan metode ini adalah keputusan bahwa data tersebut termasuk pencilan atau tidak bergantung pada kebijakan (judgement) peneliti, karena hanya mengandalkan visualisasi grafis.

4.       Metode Teknik Statistik
Cara paling sederhana adalah dengan cara statistik. Perlu dilakukan perhitungan rata-rata dan standar deviasi. Kemudian berdasarkan nilai tersebut dibuat fungsi threshold berpotensi untuk dinyatakan sebagai outlier. Sebagai contohnya yaitu sebagai berikut:

Maka semua data yang berada diluar range {-51.4, 131.2} adalah Treshhold. Pada contoh diatas terdapat 3 nilai yang termasuk outlier: 156, 139, -67
Contohnya:
Usia = {3,56,23,39,156,41,22,9,28,139,31,55,20,-67,37,11,55,45,37}
Kemudian dilakukan perhitungan terhadap nilai mean dan variance:
Mean = 39.9
Standard deviation = 45.65
Jika kita nyatakan nilai thereshod untuk distribusi normal dari data sebagai berikut:
Threshold = Mean ±2 Standar deviation

      Itulah contoh kasus data outlier yang menggunakan beberapa metode diantaranya yaitu metode grafis dan metode teknik statistik.


Share this post
  • Share to Facebook
  • Share to Twitter
  • Share to Google+
  • Share to Stumble Upon
  • Share to Evernote
  • Share to Blogger
  • Share to Email
  • Share to Yahoo Messenger
  • More...

0 komentar:

Posting Komentar