Metode - metode untuk mendeteksi Outlier - outlier.
1. Classification dan Clustering
Classification adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Model itu sendiri bisa berupa aturan “jika-maka”, berupa decision tree, formula matematis atau neural network.
Decision tree adalah salah satu metode classification yang paling populer karena mudah untuk diinterpretasi oleh manusia. Disini setiap percabangan menyatakan kondisi yang harus dipenuhi dan tiap ujung pohon menyatakan kelas data. Algoritma decision tree yang paling terkenal adalah C4.5, tetapi akhir-akhir ini telah dikembangkan algoritma yang mampu menangani data skala besar yang tidak dapat ditampung di main memory seperti RainForest. Metode-metode classification yang lain adalah Bayesian, neural network, genetic algorithm, fuzzy, case-based reasoning, dan k-nearest neighbor.
Proses classification biasanya dibagi menjadi dua fase : learning dan test. Pada fase learning, sebagian data yang telah diketahui kelas datanya diumpankan untuk membentuk model perkiraan. Kemudian pada fase test model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi dari model tsb. Bila akurasinya mencukupi model ini dapat dipakai untuk prediksi kelas data yang belum diketahui.
Berbeda dengan association rule mining dan classification dimana kelas data telah ditentukan sebelumnya, clustering melakukan penge-lompokan data tanpa berdasarkan kelas data tertentu. Bahkan clustering dapat dipakai untuk memberikan label pada kelas data yang belum diketahui itu. Karena itu clustering sering digolongkan sebagai metode unsupervised learning. Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas/cluster. Clustering dapat dilakukan pada data yan memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi.
Banyak algoritma clustering memerlukan fungsi jarak untuk mengukur kemiripan antar data, diperlukan juga metode untuk normalisasi bermacam atribut yang dimiliki data. Beberapa kategori algoritma clustering yang banyak dikenal adalah metode partisi dimana pemakai harus menentukan jumlah k partisi yang diinginkan lalu setiap data dites untuk dimasukkan pada salah satu partisi, metode lain yang telah lama dikenal adalah metode hierarki yang terbagi dua lagi : bottom-up yang menggabungkan cluster kecil menjadi cluster lebih besar dan top-down yang memecah cluster besar menjadi cluster yang lebih kecil. Kelemahan metode ini adalah bila bila salah satu penggabungan/pemecahan dilakukan pada tempat yang salah, tidak dapat didapatkan cluster yang optimal. Pendekatan yang banyak diambil adalah menggabungkan metode hierarki dengan metode clustering lainnya seperti yang dilakukan oleh Chameleon. Akhir-akhir ini dikembangkan juga metode berdasar kepadatan data, yaitu jumlah data yang ada di sekitar suatu data yang sudah teridentifikasi dalam suatu cluster. Bila jumlah data dalam jangkauan tertentu lebih besar dari nilai ambang batas, data-data tsb dimasukkan dalam cluster. Kelebihan metode ini adalah bentuk cluster yang lebih fleksibel. Algoritma yang terkenal adalah DBSCAN.
2. Metode DOUW
Metode DOUW merupakan suatu prosedur pendeteksian Outlier yang sekaligus dapat menghasilkan taksiran parameter robust pada Regresi Logistik Biner. Dalam metode DOUW, ada empat hal yang harus dilengkapi yaitu: penentuan g1 yang optimal, jumlah iterasi, pilihan ℇ (weight), dan pilihan level cut off (c).
Sumber data yang digunakan adalah data hasil Survei Penduduk Antar Sensus (SUPAS) Tahun 2005 di Kabupaten Sukabumi dan Provinsi Jawa Barat. Variabel yang digunakan terdiri dari: Variabel Respon (Y) adalah Jenis Pernikahan dan Variabel Regressor (Xi) adalah Agama (X1), Status Tempat Tinggal (X2), Status Bekerja (X3), Status Migran (X4), dan Lama Sekolah (X5).
Dari hasil pendeteksian outlier, pemilihan pasangan nilai ℇ dan c dapat disimpulkan, bahwa untuk nilai ℇ tertentu dan nilai c yang semakin mendekati 1, maka banyaknya pengamatan yang terdeteksi sebagai outlier semakin banyak. Sedangkan untuk nilai c tertentu dan nilai ℇ yang semakin mendekati 0, maka banyaknya pengamatan yang terdeteksi sebagai outlier semakin sedikit. Sedangkan jika dilihat dari taksiran parameter yang dihasilkan dapat disimpulkan, bahwa perubahan nilai taksiran parameter pada variabel regressor dari iterasi awal ke iterasi akhir mengalami perubahan yang sangat signifikans. Dari hasil ini memperlihatkan bahwa keberadaan outlier sangat mempengaruhi taksiran parameter yang diperoleh, khususnya pada regresi logistik biner. Taksiran parameter yang dihasilkan metode DOUW, untuk nilai pasangan ℇ dan c berapa pun pada dasarnya menghasilkan nilai yang tidak terlalu jauh berbeda, walaupun banyaknya outlier yang terdeteksi tidak sama.
Kesimpulan:
Metode DOUW merupakan metode yang paling baik digunakan untuk mendeteksi outlier-outlier, karena dapat digunakan memindai outlier sedetail - detailnya, sehingga tingkat kesalahannya sangat kecil.
1. Classification dan Clustering
Classification adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Model itu sendiri bisa berupa aturan “jika-maka”, berupa decision tree, formula matematis atau neural network.
Decision tree adalah salah satu metode classification yang paling populer karena mudah untuk diinterpretasi oleh manusia. Disini setiap percabangan menyatakan kondisi yang harus dipenuhi dan tiap ujung pohon menyatakan kelas data. Algoritma decision tree yang paling terkenal adalah C4.5, tetapi akhir-akhir ini telah dikembangkan algoritma yang mampu menangani data skala besar yang tidak dapat ditampung di main memory seperti RainForest. Metode-metode classification yang lain adalah Bayesian, neural network, genetic algorithm, fuzzy, case-based reasoning, dan k-nearest neighbor.
Proses classification biasanya dibagi menjadi dua fase : learning dan test. Pada fase learning, sebagian data yang telah diketahui kelas datanya diumpankan untuk membentuk model perkiraan. Kemudian pada fase test model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi dari model tsb. Bila akurasinya mencukupi model ini dapat dipakai untuk prediksi kelas data yang belum diketahui.
Berbeda dengan association rule mining dan classification dimana kelas data telah ditentukan sebelumnya, clustering melakukan penge-lompokan data tanpa berdasarkan kelas data tertentu. Bahkan clustering dapat dipakai untuk memberikan label pada kelas data yang belum diketahui itu. Karena itu clustering sering digolongkan sebagai metode unsupervised learning. Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas/cluster. Clustering dapat dilakukan pada data yan memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi.
Banyak algoritma clustering memerlukan fungsi jarak untuk mengukur kemiripan antar data, diperlukan juga metode untuk normalisasi bermacam atribut yang dimiliki data. Beberapa kategori algoritma clustering yang banyak dikenal adalah metode partisi dimana pemakai harus menentukan jumlah k partisi yang diinginkan lalu setiap data dites untuk dimasukkan pada salah satu partisi, metode lain yang telah lama dikenal adalah metode hierarki yang terbagi dua lagi : bottom-up yang menggabungkan cluster kecil menjadi cluster lebih besar dan top-down yang memecah cluster besar menjadi cluster yang lebih kecil. Kelemahan metode ini adalah bila bila salah satu penggabungan/pemecahan dilakukan pada tempat yang salah, tidak dapat didapatkan cluster yang optimal. Pendekatan yang banyak diambil adalah menggabungkan metode hierarki dengan metode clustering lainnya seperti yang dilakukan oleh Chameleon. Akhir-akhir ini dikembangkan juga metode berdasar kepadatan data, yaitu jumlah data yang ada di sekitar suatu data yang sudah teridentifikasi dalam suatu cluster. Bila jumlah data dalam jangkauan tertentu lebih besar dari nilai ambang batas, data-data tsb dimasukkan dalam cluster. Kelebihan metode ini adalah bentuk cluster yang lebih fleksibel. Algoritma yang terkenal adalah DBSCAN.
2. Metode DOUW
Metode DOUW merupakan suatu prosedur pendeteksian Outlier yang sekaligus dapat menghasilkan taksiran parameter robust pada Regresi Logistik Biner. Dalam metode DOUW, ada empat hal yang harus dilengkapi yaitu: penentuan g1 yang optimal, jumlah iterasi, pilihan ℇ (weight), dan pilihan level cut off (c).
Sumber data yang digunakan adalah data hasil Survei Penduduk Antar Sensus (SUPAS) Tahun 2005 di Kabupaten Sukabumi dan Provinsi Jawa Barat. Variabel yang digunakan terdiri dari: Variabel Respon (Y) adalah Jenis Pernikahan dan Variabel Regressor (Xi) adalah Agama (X1), Status Tempat Tinggal (X2), Status Bekerja (X3), Status Migran (X4), dan Lama Sekolah (X5).
Dari hasil pendeteksian outlier, pemilihan pasangan nilai ℇ dan c dapat disimpulkan, bahwa untuk nilai ℇ tertentu dan nilai c yang semakin mendekati 1, maka banyaknya pengamatan yang terdeteksi sebagai outlier semakin banyak. Sedangkan untuk nilai c tertentu dan nilai ℇ yang semakin mendekati 0, maka banyaknya pengamatan yang terdeteksi sebagai outlier semakin sedikit. Sedangkan jika dilihat dari taksiran parameter yang dihasilkan dapat disimpulkan, bahwa perubahan nilai taksiran parameter pada variabel regressor dari iterasi awal ke iterasi akhir mengalami perubahan yang sangat signifikans. Dari hasil ini memperlihatkan bahwa keberadaan outlier sangat mempengaruhi taksiran parameter yang diperoleh, khususnya pada regresi logistik biner. Taksiran parameter yang dihasilkan metode DOUW, untuk nilai pasangan ℇ dan c berapa pun pada dasarnya menghasilkan nilai yang tidak terlalu jauh berbeda, walaupun banyaknya outlier yang terdeteksi tidak sama.
Kesimpulan:
Metode DOUW merupakan metode yang paling baik digunakan untuk mendeteksi outlier-outlier, karena dapat digunakan memindai outlier sedetail - detailnya, sehingga tingkat kesalahannya sangat kecil.
No comments:
Post a Comment
silahkan masukkan komentar anda