Logika Standar

Sunday, 25 March 2012

DATA MINING 3

Nominal Atribut        
Nominal Atribut adalah atribut yang digunakan untuk mengklasifikasikan informasi/data. Nilai dari atribut nominal adalah simbol atau nama-nama benda. Nilai-nilai ini tidak memiliki makna (arti).
Contoh : warna rambut, pekerjaan, status pernikahan,
1        Tapi, nomor tersebut tidak dimaksudkan untuk menjadi digunakan secara kuantitatif.
2        Artinya, matematika operasi pada nilai-nilai atribut nominal tidak berarti.
3        Tidak masuk akal untuk mengurangi satu pelanggan ID dari yang lain.
4        Tidak masuk akal untuk mencari mean (rata-rata) nilai atau median (tengah) nilai untuk sebuah atribut, kecuali mode (paling umum) nilai.

Biner Atribut
Biner tribut adalah atribut dengan hanya dua kategori atau menyatakan: 0 atau 1. 0 biasanya berarti bahwa atribut tidak hadir, dan 1 berarti bahwa itu hadir. Atribut biner terbagi atas atribut symmetris dan  asymmetris. Berikut adalah contoh biner atribut:
a)      Hidup atau Mati manusia. Hidup dilambangkan dengan 1 dan Mati dilambangkan dengan 0. =>      symmetris atribut
b)     Jenis kelamin (Laki-laki dan Perempuan) => asymmetris atribut
c)      Jaringan: Connect dan disconnect
d)     Tombol On dan Off pada saklar lampu.
e)      Ungkapan persetujuan atau penolakan.


 Ordinal Atribut
Atribut Ordinal adalah atribut dengan kemungkinan nilai-nilai yang memiliki perintah yang bermakna atau peringkat di antara mereka, tapi besarnya antara nilai-nilai berturut-turut tidak diketahui.
a)      Kategori Usia (Balita, Anak-anak,Remaja,Dewasa,Tua).
b)     Ukuran(Besar,Kecil,Sedang).
c)      Jarak (cm,m,dm,km,..dst).
d)     Kelas(1,2,3…).
e)      Hari (Senin,Selasa,Rabu…. Minggu).
 
Numeric Atribut
Sebuah
 atribut numerik adalah kuantitatif, yaitu, adalah kuantitas yang terukur, yang diwakil dalam integer
 atau nilai nyata.
a)      Temperatur Suhu (0’,10’,50’…dst), 0’ bukan berarti tidak ada suhu saat itu.
b)     Garis Perhitungan matematika (-3,-2,-1,0,1,2,3), kekiri nilainya minus(-) kekanan nilainya plus(+).
c)      Tahun (Sebelum dan Sesudah Masehi), sebelum masehi tahun dihitung mundur dan sesudah masehi di hitung seperti sekarang ini.
d)     Ukuran Plus-Minus Pada Kaca Mata.
e)      Koordinat titik suatu wilayah {(0,0),(0,1),(0,2)…dst}.

Sunday, 18 March 2012

Teknik mengidentifikasi outlier-outlier

Metode - metode untuk mendeteksi Outlier - outlier.

1. Classification dan Clustering
         Classification adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Model itu sendiri bisa berupa aturan “jika-maka”, berupa decision tree, formula matematis atau neural network.
          Decision tree adalah salah satu metode classification yang paling populer karena mudah untuk diinterpretasi oleh manusia. Disini setiap percabangan menyatakan kondisi yang harus dipenuhi dan tiap ujung pohon menyatakan kelas data. Algoritma decision tree yang paling terkenal adalah C4.5, tetapi akhir-akhir ini telah dikembangkan algoritma yang mampu menangani data skala besar yang tidak dapat ditampung di main memory seperti RainForest. Metode-metode classification yang lain adalah Bayesian, neural network, genetic algorithm, fuzzy, case-based reasoning, dan k-nearest neighbor.
           Proses classification biasanya dibagi menjadi dua fase : learning dan test. Pada fase learning, sebagian data yang telah diketahui kelas datanya diumpankan untuk membentuk model perkiraan. Kemudian pada fase test model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi dari model tsb. Bila akurasinya mencukupi model ini dapat dipakai untuk prediksi kelas data yang belum diketahui.
           Berbeda dengan association rule mining dan classification dimana kelas data telah ditentukan sebelumnya, clustering melakukan penge-lompokan data tanpa berdasarkan kelas data tertentu. Bahkan clustering dapat dipakai untuk memberikan label pada kelas data yang belum diketahui itu. Karena itu clustering sering digolongkan sebagai metode unsupervised learning. Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas/cluster. Clustering dapat dilakukan pada data yan memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi.
         Banyak algoritma clustering memerlukan fungsi jarak untuk mengukur kemiripan antar data, diperlukan juga metode untuk normalisasi bermacam atribut yang dimiliki data. Beberapa kategori algoritma clustering yang banyak dikenal adalah metode partisi dimana pemakai harus menentukan jumlah k partisi yang diinginkan lalu setiap data dites untuk dimasukkan pada salah satu partisi, metode lain yang telah lama dikenal adalah metode hierarki yang terbagi dua lagi : bottom-up yang menggabungkan cluster kecil menjadi cluster lebih besar dan top-down yang memecah cluster besar menjadi cluster yang lebih kecil. Kelemahan metode ini adalah bila bila salah satu penggabungan/pemecahan dilakukan pada tempat yang salah, tidak dapat didapatkan cluster yang optimal. Pendekatan yang banyak diambil adalah menggabungkan metode hierarki dengan metode clustering lainnya seperti yang dilakukan oleh Chameleon. Akhir-akhir ini dikembangkan juga metode berdasar kepadatan data, yaitu jumlah data yang ada di sekitar suatu data yang sudah teridentifikasi dalam suatu cluster. Bila jumlah data dalam jangkauan tertentu lebih besar dari nilai ambang batas, data-data tsb dimasukkan dalam cluster. Kelebihan metode ini adalah bentuk cluster yang lebih fleksibel. Algoritma yang terkenal adalah DBSCAN.

2. Metode DOUW
            Metode DOUW merupakan suatu prosedur pendeteksian Outlier yang sekaligus dapat menghasilkan taksiran parameter robust pada Regresi Logistik Biner. Dalam metode DOUW, ada empat hal yang harus dilengkapi yaitu: penentuan g1 yang optimal, jumlah iterasi, pilihan ℇ (weight), dan pilihan level cut off (c).
            Sumber data yang digunakan adalah data hasil Survei Penduduk Antar Sensus (SUPAS) Tahun 2005 di Kabupaten Sukabumi dan Provinsi Jawa Barat. Variabel yang digunakan terdiri dari: Variabel Respon (Y) adalah Jenis Pernikahan dan Variabel Regressor (Xi) adalah Agama (X1), Status Tempat Tinggal (X2), Status Bekerja (X3), Status Migran (X4), dan Lama Sekolah (X5).
           Dari hasil pendeteksian outlier, pemilihan pasangan nilai ℇ dan c dapat disimpulkan, bahwa untuk nilai ℇ tertentu dan nilai c yang semakin mendekati 1, maka banyaknya pengamatan yang terdeteksi sebagai outlier semakin banyak. Sedangkan untuk nilai c tertentu dan nilai ℇ yang semakin mendekati 0, maka banyaknya pengamatan yang terdeteksi sebagai outlier semakin sedikit. Sedangkan jika dilihat dari taksiran parameter yang dihasilkan dapat disimpulkan, bahwa perubahan nilai taksiran parameter pada variabel regressor dari iterasi awal ke iterasi akhir mengalami perubahan yang sangat signifikans. Dari hasil ini memperlihatkan bahwa keberadaan outlier sangat mempengaruhi taksiran parameter yang diperoleh, khususnya pada regresi logistik biner. Taksiran parameter yang dihasilkan metode DOUW, untuk nilai pasangan ℇ dan c berapa pun pada dasarnya menghasilkan nilai yang tidak terlalu jauh berbeda, walaupun banyaknya outlier yang terdeteksi tidak sama.

Kesimpulan:
Metode DOUW merupakan metode yang paling baik digunakan untuk mendeteksi outlier-outlier, karena dapat digunakan memindai outlier sedetail - detailnya, sehingga tingkat kesalahannya sangat kecil.

Sunday, 11 March 2012

DATA MINING

           Data Mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual. Patut diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Karena itu Data Mining sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan database. Data mining adalah proses menerapkan metode ini untuk data dengan maksud untuk mengungkap pola-pola tersembunyi. Dengan arti lain Data mining adalah proses untuk penggalian pola-pola dari data. Data mining menjadi alat yang semakin penting untuk mengubah data tersebut menjadi informasi. Hal ini sering digunakan dalam berbagai praktek profil, seperti pemasaran, pengawasan, penipuan deteksi dan penemuan ilmiah.

Contoh Penerapan Data Mining Dalam kehidupan Sehari-hari

           Kasman seorang pedagang Aksesories, buku bacaan, majalah, dan stiker. Ia mendatangi pasar yang berbeda setiap harinya, dilangkah awal ia menjual, barang yang ia dagangkan dipasar-pasar adalah sama banyaknya dan macamnya. Berselang 3 bulan ia mendapat beberapa pengalaman yang kemudian dijadikan catatan (data) dari karakteristik masing – masing pasar tempat ia berdagang, seperti penghasilan ditiap-tiap pasar berbeda-beda.

1.   Pasar ladongi.
Dari segi penghasilan dipasar ladongi ia mendapat pembeli rata-rata Rp. 400.000 per hari. Dan barang – barang yang banyak terjualpun yaitu : gelang (aksesoris), buku.
2.   
2. Pasar poli-polia.
Dari segi penghasilan dipasar ladongi ia mendapat pembeli rata-rata Rp. 500.000 per hari. Dan barang – barang yang banyak terjualpun yaitu : stiker, buku, dan majalah.
3. 
3. Pasar penanggo.
Dari segi penghasilan dipasar penanggo ia mendapat pembeli rata-rata Rp. 700.000 per hari. Dan barang – barang yang banyak terjualpun yaitu : Aksesories, buku bacaan, majalah, dan stiker.
4.  
4.  Pasar lambandia.
Dari segi penghasilan dipasar lambandia ia mendapat pembeli rata-rata Rp. 100.000 per hari. Dan barang – barang yang kadang terjual yaitu gelang.
5.   
5.  Pasar gunung Jaya.
Dari segi penghasilan dipasar gunung jaya ia mendapat pembeli rata-rata Rp. 400.000 per hari. Dan barang – barang yang kadang terjualpun yaitu : Aksesories, buku bacaan, majalah, dan stiker.
6.   
6. Pasar atula.
Dari segi penghasilan dipasar atula ia mendapat pembeli rata-rata Rp. 500.000 per hari. Dan barang – barang yang kadang terjualpun yaitu : buku bacaan, majalah, dan stiker.
7.    
7. Pasar andowengga.
       Dari segi penghasilan dipasar andowengga ia mendapat pembeli rata-rata Rp. 500.000 per hari. Dan barang – barang yang kadang terjualpun yaitu : Aksesories, dan stiker.

        Dari data yang didapat kasman, kini ia membawa barang ke pasar sesuai apa yang banyak laku terjual saja,dan selain data penghasilan, ia juga mendapat beberapa informasi bahwa penjualan pakaian lebih banyak diminati di pasar gunung jaya dan lambandia. Kemudian kasman menambah barang dagangannya berupa pakaian untuk penjualan di pasar lambandia dan gunung jaya. Ia pun sudah tidak menjual aksesoris, buku, majalah untuk pasar lambandia.

          Melihat keramaian dan larisnya dagangan di pasar penanggo, Kasman membeli sebuah ruko untuk dijadikan took di depan pasar tersebut.