Penerapan Algoritma K-Means Menggunakan Tools RapidMiner
K-means
Menurut Vulandari (2017:54) k-means merupakan algoritma yang menetapkan nilai-nilai cluster (k) secara random, untuk sementara nilai tersebut menjadi pusat dari cluster yang biasa disebut centroid. Kemudian menghitung jarak setiap data yang ada terhadap masing-masing centroid menggunakan rumus 9las an9n hingga ditemukan jarak yang paling dekat dari setiap data dengan centroid hingga nilai centroid tidak berubah (stabil)
Menurut Suyanto (2017:262) k-means merupakan algoritma klasterisasi yang memiliki ide dasar sederhana dengan cara meminimalkan Sum of Squared Error (SSE) antara objek-objek data dengan sejumlah k centroid.
Clustering
Menurut Suyanto (2017:260) Clustering adalah proses pengelompokan satu set objek data (into multiple groups) atau cluster sehingga benda-benda dalam suatu kelompok memiliki kesamaan yang tinggi, tetapi sangat berbeda dengan objek di kelompok lain.
Menurut Han,dkk (2012:445) clustering adalah proses mempartisi sekumpulan objek data (pengamatan) kedalam himpunan bagian yang dapat digunakan untuk mengatur hasil pencarian ke dalam kelompok dan menyajikan hasil dengan cara yang ringkas dan mudah diakses.
Clustering banyak digunakan dalam berbagai bidang dengan beragam aplikasi yang sangat penting diantaranya riset pasar, sistem perekomendasi, sistem keamanan dan mesin pencarian.RapidMiner
RapidMiner adalah salah satu software atau tools untuk pengolahan data mining. Tugas yang dilakukan oleh RapidMiner adalah berkisar dengan analisis teks, mengekstrak pola-pola dari data set yang besar dan mengkombinasikannya dengan metode statistika, kecerdasan buatan, dan database. Tujuan dari analisis teks ini adalah untuk mendapatkan informasi bermutu tertinggi dari teks yang diolah.
Oleh karena itu, tutorial kali ini akan membahas terkait panduan klasterisasi data dengan algoritma k-means menggunakan tools RapidMiner.
- Sediakan data yang akan diolah berformat
file Excel. Pada tutorial ini akan mencontohkan dengan Data Nilai sebagai
berikut.
- Buka aplikasi RapidMiner. Dilanjutkan
dengan import data yang akan diolah, yaitu dengan klik button “Add Data” yang
terdapat dalam panel Repository.
- Terdapat dua pilihan pencarian tempat
penyimanan data yang akan di-add ke dalam tools, pada tutorial ini data tersimpan
pada My Computer, maka lanjutkan dengan klik button “My Computer”.
- Lanjutkan mencari lokasi penyimpanan file
data. Apabila sudah ditemukan, maka klik button “Next”.
- Pilih cells yang akan di-import-kan, lalu klik button “Next”.
- Masih dalam proses import data, yaitu pada
tahap “format your columns”. Pada tutorial ini akan menggunakan tipe data
integer, dan pada tahap ini merupakan preview/gambaran akhir data yang akan
di-import kedalam tools. Kemudian, klik button “Next”.
- Kemudian pada tutorial ini, data akan
tersimpan di Local Repository dengan nama Data Nilai, dan klik “Finish”.
- Data berhasil di-import ke dalam tools, dan siap untuk diolah. Lalu, kembali ke tampilan awal tadi, dengan klik button “Design”.
- Setelah data berhasil di-import, maka klik
data tersebut kemudian tarik ke panel process, seperti gambar berikut.
- Selanjutnya, cari algortima k-means pada panel Operator, dengan mengetikkan “k-means”. Setelah ditemukannya algoritma k-means, lalu klik algoritma tersebut dan tarik ke panel prosess, seperti gambar berikut.
- Selanjutnya, cari culster distance
performance pada panel Operator, dengan mengetikkan “performance”. Setelah
ditemukannya culster distance performance, lalu klik algoritma tersebut
dan tarik ke panel prosess, seperti gambar berikut.
- Lalu, koneksikan Retrieve Data, Clustering
dan Performance, sebagai berikut.
- Kemudian, klik Clustering yang ada di
panel Process, lalu akan muncul Parameters Clustering (K-Means). Di dalam
parameters tersebut terdapat k, dimana k merupakan jumlah cluster yang akan
dibentuk. Pada tutorial ini menggunakan k = 3 (3 cluster). sebagai
berikut.
- Setelah itu, klik button Run Process
Locally dengan simbol segitiga seperti yang ditunjukkan pada gambar dibawah
ini, untuk mulai memproses klasterisasi data.
- Setelah data selesai dan berhasil diproses, maka diperolehlah hasil klasterisasi data seperti gambar dibawah ini.
- Berikut merupakan hasil Charts penyebaran
cluster.
- Berikut merupakan hasil Cluster Model.
- Berikut merupakan hasil Centroid Table
(Mean).
- Plot penyebaran cluster
- Statistika Cluster


Komentar
Posting Komentar