Penerapan Algoritma K-Means Menggunakan Tools RapidMiner

Penerapan Algoritma K-Means Menggunakan Tools RapidMiner 

K-means

Menurut Vulandari (2017:54) k-means merupakan algoritma yang menetapkan nilai-nilai cluster (k) secara random, untuk sementara nilai tersebut menjadi pusat dari cluster yang biasa disebut centroid. Kemudian menghitung jarak setiap data yang ada terhadap masing-masing centroid menggunakan rumus 9las an9n hingga ditemukan jarak yang paling dekat dari setiap data dengan centroid hingga nilai centroid tidak berubah (stabil) 

Menurut Suyanto (2017:262) k-means merupakan algoritma klasterisasi yang memiliki ide dasar sederhana dengan cara meminimalkan Sum of Squared Error (SSE) antara objek-objek data dengan sejumlah k centroid.  

Clustering 

Menurut Suyanto (2017:260) Clustering adalah proses pengelompokan satu set objek data (into multiple groups) atau cluster sehingga benda-benda dalam suatu kelompok memiliki kesamaan yang tinggi, tetapi sangat berbeda dengan objek di kelompok lain.  

Menurut Han,dkk (2012:445) clustering adalah proses mempartisi sekumpulan objek data (pengamatan) kedalam himpunan bagian yang dapat digunakan untuk mengatur hasil pencarian ke dalam kelompok dan menyajikan hasil dengan cara yang ringkas dan mudah diakses. 
Clustering banyak digunakan dalam berbagai bidang dengan beragam aplikasi yang sangat penting diantaranya riset pasar, sistem perekomendasi, sistem keamanan dan mesin pencarian. 

RapidMiner

RapidMiner adalah salah satu software atau tools untuk pengolahan data mining. Tugas yang dilakukan oleh RapidMiner adalah berkisar dengan analisis teks, mengekstrak pola-pola dari data set yang besar dan mengkombinasikannya dengan metode statistika, kecerdasan buatan, dan database. Tujuan dari analisis teks ini adalah untuk mendapatkan informasi bermutu tertinggi dari teks yang diolah.

Oleh karena itu, tutorial kali ini akan membahas terkait panduan klasterisasi data dengan algoritma k-means menggunakan tools RapidMiner.

 

  1. Sediakan data yang akan diolah berformat file Excel. Pada tutorial ini akan mencontohkan dengan Data Nilai sebagai berikut.

  2. Buka aplikasi RapidMiner. Dilanjutkan dengan import data yang akan diolah, yaitu dengan klik button “Add Data” yang terdapat dalam panel Repository.

  3. Terdapat dua pilihan pencarian tempat penyimanan data yang akan di-add ke dalam tools, pada tutorial ini data tersimpan pada My Computer, maka lanjutkan dengan klik button “My Computer”. 

  4. Lanjutkan mencari lokasi penyimpanan file data. Apabila sudah ditemukan, maka klik button “Next”.


  5. Pilih cells yang akan di-import-kan, lalu klik button “Next”.


  6. Masih dalam proses import data, yaitu pada tahap “format your columns”. Pada tutorial ini akan menggunakan tipe data integer, dan pada tahap ini merupakan preview/gambaran akhir data yang akan di-import kedalam tools. Kemudian, klik button “Next”.


  7. Kemudian pada tutorial ini, data akan tersimpan di Local Repository dengan nama Data Nilai, dan klik “Finish”.


  8. Data berhasil di-import ke dalam tools, dan siap untuk diolah. Lalu, kembali ke tampilan awal tadi, dengan klik button “Design”

    .
  9. Setelah data berhasil di-import, maka klik data tersebut kemudian tarik ke panel process, seperti gambar berikut. 


  10. Selanjutnya, cari algortima k-means pada panel Operator, dengan mengetikkan “k-means”. Setelah ditemukannya algoritma k-means, lalu klik algoritma tersebut dan tarik ke panel prosess, seperti gambar berikut.


  11. Selanjutnya, cari culster distance performance pada panel Operator, dengan mengetikkan “performance”. Setelah ditemukannya culster distance performance, lalu klik algoritma tersebut dan tarik ke panel prosess, seperti gambar berikut.


  12. Lalu, koneksikan Retrieve Data, Clustering dan Performance, sebagai berikut.


  13. Kemudian, klik Clustering yang ada di panel Process, lalu akan muncul Parameters Clustering (K-Means). Di dalam parameters tersebut terdapat k, dimana k merupakan jumlah cluster yang akan dibentuk. Pada tutorial ini menggunakan k = 3 (3 cluster). sebagai berikut.


  14. Setelah itu, klik button Run Process Locally dengan simbol segitiga seperti yang ditunjukkan pada gambar dibawah ini, untuk mulai memproses klasterisasi data.


  15. Setelah data selesai dan berhasil diproses, maka diperolehlah hasil klasterisasi data seperti gambar dibawah ini.

  16. Berikut merupakan hasil Charts penyebaran cluster.


  17. Berikut merupakan hasil Cluster Model.


  18. Berikut merupakan hasil Centroid Table (Mean).


  19. Plot penyebaran cluster


  20. Statistika Cluster




Komentar