PERBANDINGAN ALGORITMA HDBSCAN DAN AGGLOMERATIVE HIERARCHICAL CLUSTERING DALAM KLASTERISASI PADA DATA YANG MENGANDUNG PENCILAN

Ghardapaty Ghaly Ghiffary; Kevin Alifviansyah; Anwar Fitrianto; Erfiani Erfiani; L.M. Risman Dwi Jumansyah

doi:10.26740/jram.v8n2.p122-135

PDF

Published: Oct 30, 2024

DOI: https://doi.org/10.26740/jram.v8n2.p122-135

Ghardapaty Ghaly Ghiffary

Departemen Statistika dan Sains Data, IPB University

Kevin Alifviansyah

a:1:{s:5:"en_US";s:14:"IPB University";}

Anwar Fitrianto

Departemen Statistika dan Sains Data, IPB University

Erfiani Erfiani

Departemen Statistika dan Sains Data, IPB University

L.M. Risman Dwi Jumansyah

Departemen Statistika dan Sains Data, IPB University

Abstract

Penelitian ini membandingkan performa algoritma HDBSCAN dan tiga metode hierarki agglomerative yaitu ward, rataan dan lengkap dalam mengelompokkan data Produk Domestik Regional Bruto Atas Dasar Harga Konstan (PDRB ADHK) Provinsi Jawa Timur Tahun 2023 yang mengandung pencilan. Data tersebut meliputi 17 variabel dengan 234 observasi. Metode ward, rata-rata dan lengkap hanya mampu menghasilkan gerombol tanpa penciri khas untuk amatan pencilan berbeda dengan metode HDBSCAN. Hasil evaluasi model HDBSCAN memiliki nilai terbaik pada semua ukuran evaluasi dan mampu mendeteksi pencilan secara otomatis. Sebaliknya, metode ward, rata-rata dan lengkap belum mampu menangani pencilan secara khusus. Berdasarkan hal tersebut, disimpulkan bahwa untuk data berpencilan, HDBSCAN lebih optimal dibanding metode hierarki agglomerative lainnya karena mampu mengelompokkan data secara konsisten serta mendeteksi dan mengelola pencilan secara efektif.

This study compares the performance of the HDBSCAN algorithm with three agglomerative hierarchical methods Ward, average, and complete linkage in clustering Gross Regional Domestic Product at Constant Prices (PDRB ADHK) data from East Java Province in 2023, which contains outliers. The dataset comprises 17 variables and 234 observations. The Ward, average, and complete linkage methods were only able to form clusters without distinguishing outlier observations, in contrast to the HDBSCAN method. Evaluation results showed that HDBSCAN performed best across all evaluation metrics and was able to automatically detect outliers. Conversely, the Ward, average, and complete linkage methods were unable to specifically handle outliers. Based on these findings, it is concluded that for data containing outliers, HDBSCAN is more optimal than other agglomerative hierarchical methods, as it consistently clusters data while effectively detecting and managing outliers.

Issue

Vol. 8 No. 2 (2024): Oktober, JRAM

Section

Applied Mathematics

This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

Article Sidebar

Main Article Content

Abstract

Article Details