PERBANDINGAN ALGORITMA HDBSCAN DAN AGGLOMERATIVE HIERARCHICAL CLUSTERING DALAM KLASTERISASI PADA DATA YANG MENGANDUNG PENCILAN

Main Article Content

Ghardapaty Ghaly Ghiffary
Kevin Alifviansyah
Anwar Fitrianto
Erfiani Erfiani
L.M. Risman Dwi Jumansyah

Abstract

Penelitian ini membandingkan performa algoritma HDBSCAN dan tiga metode hierarki agglomerative yaitu ward, rataan dan lengkap dalam mengelompokkan data Produk Domestik Regional Bruto Atas Dasar Harga Konstan (PDRB ADHK) Provinsi Jawa Timur Tahun 2023 yang mengandung pencilan. Data tersebut meliputi 17 variabel dengan 234 observasi. Metode ward, rata-rata dan lengkap hanya mampu menghasilkan gerombol tanpa penciri khas untuk amatan pencilan berbeda dengan metode HDBSCAN. Hasil evaluasi model HDBSCAN memiliki nilai terbaik pada semua ukuran evaluasi dan mampu mendeteksi pencilan secara otomatis. Sebaliknya, metode ward, rata-rata dan lengkap belum mampu menangani pencilan secara khusus. Berdasarkan hal tersebut, disimpulkan bahwa untuk data berpencilan, HDBSCAN lebih optimal dibanding metode hierarki agglomerative lainnya karena mampu mengelompokkan data secara konsisten serta mendeteksi dan mengelola pencilan secara efektif.


 


This study compares the performance of the HDBSCAN algorithm with three agglomerative hierarchical methods Ward, average, and complete linkage in clustering Gross Regional Domestic Product at Constant Prices (PDRB ADHK) data from East Java Province in 2023, which contains outliers. The dataset comprises 17 variables and 234 observations. The Ward, average, and complete linkage methods were only able to form clusters without distinguishing outlier observations, in contrast to the HDBSCAN method. Evaluation results showed that HDBSCAN performed best across all evaluation metrics and was able to automatically detect outliers. Conversely, the Ward, average, and complete linkage methods were unable to specifically handle outliers. Based on these findings, it is concluded that for data containing outliers, HDBSCAN is more optimal than other agglomerative hierarchical methods, as it consistently clusters data while effectively detecting and managing outliers.

Article Details

Section
Applied Mathematics