Repository Institut teknologi Sumatera

Evaluasi Performa Hadoop dan Spark pada DigitalOcean menggunakan HiBench dalam Konfigurasi Pseudo Distributed

View/Open

Author
Dimas, Wahyu Saputro

Date Published
04 Jun 2024

Advisor
Tirta Setiawan, S.Pd., M.Si.
Riksa Meidy Karim, S.Kom., M.Si., M.Sc.

Subject
Student Dissertations and Theses

Publisher

Perkembangan teknologi informasi mendorong peningkatan volume data yang dihasilkan dan disimpan setiap harinya. Hal ini menuntut platform komputasi terdistribusi yang efisien dan scalable untuk memproses data dalam skala besar. Hadoop dan Spark merupakan dua platform populer yang menawarkan solusi untuk Big Data. Penelitian ini bertujuan untuk membandingkan kinerja Hadoop dan Spark dalam mengolah data besar pada platform cloud DigitalOcean dengan fokus pada beban kerja word count dan sort, yang merupakan dasar bagi banyak aplikasi data science. Word count digunakan dalam pembuatan Bag-of-Words (BoW) untuk pemrosesan teks, sedangkan sort penting dalam proses pembobotan TF-IDF. Kedua platform diuji menggunakan benchmark HiBench dengan variasi ukuran data mulai dari 100 KB hingga 15 GB. Hasil penelitian menunjukkan Spark mampu menyelesaikan tugas sort dan word count dengan waktu eksekusi yang jauh lebih cepat, khususnya pada data berukuran besar. Pada beban kerja sort, Spark unggul mulai dari ukuran data 5 GB. Pada beban kerja word count, Spark unggul mulai dari ukuran data 500 MB. Secara keseluruhan, Spark menunjukkan kinerja yang lebih baik dalam menangani data berukuran besar, sementara Hadoop lebih efisien untuk data berukuran kecil hingga menengah. Spark juga lebih efisien dalam memanfaatkan CPU dan memori, serta meminimalkan operasi disk I/O. Hal ini menjadikan Spark platform yang lebih scalable dan efisien untuk pemrosesan data besar dibandingkan Hadoop, terutama untuk tugas word count dan sort yang menjadi fondasi bagi banyak aplikasi data science. Temuan ini diharapkan dapat memberikan panduan bagi para praktisi dalam memilih platform yang tepat untuk kebutuhan pemrosesan data.

URI
https://repo.itera.ac.id/depan/submission/SB2406060011

Keyword
Big data Hadoop HiBench Komputasi awan Pemrosesan terdistribusi paralel Pseudo distributed Spark