IMPLEMENTASI ARSITEKTUR UNSUPERVISED REINFORCEMENT WITH AUXILIARY LEARNING (UNREAL) UNTUK MENGEMBANGKAN AGEN CERDAS (STUDI KASUS: NES TETRIS)
Video game memiliki peran penting dalam pengembangan kecerdasan buatan (AI) dan pembelajaran mesin (ML). Video game Tetris telah sering digunakan untuk mempelajari pengambilan keputusan berurutan, yang merupakan topik utama dalam ML. Tetris menghadirkan tantangan komputasional yang signifikan dari ruang keadaannya yang besar dan kebutuhan strategi jangka panjang. Reinforcement learning (RL) menyediakan kerangka kerja yang dapat mengatasi masalah tersebut, terutama integrasinya dengan deep learning (DRL) yang terbukti dapat mempelajari data berdimensi tinggi seperti piksel. Namun, karakteristik reward Tetris yang sparse (jarang) dan delayed (tertunda) dapat memperlambat proses pelatihan agen. Mengatasi masalah tersebut, arsitektur UNREAL yang menggunakan pendekatan auxiliary task telah terbukti berhasil dalam meningkatkan kinerja pembelajaran agen pada lingkungan sparse-reward. Penelitian ini bertujuan mengimplementasikan arsitektur UNREAL dengan tambahan desain reward heuristik untuk mengembangkan agen cerdas pada lingkungan NES Tetris. Kinerja agen dievaluasi menggunakan BPCI (bootstrap percentile confidence interval) dan IQM (interquartile mean). Setelah dilatih selama 25 juta langkah, kinerja terbaik dicapai pada level 19, dengan agen berhasil menghapus 11 baris dari 30 percobaan. Analisis menunjukkan bahwa agen menerapkan strategi berbeda di beberapa level pengujian akibat policy suboptimal yang dipengaruhi oleh perbedaan lingkungan. Kinerja agen cenderung lebih buruk di level yang lebih rendah karena overfitting terhadap data pelatihan yang hanya berasal dari level 19. Setelah dilakukan transfer learning, kinerja agen pada parameter tetriminos naik sebesar 51.31%, parameter scaled rewards naik sebesar 52.81%, dan parameter panjang episode naik sebesar 48.58%. Temuan ini membuktikan bahwa arsitektur UNREAL dapat menghasilkan agen dengan kemampuan generalisasi yang baik terutama ketika diberikan data yang lebih beragam dan representatif.
URI
https://repo.itera.ac.id/depan/submission/SB2503180006
Keyword
Agen Cerdas UNREAL Interquartile Mean (IQM) Bootsrap Percentile Confidence Intervals (BPCI) Tetris Intelligent Agent