Model Cross-Attention Video Vision Transformer untuk Mendeskripsikan Video
Mendeskripsikan video otomatis merupakan tugas penting dalam pemahaman video, namun masih menghadapi tantangan dalam efisiensi komputasi dan kompleksitas arsitektur. Video Vision Transformer (ViViT) menunjukkan performa unggul dalam menangkap informasi spasial-temporal, tetapi pendekatannya memerlukan daya komputasi tinggi karena penerapan self-attention pada seluruh token video. Penelitian ini mengusulkan arsitektur Cross-Attention Video Vision Transformer yang lebih efisien, dengan menekan kompleksitas pada self-attention dan tanpa bergantung pada ekstraksi fitur dari pre-trained CNN, sehingga memungkinkan pelatihan secara end-to-end. Tugas video captioning dipilih sebagai benchmark karena menuntut pemahaman spasial-temporal yang mendalam serta kemampuan generatif. Model yang diusulkan dibandingkan dengan empat varian ViViT lainnya menggunakan metrik evaluasi seperti Sequence Accuracy, CIDEr, dan analisis kompleksitas komputasi. Serta melakukan studi ablasi untuk menganalisis pengaruh berbagai bagian arsitektur model. Hasil eksperimen menunjukkan bahwa arsitektur ini mampu menghasilkan deskripsi video yang relevan, dengan kecepatan inferensi lebih tinggi dan performa yang sebanding dengan varian ViViT lainnya.
URI
https://repo.itera.ac.id/depan/submission/SB2509040022
Keyword
Cross-Attention Mendeskripsikan Video Efisiensi Komputasi Pemodelan Spasial-Temporal Video Vision Transformer Video Captioning Spatial-Temporal Modeling Computational Efficiency