Model Cross-Attention Video Vision Transformer untuk Mendeskripsikan Video
Mendeskripsikan video otomatis merupakan tugas penting dalam pemahaman video, namun masih menghadapi tantangan dalam efisiensi komputasi dan kompleksitas arsitektur. \textit{Video Vision Transformer} (ViViT) menunjukkan performa unggul dalam menangkap informasi spasial-temporal, tetapi pendekatannya memerlukan daya komputasi tinggi karena penerapan \textit{self-attention} pada seluruh token video. Penelitian ini mengusulkan arsitektur \textit{Cross-Attention Video Vision Transformer} yang lebih efisien, dengan menekan kompleksitas pada \textit{self-attention} dan tanpa bergantung pada ekstraksi fitur dari pre-trained CNN, sehingga memungkinkan pelatihan secara \textit{end-to-end}. Tugas \textit{video captioning} dipilih sebagai benchmark karena menuntut pemahaman spasial-temporal yang mendalam serta kemampuan generatif. Model yang diusulkan dibandingkan dengan empat varian ViViT lainnya menggunakan metrik evaluasi seperti \textit{Sequence Accuracy}, CIDEr, dan analisis kompleksitas komputasi. Serta melakukan studi ablasi untuk menganalisis pengaruh berbagai bagian arsitektur model. Hasil eksperimen menunjukkan bahwa arsitektur ini mampu menghasilkan deskripsi video yang relevan, dengan kecepatan inferensi lebih tinggi dan performa yang sebanding dengan varian ViViT lainnya.
URI
https://repo.itera.ac.id/depan/submission/SB2508190022
Keyword