Iashin, V., & Rahtu, E. (2020). A Better Use of Audio-Visual Cues: Dense Video Captioning with Bi-modal Transformer. British Machine Vision Conference