Labbé, É., Pellegrini, T., & Pinquier, J. (2024). CoNeTTE: An efficient Audio Captioning system leveraging multiple datasets with Task Embedding. IEEE/ACM Transactions on Audio, Speech, and Language Processing. https://doi.org/10.1109/TASLP.2024.3430813