Koc, V. (2025). Tiny QA Benchmark++: Ultra-Lightweight, Synthetic Multilingual Dataset Generation & Smoke-Tests for Continuous LLM Evaluation. https://arxiv.org/abs/2505.12058