Cruz, A. F., Hardt, M., & Mendler-Dünner, C. (2024). Evaluating language models as risk scores. The Thirty-eighth Conference on Neural Information Processing Systems Datasets and Benchmarks Track. https://openreview.net/forum?id=qrZxL3Bto9