Mistral Pro a été laborieux, mais Claude y est arrivé sans que je tienne la main !
Je crois que mon benchmark programmation pour les IA est "écrivez moi un script qui extrait de HAL le nombre de publications de Verimag entre 2019 et 2024 et parmi celles-ci celles avec un coauteur ou une coautrice à l'étranger".
Ça l'air bête mais purée ça envoie dans les choux Mistral AI pro.
L'autre benchmark est "Qui est David Monniaux?" (on me dit enseignant-chercheur à Saclay, Marseille, Lyon…).