Τα benchmarks είναι σταθερά σύνολα ερωτήσεων, γρίφων ή εργασιών στα οποία δοκιμάζονται πολλά μοντέλα AI, ώστε τα αποτελέσματά τους να συγκρίνονται με κοινό μέτρο. Τίτλοι όπως «κορυφή του leaderboard» ή «νικά το GPT στο MMLU» αναφέρονται σε βαθμολογίες benchmarks.
Διαφορετικά benchmarks μετρούν διαφορετικές δεξιότητες: γνωστικό περιεχόμενο, συλλογιστική και μαθηματικά, προγραμματισμό, τήρηση οδηγιών. Γνωστά παραδείγματα είναι το MMLU (γενικές γνώσεις), το HumanEval (γράψιμο κώδικα) και το GSM8K (μαθηματικά δημοτικού). Τα κοινά τεστ δημιουργούν κοινή γλώσσα για την πρόοδο και δίνουν στην έρευνα συγκεκριμένους στόχους.
Τα όριά τους μετράνε εξίσου: τα μοντέλα μπορούν να βελτιστοποιηθούν ώστε να «περάσουν» ένα συγκεκριμένο benchmark χωρίς να βελτιωθεί η υποκείμενη δεξιότητα, και ένας υψηλός βαθμός δεν εγγυάται χρήσιμη, ασφαλή ή αξιόπιστη συμπεριφορά στην πραγματική χρήση. Τα benchmarks είναι σημείο εκκίνησης για σύγκριση, όχι εγγύηση ποιότητας.