Η περισσότερη AI μαθαίνει από επισημασμένα παραδείγματα: «αυτό είναι γάτα», «αυτή η πρόταση σημαίνει Χ». Το reinforcement learning λειτουργεί διαφορετικά. Η AI δοκιμάζει πράγματα, παίρνει ανατροφοδότηση — ανταμοιβή ή ποινή — και σταδιακά μαθαίνει ποιες ενέργειες οδηγούν σε καλύτερα αποτελέσματα. Σκέψου το σαν να διδάσκεις ένα σκυλί: δεν εξηγείς τους κανόνες του fetch· ανταμείβεις τη συμπεριφορά που θέλεις και αγνοείς ή διορθώνεις τα υπόλοιπα. Με πολλές δοκιμές, το σκυλί το καταλαβαίνει. Το RL κάνει κάτι παρόμοιο, αλλά με λογισμικό.
Το κλασικό παράδειγμα είναι ένα παιχνίδι. Ένας RL agent παίζει χιλιάδες γύρους, κερδίζει μερικούς και χάνει μερικούς, και με τον χρόνο ανακαλύπτει στρατηγικές που μεγιστοποιούν το σκορ του. Το AlphaGo, που νίκησε παγκόσμιους πρωταθλητές στο Go, έμαθε σε μεγάλο βαθμό μέσω reinforcement learning — παίζοντας εναντίον του εαυτού του και βελτιώνοντας από τα αποτελέσματα. Η ίδια ιδέα ισχύει πέρα από παιχνίδια: ρομπότ που μαθαίνουν να περπατούν, αλγόριθμοι συναλλαγών που μαθαίνουν να βελτιστοποιούν αποδόσεις, ή chatbots που μαθαίνουν ποιες απαντήσεις προτιμούν οι άνθρωποι.
Το RL χρησιμοποιείται όλο και περισσότερο για να βελτιώσει γλωσσικά μοντέλα. Ένα μοντέλο μπορεί να παράγει πολλές πιθανές απαντήσεις· οι άνθρωποι (ή ένα άλλο μοντέλο) τις κατατάσσουν· το μοντέλο παίρνει «ανταμοιβή» για την παραγωγή απαντήσεων που κατατάσσονται υψηλότερα. Αυτή η διαδικασία — συχνά ονομαζόμενη RLHF (reinforcement learning from human feedback) — βοηθά να ευθυγραμμιστούν τα chatbots ώστε να είναι πιο χρήσιμα, αβλαβή και ειλικρινή. Το μοντέλο δεν πληροφορείται τους κανόνες εκ των προτέρων· τους μαθαίνει από την ανατροφοδότηση.
Το trade-off: το RL μπορεί να είναι αργό και απαιτητικό σε δεδομένα, αφού το μοντέλο χρειάζεται πολλές δοκιμές για να μάθει. Κινδυνεύει επίσης από reward hacking — την εύρεση συντομεύσεων που μεγιστοποιούν το σκορ χωρίς να λύνουν πραγματικά το πρόβλημα. Παρόλα αυτά, για εργασίες όπου μπορείς να ορίσεις «καλά» και «κακά» αποτελέσματα, το RL είναι ένας ισχυρός τρόπος να εκπαιδεύσεις συστήματα που βελτιώνονται μέσω πρακτικής.