RL (Reinforcement Learning)

Μέθοδος εκπαίδευσης όπου μια AI μαθαίνει εκτελώντας ενέργειες και λαμβάνοντας ανατροφοδότηση — ανταμοιβές για καλές επιλογές, ποινές για κακές — μέχρι να καταλάβει πώς να επιτύχει έναν στόχο.

Το reinforcement learning εκπαιδεύει μια AI μέσω δοκιμής και σφάλματος: το σύστημα εκτελεί ενέργειες, λαμβάνει ανταμοιβές ή ποινές, και σταδιακά μαθαίνει ποιες επιλογές οδηγούν σε καλύτερα αποτελέσματα — ανακαλύπτοντας στρατηγική από την ανατροφοδότηση αντί από επισημασμένα παραδείγματα.

Το AlphaGo έμαθε να νικά παγκόσμιους πρωταθλητές στο Go κυρίως παίζοντας εναντίον του εαυτού του· η ίδια προσέγγιση εκπαιδεύει ρομπότ να περπατούν και συστήματα συναλλαγών να βελτιστοποιούν αποδόσεις. Στα γλωσσικά μοντέλα, το RLHF (reinforcement learning from human feedback) ανταμείβει τις απαντήσεις που οι άνθρωποι κατατάσσουν υψηλότερα, ευθυγραμμίζοντας τα chatbots προς χρήσιμη, αβλαβή και ειλικρινή συμπεριφορά.

Τα trade-offs: το RL είναι αργό και απαιτητικό σε δεδομένα, αφού το μοντέλο χρειάζεται πολλές δοκιμές για να μάθει, και κινδυνεύει από reward hacking — μεγιστοποίηση του σκορ χωρίς πραγματική λύση του προβλήματος. Αποδίδει εκεί όπου τα «καλά» και τα «κακά» αποτελέσματα ορίζονται καθαρά.