RL (Reinforcement Learning) — Γλωσσάρι

Μέθοδος εκπαίδευσης όπου μια τεχνητή νοημοσύνη μαθαίνει εκτελώντας ενέργειες και λαμβάνοντας ανατροφοδότηση — ανταμοιβές για καλές επιλογές, ποινές για κακές — μέχρι να καταλάβει πώς να επιτύχει έναν στόχο.

Τι είναι το reinforcement learning;

Το reinforcement learning εκπαιδεύει μια τεχνητή νοημοσύνη μέσω δοκιμής και σφάλματος: το σύστημα εκτελεί ενέργειες, λαμβάνει ανταμοιβές ή ποινές, και σταδιακά μαθαίνει ποιες επιλογές οδηγούν σε καλύτερα αποτελέσματα — ανακαλύπτοντας στρατηγική από την ανατροφοδότηση αντί από επισημασμένα παραδείγματα.

Το AlphaGo έμαθε να νικά παγκόσμιους πρωταθλητές στο Go κυρίως παίζοντας εναντίον του εαυτού του· η ίδια προσέγγιση εκπαιδεύει ρομπότ να περπατούν και συστήματα συναλλαγών να βελτιστοποιούν αποδόσεις. Στα γλωσσικά μοντέλα, το RLHF (reinforcement learning from human feedback) ανταμείβει τις απαντήσεις που οι άνθρωποι κατατάσσουν υψηλότερα, ευθυγραμμίζοντας τα chatbots προς χρήσιμη, αβλαβή και ειλικρινή συμπεριφορά.

Ποια είναι τα trade-offs του reinforcement learning;

Τα trade-offs: το RL είναι αργό και απαιτητικό σε δεδομένα, αφού το μοντέλο χρειάζεται πολλές δοκιμές για να μάθει, και κινδυνεύει από reward hacking — μεγιστοποίηση του σκορ χωρίς πραγματική λύση του προβλήματος. Αποδίδει εκεί όπου τα «καλά» και τα «κακά» αποτελέσματα ορίζονται καθαρά.