Όταν λένε ότι ένα μοντέλο έχει «7 δισεκατομμύρια παράμετρους» ή «70 δισεκατομμύρια weights», μιλούν για το ίδιο πράγμα: τους εσωτερικούς αριθμούς που ορίζουν πώς συμπεριφέρεται το μοντέλο. Αυτά τα weights είναι σαν κουμπιά σε ένα τεράστιο ταμπλό ελέγχου. Κατά την εκπαίδευση, το μοντέλο τα προσαρμόζει — ανεβάζει μερικά, κατεβάζει άλλα — μέχρι να γίνει καλό στην πρόβλεψη του επόμενου token, στην ταξινόμηση εικόνων ή σε ό,τι δουλειά μαθαίνει.
Σκέψου το σαν μια συνταγή που βελτιώνεται με την πρακτική. Ένας σεφ δεν ακολουθεί απλώς σταθερές οδηγίες· μαθαίνει ότι μια πρέζα παραπάνω αλάτι δουλεύει καλύτερα για αυτό το πιάτο, ή ότι αυτό το φούρνο τρέχει ζεστά. Τα weights είναι το αντίστοιχο του μοντέλου: καταγράφουν αμέτρητες λεπτές προσαρμογές που έμαθαν από δισεκατομμύρια παραδείγματα. Το μοντέλο δεν αποθηκεύει γεγονότα σαν βάση δεδομένων — κωδικοποιεί patterns σε αυτούς τους αριθμούς.
Το μέγεθος μετράει. Περισσότερα weights γενικά σημαίνουν μεγαλύτερη ικανότητα να μαθαίνει πολύπλοκα patterns, αλλά και περισσότερη υπολογιστική ισχύ για εκπαίδευση και εκτέλεση. Ένα μοντέλο 7B μπορεί να τρέξει σε laptop· ένα 70B χρειάζεται σοβαρό hardware. Το fine-tuning — η διδασκαλία νέων δεξιοτήτων σε ένα προεκπαιδευμένο μοντέλο — λειτουργεί ενημερώνοντας ένα υποσύνολο αυτών των weights αντί να ξεκινά από το μηδέν.
Τα weights είναι αυτό που παίρνεις όταν κατεβάζεις ένα αρχείο μοντέλου. Είναι ο «εγκέφαλος» — η εκπαιδευμένη γνώση — ξεχωριστά από την αρχιτεκτονική (τη δομή που ορίζει πώς συνδέονται αυτά τα weights). Όταν ένα μοντέλο παραληρεί ή κάνει λάθη, συχνά είναι επειδή τα weights έχουν κωδικοποιήσει ένα pattern που δεν ταιριάζει ακριβώς στην κατάσταση. Η κατανόηση των weights βοηθά να εξηγηθεί γιατί το μέγεθος μοντέλου, τα δεδομένα εκπαίδευσης και το fine-tuning επηρεάζουν όλα τη συμπεριφορά.