Εκπαιδεύσαμε το model εσωτερικά
Ένας recommender δεν χρειάζεται foundation model. Παραδώσαμε έναν για έναν hospitality πελάτη — λίγες χιλιάδες παράμετροι, retrain κάθε Δευτέρα σε ένα μόνο CPU. Τα περισσότερα briefs με «AI feature» που βλέπουμε είναι ranking problem με μεταμφίεση.
από Θάνος Κ.
Ένας founder μας περιγράφει ένα «AI-powered» feature. Ακούμε, και μετά αντιπαραθέτουμε. Αυτό που περιγράφει — να ταξινομεί τα partner perks ώστε κάθε επισκέπτης να βλέπει αυτά που είναι πιο πιθανό να εξαργυρώσει — είναι recommender. Ένα recommender είναι model. Το model δεν χρειάζεται να είναι foundation model. Χρειάζεται να είναι μικρό, να ξανα-εκπαιδεύεται κάθε εβδομάδα, και να είναι αρκετά καλό ώστε ο operator να σταματήσει να το ελέγχει. Παραδώσαμε ένα τέτοιο πέρσι για έναν hospitality προορισμό, και ολόκληρο χωράει στο laptop ενός developer.
Το recommender πίσω από αυτό το destination CRM είναι λίγες χιλιάδες παράμετροι. Κάθε Δευτέρα τρώει νέα partner reviews και τα logs εξαργυρώσεων της προηγούμενης εβδομάδας, και βγάζει μια ταξινομημένη λίστα perks ανά persona επισκέπτη. Το training script είναι ογδόντα γραμμές, τρέχει σε είκοσι λεπτά σε ένα μόνο CPU, και γράφει ένα αρχείο 240KB. Το deployment είναι αυτό το αρχείο μαζί με ένα μικρό service wrapper. Χωρίς GPU cluster, χωρίς API key σε τρίτη χώρα, χωρίς ξαφνικό outage στις 3 το πρωί επειδή κάποιος model provider απέσυρε ένα endpoint. Αυτό εννοούμε με τα custom systems: η βαρετή υποδομή μένει βαρετή επίτηδες.
Οι αριθμοί παραπάνω είναι η συζήτηση που είχαμε με τον founder πριν παραδώσουμε. Η «προφανής» προσέγγιση — να στείλουμε το context κάθε επισκέπτη σε LLM, να κολλήσουμε τα reviews και να ζητήσουμε μια ταξινομημένη λίστα — θα ήταν περίπου δύο χιλιάδες φορές πιο ακριβή ανά κλήση, ογδόντα φορές πιο αργή, και μη αναπαραγώγιμη offline. Το model μας δεν είναι πιο έξυπνο από ένα LLM. Είναι ταιριαστό. Ένα recommender είναι ranking problem, όχι language problem, και ο AI λογαριασμός είναι κυρίως μια κουβέντα για το ποιο εργαλείο αγόρασες κατά λάθος.
Τα LLMs έχουν θέση στο pipeline — εκεί ανήκουν. Ένα μικρό LLM, batched offline, συνοψίζει κάθε νέο free-text review σε μια χούφτα αριθμητικά features που μπορεί να φάει ο ranker. Αυτό είναι language problem και αξίζει το language tool. Η εργασία summarisation τρέχει μία φορά την εβδομάδα, παίρνει μερικά λεπτά, και κοστίζει κάτω από τριάντα ευρώ τον μήνα συνολικά. Ο ranker που καταναλώνει αυτά τα features είναι local και δωρεάν να καλέσεις. Το split είναι αφανές: language tools όπου υπάρχει γλώσσα, ranking tools όπου υπάρχει ranking. Το λάθος — και το βλέπουμε κάθε εβδομάδα — είναι να αφήνεις το ένα από αυτά να κάνει και τα δύο.
Η καμπύλη παραπάνω είναι αυτό που μετράει στ' αλήθεια για το AI ROI. Πρώτη εβδομάδα λειτουργίας, ο recommender έπιανε 61% top-three accuracy. Εικοστή εβδομάδα, 84%. Το model δεν έχει αλλάξει από την πρώτη εβδομάδα· το script των ογδόντα γραμμών είναι το ίδιο script. Η βελτίωση δεν είναι κάποιος που τσιγκλάει παραμέτρους — είναι το ότι κάθε Δευτέρα στις 03:00 το ίδιο script ξανα-εκπαιδεύεται σε ένα μεγαλύτερο παράθυρο πραγματικών δεδομένων εξαργύρωσης. Το άλλο model που έχουμε παραδώσει — ο on-device rapid-test vision reader για το Πανεπιστήμιο Πατρών — δουλεύει με τον ίδιο τρόπο: μικρότερο validation dataset την πρώτη εβδομάδα, καλύτερο dataset μέχρι τον τρίτο μήνα, ίδιος κώδικας inference. Τα models συγκεντρώνουν αξία πάνω στα δεδομένα τους, όχι πάνω στους παραμέτρους τους.
Αυτό που δεν θα σου πουλήσουμε είναι μια κλήση foundation-model API τυλιγμένη σε buzzword και markup. Αν η υποκείμενη δουλειά είναι «ταξινόμησε αυτά με βάση έναν αριθμό που μπορούμε να υπολογίσουμε», το AI feature σου είναι μια logistic regression και μια learning curve, όχι ένας λογαριασμός LLM. Αν είναι «βγάλε ή κατηγοριοποίησε από πεζό κείμενο», είναι ένα μικρό model batched offline. Αν είναι «παρήγαγε κάτι που θα διαβάσει άνθρωπος σε πραγματικό χρόνο», το LLM κερδίζει τη θέση του στο hot path. Τρεις διαφορετικές δουλειές, τρεις διαφορετικοί λογαριασμοί, τρία διαφορετικά SLOs. Σου λέμε ποιο από αυτά είναι το brief σου πριν το κοστολογήσουμε. Είναι η ίδια στάση που γράψαμε για τη δουλειά στην ασφάλεια: ώρες πάνω στο πραγματικό, όχι εβδομάδες πάνω στον θόρυβο.
Τι άλλαξε από τότε που το λέμε δυνατά: οι πελάτες έρχονται με την ερώτηση ήδη στενεμένη. «Πρέπει να ταξινομήσουμε τα partner perks μας — είναι αυτό ranking problem ή language problem;» Αυτό το brief κοστολογείται σε ένα απόγευμα. Όσοι έρχονται με «χρειαζόμαστε AI» φεύγουν με μια πιο μακρά συζήτηση και, τις περισσότερες φορές, με μικρότερο λογαριασμό από αυτόν που περίμεναν. Ο πιο ακριβός AI λογαριασμός είναι αυτός που πληρώθηκε για το λάθος εργαλείο. Το πιο φτηνό model που παραδίδεται είναι αυτό που ταιριάζει στην ερώτηση.