Τα γλωσσικά μοντέλα και το στοίχημα των GPU
«Αυτός που ελέγχει τις GPU, ελέγχει το σύμπαν». Αυτή η φράση από το «Dune», ένα κλασικό επιστημονικής φαντασίας, ακούγεται συνήθως αυτές τις μέρες και ασφαλώς αναφέρεται στις μονάδες επεξεργασίας γραφικών (Graphics processing unit).
Η πρόσβαση σε GPU, και ιδιαίτερα σε αυτές που κατασκευάζονται από την Nvidia, τον κορυφαίο προμηθευτή, είναι ζωτικής σημασίας για κάθε εταιρεία που θέλει να ληφθεί σοβαρά υπόψη στην τεχνητή νοημοσύνη (AI). Οι αναλυτές μιλούν για εταιρείες «πλούσιες σε GPU» ή «φτωχές σε GPU», ανάλογα με το πόσα από τα τσιπ διαθέτουν. Τα αφεντικά της τεχνολογίας καυχιούνται για τα γιγάντια αποθέματά τους. Η κυριαρχία της Nvidia έχει οδηγήσει την χρηματιστηριακή της αξία σε περισσότερα από 2 τρισεκατομμύρια δολάρια. Και στα τελευταία της αποτελέσματα, που θα ανακοινωθούν στις 22 Μαΐου, αναμένεται να ανακοινώσει αύξηση εσόδων άνω του 200% από έτος σε έτος.
Αλλαγή… χρήσης
Όπως γράφει ο Economist, οι GPU κάνουν την υπολογιστική βαρύτητα που απαιτείται για την εκπαίδευση και τη λειτουργία μεγάλων μοντέλων τεχνητής νοημοσύνης. Ωστόσο, παραδόξως, δεν είναι αυτό για το οποίο σχεδιάστηκαν. Όπως λέει και το όνομά τους οι μονάδες επεξεργασίας γραφικών σχεδιάστηκαν αρχικά για την επεξεργασία γραφικών βιντεοπαιχνιδιών. Και εντελώς «τυχαία» η Nvidia ανακάλυψε ότι θα μπορούσαν να επαναχρησιμοποιηθούν για φόρτους εργασίας της τεχνητής νοημοσύνης.
Μήπως θα ήταν καλύτερο να σχεδιάσουμε εξειδικευμένα τσιπ τεχνητής νοημοσύνης από την αρχή; Αυτό κάνουν τώρα πολλές εταιρείες, μικρές και μεγάλες, σε μια προσπάθεια να ανατρέψουν τη Nvidia. Τα αποκλειστικά τσιπ AI υπόσχονται να κάνουν τη δημιουργία και τη λειτουργία μοντέλων τεχνητής νοημοσύνης πιο γρήγορα, φθηνότερα ή και τα δύο. Οποιαδήποτε εταιρεία μπορεί να δημιουργήσει μια αξιόπιστη απειλή για τον κυρίαρχο πρωταθλητή δεν θα έχει έλλειψη πελατών, οι οποίοι ούτως ή άλλως αντιπαθούν τις υψηλές τιμές και τις περιορισμένες προμήθειες.
Ταυτόχρονες εργασίες
Ο Economist εξηγεί ότι τα συνηθισμένα τσιπ επεξεργασίας, όπως αυτά που βρίσκονται μέσα σε φορητούς και επιτραπέζιους υπολογιστές, είναι στην ουσία σχεδιασμένα να κάνουν το ένα πράγμα μετά το άλλο. Οι GPU, αντίθετα, περιέχουν πολλές χιλιάδες μηχανές επεξεργασίας ή «πυρήνες», οι οποίοι τους επιτρέπουν να εκτελούν χιλιάδες εκδόσεις της ίδιας απλής εργασίας (όπως η σχεδίαση μέρους μιας σκηνής) ταυτόχρονα. Ομοίως, η εκτέλεση μοντέλων τεχνητής νοημοσύνης περιλαμβάνει την παράλληλη εκτέλεση πολλών αντιγράφων της ίδιας εργασίας. Το να καταλάβουμε πώς να ξαναγράψουμε τον κώδικα τεχνητής νοημοσύνης για εκτέλεση σε GPU ήταν ένας από τους παράγοντες που πυροδότησε την τρέχουσα έκρηξη της τεχνητής νοημοσύνης.
Ωστόσο, οι GPU έχουν τους περιορισμούς τους, ιδιαίτερα όταν πρόκειται για την ταχύτητα με την οποία τα δεδομένα μπορούν να ανακατευτούν και να απενεργοποιηθούν. Τα σύγχρονα μοντέλα AI λειτουργούν με μεγάλο αριθμό διασυνδεδεμένων GPU και τσιπ μνήμης. Η γρήγορη μετακίνηση δεδομένων μεταξύ τους είναι κεντρικής σημασίας για την απόδοση. Κατά την εκπαίδευση μοντέλων τεχνητής νοημοσύνης πολύ μεγάλων διαστάσεων, ορισμένοι πυρήνες GPU ενδέχεται να είναι αδρανείς, περιμένοντας για δεδομένα.
Ο Andrew Feldman, το αφεντικό της Cerebras, μιας startup με έδρα στο Sunnyvale της Καλιφόρνια, το παρομοιάζει με το αδιέξοδο σε ένα παντοπωλείο την ημέρα πριν από την Ημέρα των Ευχαριστιών. «Όλοι είναι σε μια ουρά, οπότε υπάρχουν μπλοκαρίσματα στο πάρκινγκ, υπάρχουν μπλοκαρίσματα στους διαδρόμους, μπλοκαρίσματα στο ταμείο. Αυτό ακριβώς συμβαίνει με μια GPU».
Η απάντηση
Η απάντηση της Cerebras είναι να τοποθετήσει 900.000 πυρήνες, συν πολλή μνήμη, σε ένα μόνο, τεράστιο τσιπ, για να μειώσει την πολυπλοκότητα της σύνδεσης πολλαπλών τσιπ και των δεδομένων συνδέσεων μεταξύ τους. Το τσιπ της CS-3 είναι το μεγαλύτερο στον κόσμο κατά συντελεστή 50. «Το τσιπ μας έχει το μέγεθος ενός πιάτου δείπνου—μια GPU είναι το μέγεθος ενός γραμματοσήμου», λέει ο κ. Feldman. Οι συνδέσεις στο τσιπ μεταξύ πυρήνων λειτουργούν εκατοντάδες φορές πιο γρήγορα από τις συνδέσεις μεταξύ ξεχωριστών GPU, ισχυρίζεται η Cerebras, ενώ η προσέγγισή της μειώνει την κατανάλωση ενέργειας περισσότερο από το μισό, για ένα δεδομένο επίπεδο απόδοσης, σε σύγκριση με την πιο ισχυρή προσφορά GPU της Nvidia.
Η Groq, μια startup με έδρα το Mountain View της Καλιφόρνια, ακολουθεί μια διαφορετική προσέγγιση. Τα τσιπ τεχνητής νοημοσύνης της , που ονομάζονται μονάδες επεξεργασίας γλώσσας (LPUs), είναι βελτιστοποιημένα για να εκτελούν μεγάλα γλωσσικά μοντέλα (LLM) ιδιαίτερα γρήγορα. Εκτός από το ότι περιέχουν τη δική τους μνήμη, αυτά τα τσιπ λειτουργούν επίσης ως δρομολογητές, περνώντας δεδομένα μεταξύ των διασυνδεδεμένων LPU. Το έξυπνο λογισμικό δρομολόγησης εξαλείφει τη διακύμανση του λανθάνοντος χρόνου ή του χρόνου αναμονής για δεδομένα, επιτρέποντας σε ολόκληρο το σύστημα να λειτουργεί σε lockstep. Αυτό ενισχύει σημαντικά την αποτελεσματικότητα και συνεπώς την ταχύτητα: Η Groq λέει ότι η LPU της μπορεί να εκτελεί μεγάλα LLM δέκα φορές πιο γρήγορα από τα υπάρχοντα συστήματα.
Μια άλλη προσέγγιση είναι αυτή της MatX, που επίσης εδρεύει στην Καλιφόρνια. Οι GPU περιέχουν χαρακτηριστικά και κυκλώματα που παρέχουν ευελιξία στα γραφικά, αλλά δεν χρειάζονται για LLM, λέει ο Reiner Pope, ένας από τους συνιδρυτές της εταιρείας. Το τσιπ που μοιάζει με GPU πάνω στο οποίο εργάζεται η εταιρεία του απαλλάσσεται από τέτοια περιττά προβλήματα, ενισχύοντας την απόδοση κάνοντας λιγότερα πράγματα καλύτερα.
Άλλες νεοφυείς επιχειρήσεις σε αυτόν τον τομέα περιλαμβάνουν τη Hailo, με έδρα το Ισραήλ, η οποία συγκέντρωσε 120 εκατομμύρια δολάρια σε χρηματοδότηση τον Απρίλιο, την Taalas, με έδρα το Τορόντο, την Tenstorrent, μια αμερικανική εταιρεία που χρησιμοποιεί την αρχιτεκτονική RISC V ανοιχτού κώδικα για την κατασκευή τσιπ AI και την Graphcore, μια βρετανική εταιρεία που μπήκε νωρίς στο παιχνίδι, και πιστεύεται ότι πρόκειται να πουληθεί στη SoftBank, έναν ιαπωνικό όμιλο ετερογενών δραστηριοτήτων. Οι μεγάλες εταιρείες τεχνολογίας κατασκευάζουν επίσης τα δικά τους τσιπ AI. Η Google έχει αναπτύξει τις δικές της Tensor Processing Unit ( TPU ).
Πηγή: ot.gr