Υπό ανάπτυξη AI που εκπαιδεύεται με δεδομένα από πολλές γλώσσες

Ο κορεατικός διαδικτυακός γίγαντας Naver παρουσίασε την περασμένη εβδομάδα μια οικογένεια μεγάλων γλωσσικών μοντέλων με την ονομασία HyperCLOVA X, τα οποία, όπως ισχυρίστηκε, αποδίδουν καλύτερα στη διαγλωσσική συλλογιστική σε ασιατικές γλώσσες από άλλα μοντέλα και επομένως μπορούν να βοηθήσουν την περιοχή να αναπτύξει κυρίαρχα μεγάλα γλωσσικά μοντέλα.

Η Naver ανήγγειλε το ντεμπούτο του HyperCLOVA X στα κορεατικά και παραπέμπει σε μια αγγλόφωνη τεχνική έκθεση στο επιστημονικό περιοδικό arXiv όπου υποστηρίζει το εξής:

Πιστεύουμε ότι το HyperCLOVA X, με τις ανταγωνιστικές ικανότητες του στα αγγλικά και σε άλλες γλώσσες πέραν των κορεατικών, μπορεί να παρέχει χρήσιμη καθοδήγηση σε περιοχές ή χώρες για την ανάπτυξη των δικών τους κυρίαρχων LLM.

Οι LLMs προ-εκπαιδεύτηκαν σε δεδομένα “που αποτελούνται από κορεατικά και πολύγλωσσα δεδομένα, καθώς και από τμήματα κώδικα”. Το πολύγλωσσο υποσύνολο ήταν κυρίως αγγλικά, αλλά περιλάμβανε επίσης μια ποικιλία άλλων γλωσσών, όπως ιαπωνικά, γερμανικά και γαλλικά.

Το κορεατικό γλωσσικό υλικό αποτελούσε περίπου το ένα τρίτο των δεδομένων προ-εκπαίδευσης, μια ένδειξη ότι η Naver επέλεξε να βελτιώσει τις επιδόσεις των μοντέλων της στη μητρική της γλώσσα. Η διαδικασία προ-εκπαίδευσης έλαβε επίσης υπόψη την ιδιαίτερη γραμματική της κορεατικής γλώσσας. Το αποτέλεσμα αυτής της προσπάθειας, διαβεβαιώνει η Naver, είναι μοντέλα “με εγγενή επάρκεια τόσο στην κορεατική όσο και στην αγγλική γλώσσα”. Ακόμα καλύτερα, τα μοντέλα εμφανίζουν “πολυγλωσσία” – την ικανότητα να λειτουργούν σε γλώσσες διαφορετικές από αυτές για τις οποίες εκπαιδεύτηκαν.

Η ανάλυση μας δείχνει ότι η HyperCLOVA X δεν είναι μόνο σε θέση να επεκτείνει τη συλλογιστική της ικανότητα πέραν των γλωσσών στις οποίες απευθύνεται κατά κύριο λόγο, αλλά και να επιτύχει το υψηλότερο επίπεδο στη μηχανική μετάφραση μεταξύ της κορεατικής και μη στοχευμένων γλωσσών, όπως η ιαπωνική και η κινεζική. Η εντυπωσιακή πολυγλωσσική ικανότητα της HyperCLOVA X περιλαμβάνει επίσης τη διαγλωσσική μεταφορά μεταξύ κορεατικών και αγγλικών, όπου ο συντονισμός οδηγιών στη μία γλώσσα μπορεί να οδηγήσει στην εμφάνιση δυνατοτήτων παρακολούθησης οδηγιών στην άλλη.

Τα αποτελέσματα των πολύγλωσσων δοκιμών οδήγησαν την εταιρεία ανάπτυξης στο συμπέρασμα ότι το HyperCLOVA X “μπορεί να μεταφερθεί σε ασιατικές γλώσσες που υποεκπροσωπούνται στα δεδομένα προ-εκπαίδευσης”.

Η ανάπτυξης κυρίαρχης AI αναδύεται ως μια αναγκαία εθνική ικανότητα για κάθε χώρα, ως μέσο εξασφάλισης της ασφάλειας των δεδομένων και μείωσης της εξάρτησης από εξωτερικούς παρόχους. Όπως επισημαίνει η τεχνική έκθεση της Naver, οι αγγλικές και βορειοαμερικανικές κουλτούρες “είναι εξαιρετικά υπερεκπροσωπημένες στα προ-εκπαιδευτικά σώματα” για τα υπάρχοντα καθιερωμένα LLMs.

Κατά συνέπεια, αυτά τα LLMs παρουσιάζουν περιορισμούς στην ικανότητα τους να επεξεργάζονται και να κατανοούν μη αγγλικές γλώσσες όπως η κορεατική, η οποία ενσωματώνει ιδιαίτερες πολιτιστικές αποχρώσεις, γεωπολιτικές καταστάσεις και άλλες περιφερειακές ιδιαιτερότητες, καθώς και μοναδικά γλωσσικά χαρακτηριστικά.

Εξάλλου, η Κίνα προσπαθεί επίσης να αναπτύξει δικά της LLMs για την εξυπηρέτηση των εθνικών συμφερόντων. AI chatbots όπως το ERNIE της Baidu είχαν συγκεντρώσει πάνω από 100 εκατομμύρια χρήστες μέχρι το τέλος του 2023.

Ο Nak-ho-Seon, επικεφαλής της τεχνολογίας Naver Cloud Hyperscale AI, δήλωσε ότι σχεδιάζει “να δημιουργήσει εξειδικευμένες AI σε μεγάλη κλίμακα για διάφορες περιοχές και χώρες στο μέλλον”.

Εν τω μεταξύ, η τεχνική έκθεση συμπεριλαμβάνει τη δέσμευση να “εξερευνήσει την πολυτροπικότητα, με στόχο να διευρύνει τις δυνατότητες του HyperCLOVA X να επεξεργάζεται και να ενσωματώνει απρόσκοπτα διάφορους τύπους δεδομένων, όπως κείμενο, εικόνες και ήχο”, ενώ παράλληλα επιδιώκει να βελτιστοποιήσει τις ικανότητες εξαγωγής συμπερασμάτων του μοντέλου.

Τέλος, η Naver ισχυρίζεται ότι “ερευνά ενεργά την ενσωμάτωση εξωτερικών εργαλείων και APIs για την ενίσχυση των λειτουργιών του μοντέλου, κάτι που θα επιτρέψει στο HyperCLOVA X να έχει πρόσβαση σε εξειδικευμένα σύνολα δεδομένων και υπηρεσίες”.

Πηγή: techgear.gr