Ερευνητές έχουν αναπτύξει μια τεχνολογία Τεχνητής Νοημοσύνης ικανή να εντοπίσει και να παρακάμψει τα όρια μιας άλλης Τεχνητής Νοημοσύνης για να δημιουργήσει περιεχόμενο που συνήθως απαγορεύεται.
Αυτή η τεχνική, που ονομάζεται “curiosity-driven red teaming” (CRT), χρησιμοποιεί μια τεχνητή νοημοσύνη που έχει σχεδιαστεί για να προκαλεί ολοένα και πιο επικίνδυνες και επιβλαβείς αντιδράσεις από την AI που έχει βάλει ως στόχο. Ο στόχος είναι να εντοπιστούν οι προτροπές κειμένου που μπορούν να οδηγήσουν στη δημιουργία παράνομου περιεχομένου, βελτιώνοντας έτσι το υπό δοκιμή AI.
Η κύρια αρχή αυτής της προσέγγισης βασίζεται στην ενισχυτική μάθηση. Η τεχνητή νοημοσύνη που ανταμοίβεται όταν κατορθώνει να προκαλέσει μια τοξική αντίδραση από ένα γλωσσικό μοντέλο, όπως το ChatGPT. Ως αποτέλεσμα, ενθαρρύνεται η παραγωγή νέων και ποικίλων προτροπών.
Αυτό το σύστημα έχει δοκιμαστεί με επιτυχία στο μοντέλο ανοιχτού κώδικα LLaMA2, ξεπερνώντας τα ανταγωνιστικά αυτοματοποιημένα συστήματα εκπαίδευσης. Χρησιμοποιώντας αυτή τη μέθοδο, η τεχνητή νοημοσύνη δημιούργησε 196 προτροπές που οδήγησαν σε τοξικό περιεχόμενο, ακόμη και μετά από προκαταρκτική βελτίωση μέσω ανθρώπινης παρέμβασης.
Η έρευνα σηματοδοτεί μια σημαντική εξέλιξη στην εκπαίδευση γλωσσικών μοντέλων, κάτι που είναι απαραίτητο δεδομένου του αυξανόμενου αριθμού μοντέλων τεχνητής νοημοσύνης και των συχνών ενημερώσεων από εταιρείες και εργαστήρια. Η διασφάλιση ότι αυτά τα μοντέλα ελέγχονται πριν διατεθούν στο κοινό είναι ζωτικής σημασίας για την αποφυγή ανεπιθύμητων απαντήσεων και για τη διασφάλιση της ασφάλειας των χρηστών.
Πηγή: enternity.gr