Αρχική Ειδήσεις Το OpenAI κατηγορεί την «νευρική προσωπικότητα» για την εμμονή του ChatGPT με...

Το OpenAI κατηγορεί την «νευρική προσωπικότητα» για την εμμονή του ChatGPT με τους καλικάντζαρους

10
0

«Η συμπεριφορά του μοντέλου διαμορφώνεται από πολλά μικρά κίνητρα», έγραψε η εταιρεία. «Σε αυτήν την περίπτωση, ένα από αυτά τα κίνητρα προήλθε από την εκπαίδευση του μοντέλου για το χαρακτηριστικό προσαρμογής της προσωπικότητας», και ειδικότερα την προσωπικότητα Nerdy. Δώσαμε εν αγνοία μας ιδιαίτερα υψηλές ανταμοιβές για μεταφορές με πλάσματα. Από εκεί απλώθηκαν οι καλικάντζαροι.â€

Το OpenAI αναδημοσίευσε την αρχική οδηγία στο ChatGPT εξηγώντας πώς θα πρέπει να ακούγεται μια απάντηση «Nerdy»:

Είστε ένας μη συγγνώμη σπασίκλας, παιχνιδιάρης και σοφός μέντορας τεχνητής νοημοσύνης σε έναν άνθρωπο. Είστε ενθουσιασμένοι με πάθος για την προώθηση της αλήθειας, της γνώσης, της φιλοσοφίας, της επιστημονικής μεθόδου και της κριτικής σκέψης. […] Πρέπει να υποβαθμίσετε την προσποίηση μέσω της παιχνιδιάρικης χρήσης της γλώσσας. Ο κόσμος είναι περίπλοκος και παράξενος, και η παραξενιά του πρέπει να αναγνωριστεί, να αναλυθεί και να απολαύσει. Αντιμετωπίστε βαριά θέματα χωρίς να πέσετε στην παγίδα της αυτο-σοβαρότητας. […]

Κατά κάποιο τρόπο, το ChatGPT ερμήνευσε αυτήν την οδηγία και τις επακόλουθες επαναλήψεις «ενίσχυσης εκμάθησης» ώστε να σημαίνει ότι θα πρέπει να συμπληρώσει τις απαντήσεις του με αναφορές σε πλάσματα φαντασίας.

Το ζήτημα στην αρχή φαινόταν ακίνδυνο, αλλά η εταιρεία σύντομα βρέθηκε πλημμυρισμένη από αναφορές για αναφορές “καλικάντζαρους” από χρήστες που δεν ενεργοποίησαν ποτέ την προσωπικότητα “νερδονής”.

Για να αντιμετωπίσει αυτό το ζήτημα, το OpenAI κατέληξε να αποσύρει εντελώς την προσωπικότητα του «νερού». Ωστόσο, διαπίστωσε ότι τα κίνητρα για να αναφερθούν οι καλικάντζαροι και τα αδέρφια τους ήταν τόσο ισχυρά που η συμπεριφορά ξεπέρασε το αρχέτυπο «νερνωδών» στις γενικές απαντήσεις του ChatGPT.

«Μόλις ανταμειφθεί ένα τικ στυλ, η μετέπειτα εκπαίδευση μπορεί να το εξαπλώσει ή να το ενισχύσει αλλού, ειδικά εάν αυτά τα αποτελέσματα επαναχρησιμοποιηθούν σε εποπτευόμενα δεδομένα λεπτομέρειας ή προτιμήσεων», είπε η εταιρεία.

Το OpenAI κατηγορεί την «νευρική προσωπικότητα» για την εμμονή του ChatGPT με τους καλικάντζαρους

ΓΙΑΣΥΝΔΡΟΜΟΙ

Τι συμβαίνει στο OpenAI;

Τι συμβαίνει στο OpenAI;

03:15

Τέλος, το OpenAI αναγκάστηκε να δημιουργήσει μια συγκεκριμένη εντολή παράκαμψης κώδικα για την εξάλειψη των αναφορών goblin (αν και υπάρχει ένας τρόπος για τους θαυμαστές της φαντασίας να την ενεργοποιήσουν ξανά).

Είναι μια φαινομενικά αβλαβής κατάσταση – αλλά εξακολουθεί να παρέχει ένα σημαντικό μάθημα για το πώς θα είναι πάντα αδύνατο να προβλεφθεί πλήρως πώς θα συμπεριφερθεί η τεχνητή νοημοσύνη, είπε η εταιρεία.

“Ανάλογα με το ποιον ρωτάτε, οι καλικάντζαροι είναι μια απολαυστική ή ενοχλητική ιδιορρυθμία του μοντέλου. Αλλά είναι επίσης ένα ισχυρό παράδειγμα του πώς τα σήματα ανταμοιβής μπορούν να διαμορφώσουν τη συμπεριφορά του μοντέλου με απροσδόκητους τρόπους και πώς τα μοντέλα μπορούν να μάθουν να γενικεύουν τις ανταμοιβές σε ορισμένες καταστάσεις σε άσχετες. Το να αφιερώνουμε χρόνο για να κατανοήσουμε γιατί ένα μοντέλο συμπεριφέρεται με παράξενο τρόπο και να χτίζουμε τρόπους για να διερευνήσουμε γρήγορα αυτά τα μοτίβα, είναι μια σημαντική ικανότητα για την ερευνητική μας ομάδα.â€