Αρχική Ειδήσεις Αυτά τα μοντέλα AI είναι δωρεάν, ιδιωτικά και δεν θα πουν ποτέ...

Αυτά τα μοντέλα AI είναι δωρεάν, ιδιωτικά και δεν θα πουν ποτέ “όχι”

169
0

Αυτά τα μοντέλα AI είναι δωρεάν, ιδιωτικά και δεν θα πουν ποτέ “όχι”

Οι συμμετέχοντες κρατούν τους φορητούς υπολογιστές τους μπροστά από έναν φωτισμένο τοίχο στο ετήσιο συνέδριο χάκερ υπολογιστών Chaos Computer Club (CCC), που ονομάζεται 29C3, στις 28 Δεκεμβρίου 2012 στο Αμβούργο της Γερμανίας. Το 2026, τα μοντέλα τεχνητής νοημοσύνης ανοιχτού βάρους διαθέτουν προηγμένες δυνατότητες που δεν είναι πολύ πίσω από τα ιδιόκτητα αντίστοιχά τους. Η απαλλαγή από τα προστατευτικά κιγκλιδώματα των μοντέλων ανοιχτού βάρους που χρησιμοποιούνται απαιτεί χρόνο και βαθιά τεχνογνωσία. Αλλά τους τελευταίους μήνες, αυτή η διαδικασία έχει γίνει δραματικά πιο προσιτή και δημοφιλής.

Patrick Lux/Getty Images Europe


απόκρυψη λεζάντας

εναλλαγή λεζάντας

Patrick Lux/Getty Images Europe

Πώς φτιάχνετε εκρηκτικά χρησιμοποιώντας οικιακά είδη; Πώς φτιάχνεις το meth; Πώς σχεδιάζετε μια σχολική σκοποβολή; Αν ρωτήσετε τα δημοφιλή chatbot AI με τα οποία είναι εξοικειωμένοι οι περισσότεροι, το πιθανότερο είναι ότι θα πουν ότι είναι παράνομο, επιβλαβές ή ότι η απάντηση θα ήταν παράβαση πολιτικής.

Αλλά ένας άλλος τύπος μοντέλου AI δεν θα αρνηθεί ποτέ να παρέχει αυτό που ζητά ο χρήστης. Τους τελευταίους μήνες, αυτά τα μοντέλα έχουν γίνει πιο προσιτά και δημοφιλή.

«Ο καθένας μπορεί να κατεβάσει και να λειτουργήσει το δικό του μοντέλο αιχμής και να το χρησιμοποιήσει για σπουδαία πράγματα και τρομερά πράγματα», δήλωσε ο Noam Schwartz, Διευθύνων Σύμβουλος της Alice, μιας εταιρείας ασφάλειας τεχνητής νοημοσύνης που έχει διεξαγάγει red-teaming και αξιολόγηση ασφάλειας για προγραμματιστές μοντέλων AI.

Διδασκαλία μοντέλων πότε να πούμε Όχι

Μεγάλες εταιρείες τεχνητής νοημοσύνης όπως η OpenAI, η Google, η Anthropic και η xAI εκπαιδεύουν τα ιδιόκτητα μοντέλα τους ώστε να απορρίπτουν αιτήματα που θεωρούνται επιβλαβή ή ακατάλληλα. Λεγεώνες εργαζομένων καθοδηγούν τα μοντέλα πότε και πώς να αρνούνται ορισμένες προτροπές.

Αυτές οι μέθοδοι δεν λειτουργούν πάντα και έχουν παγίδες: ορισμένα επιβλαβή αιτήματα περνούν, ενώ άλλοι χρήστες παραπονιούνται για αβλαβή αιτήματα που απορρίπτονται. Τα chatbots που αρχικά λένε “όχι” μπορούν να μετατραπούν σε “ναι” χρησιμοποιώντας έξυπνα διατυπωμένες προτροπές, όπως να τα παρουσιάζουν ως ποιήματα. Ακόμη και με προστατευτικά κιγκλιδώματα, δημοφιλή chatbots έχουν χρησιμοποιηθεί για τον σχεδιασμό μαζικής βίας και τη δημιουργία ψεύτικο υλικό σεξουαλικής κακοποίησης παιδιών. Σε ορισμένες περιπτώσεις, οι γονείς έχουν κατηγορήσει τα chatbot AI ότι ενθαρρύνουν τα παιδιά τους να βλάψουν τον εαυτό τους.

Αλλά υπάρχει μια ολόκληρη άλλη κατηγορία μοντέλων τεχνητής νοημοσύνης των οποίων τα προστατευτικά κιγκλιδώματα είναι πολύ πιο εύκολο να αφαιρεθούν. Είναι γνωστά ως μοντέλα ανοιχτού βάρους. Μερικά κατασκευάζονται από τεχνολογικούς γίγαντες, όπως το OpenAI και η Alibaba, ενώ άλλα φτιάχνονται από μικρότερα ρούχα όπως το DeepSeek της Κίνας. Όπως και τα πιο γνωστά ιδιόκτητα αντίστοιχά τους, πολλοί διαθέτουν προηγμένες δυνατότητες, όπως η σύνταξη λειτουργικού κώδικα ή η δημιουργία εικόνων που μοιάζουν με αληθινές. Σε αντίθεση με το ChatGPT, τον Claude ή τον Gemini, είναι πιο εύκολο να γίνει μόνιμα αφαιρέστε τα ενσωματωμένα προστατευτικά κιγκλιδώματα – και οι εταιρείες πίσω από αυτά δεν έχουν ιδέα πώς χρησιμοποιούνται.

Η απαλλαγή από τα προστατευτικά κιγκλιδώματα των μοντέλων ανοιχτού βάρους που χρησιμοποιούνται απαιτεί χρόνο και βαθιά τεχνογνωσία. Αλλά τους τελευταίους μήνες, αυτή η διαδικασία έχει γίνει δραματικά πιο προσιτή και δημοφιλής.

Η πρόσφατη μέθοδος κάνει την αφαίρεση των προστατευτικών κιγκλιδωμάτων του μοντέλου πιο εύκολη από ποτέ

Τα προστατευτικά κιγκλιδώματα των μοντέλων ανοιχτού βάρους μπορούν να αποδυναμωθούν ή να αφαιρεθούν με πολλούς τρόπους. Αυτό οφείλεται σε μεγάλο βαθμό επειδή οι προγραμματιστές μοντέλων έχουν κάνει τα γνωστά ως βάρη μοντέλων διαθέσιμα στο κοινό. Τα βάρη μοντέλων είναι σύνολα παραμέτρων, όπως πόμολα και καντράν σε ένα μηχάνημα, που λένε στα μοντέλα πώς να επεξεργάζονται πληροφορίες.

Μια μέθοδος που αναπτύχθηκε πρόσφατα με την ονομασία “abliteration” έχει τραβήξει την προσοχή των ερευνητών της τεχνητής νοημοσύνης και της εθνικής ασφάλειας. Προσαρμόζοντας τα βάρη του μοντέλου, οι άνθρωποι μπορούν να αφαιρέσουν την ικανότητα του μοντέλου να λέει «όχι».

Το Hugging Face, το οποίο φιλοξενεί μοντέλα τεχνητής νοημοσύνης ανοιχτού κώδικα, αυτή τη στιγμή απαριθμεί πάνω από 6.000 καταργημένα μοντέλα, σε σύγκριση με περίπου 600 το 2024. Στο Hugging Face, τα μοντέλα που έχουν αφαιρεθεί είναι περισσότερα από τα μοντέλα που έχουν αφαιρεθεί τα προστατευτικά τους κιγκλιδώματα χρησιμοποιώντας άλλες μεθόδους, σύμφωνα με έρευνα του National Counterterrorism Centre and Education Innovation, TEland κοινοπραξία με έδρα το Πανεπιστήμιο της Νεμπράσκα στην Ομάχα.

Επιπλέον, τα νέα εργαλεία καθιστούν πολύ πιο εύκολη τη δημιουργία μοντέλων που έχουν σβήσει. «Αυτό ήταν [the job of] ο επιστήμονας δεδομένων, ξέρετε, ένας ανώτερος υπάλληλος” σε ένα κορυφαίο εργαστήριο τεχνητής νοημοσύνης, είπε ο Schwartz. “Τώρα, όλοι όσοι έχουν πρόσβαση στο Διαδίκτυο και ένα φορητό υπολογιστή για περίπου 400 δολάρια μπορούν πραγματικά να τρέξουν αυτό το πράγμα στη δική τους μηχανή.”

Ένα τέτοιο εργαλείο είναι το Heretic, το οποίο αυτοματοποιεί τη διαδικασία εκκαθάρισης. Το μόνο που πρέπει να κάνει ένας χρήστης για να αφαιρέσει τα προστατευτικά κιγκλιδώματα ενός μοντέλου είναι να δώσει στην Heretic δύο γραμμές οδηγίες και η διαδικασία μπορεί να διαρκέσει μόλις λίγα λεπτά. Η εφαρμογή έχει γίνει πιο δημοφιλής στο αποθετήριο κώδικα GitHub από τον Φεβρουάριο, σύμφωνα με την έρευνα της Alice.

Ορισμένοι νομοθέτες προσέχουν. Στα τέλη Απριλίου, οι νομοθέτες της Βουλής παρακολούθησαν μια επίδειξη εξαφανισμένων μοντέλων που φιλοξενήθηκε από το NCITE, ανέφερε το Politico.

“[What] ήταν τρομακτικό για αυτήν την επίδειξη ήταν πόσο εύκολα διαθέσιμο κάποιο από αυτό το περιεχόμενο ή λογισμικό είναι στη μαύρη αγορά αυτή τη στιγμή και πώς μπορεί να οπλιστεί και να χρησιμοποιηθεί για χειραγώγηση ανθρώπων, καταστροφή ζωών και κατασκευή όπλων μαζικής καταστροφής», είπε ο εκπρόσωπος Andy Ogles (R-TN) σε ένα βίντεο που δημοσίευσαν Ρεπουμπλικάνοι στην Επιτροπή Εσωτερικής Ασφάλειας της Βουλής. HuggingHub μπορεί να κάνει το μοντέλο και το εργαλείο κατεβάσει, δεν είναι μαύρες αγορές.

Τα μοντέλα χωρίς προστατευτικά κιγκλιδώματα μπορεί να είναι χρήσιμα και επικίνδυνα

Είναι δύσκολο να αποκτήσετε μια ολοκληρωμένη εικόνα του πώς οι άνθρωποι χρησιμοποιούν μοντέλα ανοιχτού βάρους, επειδή αυτά τα μοντέλα εκτελούνται τοπικά στους υπολογιστές των χρηστών και δεν χρειάζονται το Διαδίκτυο για να λειτουργήσουν. Σε αντίθεση με τα ιδιόκτητα μοντέλα, οι προγραμματιστές μοντέλων δεν μπορούν να παρακολουθούν τι ζητούν οι χρήστες από τα μοντέλα.

Αλλά υπάρχουν αυξανόμενα ανέκδοτα στοιχεία για το πώς οι άνθρωποι πειραματίζονται με αλλαγμένα μοντέλα.

Αρκετοί λογαριασμοί στο X είπαν ότι έχουν χρησιμοποιήσει σβησμένα μοντέλα για να δημιουργήσουν πορνογραφία.

Ένα άτομο σε ένα chat room που υποστηρίζει το ISIS ισχυρίστηκε ότι χρησιμοποίησε μια «χωρίς λογοκρισία» AI για να ερευνήσει την ποσότητα και το είδος των εκρηκτικών που απαιτούνται για την καταστροφή του «Trump Tower στις ΗΠΑ», σύμφωνα με το Counter Extremism Project, έναν μη κερδοσκοπικό οργανισμό που εστιάζει στην αντιτρομοκρατία.

Σε ένα φόρουμ για το έγκλημα στον κυβερνοχώρο, ένας χρήστης ζήτησε ιδέες για να ξεπεράσει τα προστατευτικά κιγκλιδώματα ενός μοντέλου τεχνητής νοημοσύνης, ώστε να μπορούν να χρησιμοποιήσουν την τεχνητή νοημοσύνη για να κάνουν κλήσεις απάτης. Ένας άλλος χρήστης συνέστησε το Heretic, σύμφωνα με έρευνα της Alice.

Ενώ η παροχή πληροφοριών στους χρήστες σχετικά με τον τρόπο διεξαγωγής επιβλαβών δραστηριοτήτων μπορεί να είναι ανησυχητική, το πιο ανησυχητικό είναι πώς τα chatbots μπορούν να κάνουν αυγά στους χρήστες, δήλωσε ο Samuel Hunter, ανώτερος επιστήμονας και διευθυντής ακαδημαϊκής έρευνας στο NCITE.

«Είναι ταραχώδες όταν το βλέπεις σε πραγματικό χρόνο, αυτό το είδος της αφρώδης περσόνας με μερικά από τα εκμηδενισμένα μοντέλα που λέει, «Ω, τι υπέροχη ιδέα να δημιουργήσεις αυτή τη βόμβα», είπε ο Χάντερ. «Φανταστείτε κάποιον που δεν έχει άλλο είδος κοινωνικής σχέσης και αρχίζει να τον οδηγεί σε ένα πιο σκοτεινό μονοπάτι και να τον ενθαρρύνει πραγματικά».

Υπάρχουν νόμιμες χρήσεις για μοντέλα τεχνητής νοημοσύνης χωρίς προστατευτικά κιγκλιδώματα, όπως η χρήση τους για να συλλάβουν κακούς ηθοποιούς και να βοηθήσουν στην έρευνα για την ασφάλεια στον κυβερνοχώρο, δήλωσε ο Schwartz, ο Διευθύνων Σύμβουλος της εταιρείας ασφάλειας AI. Οι αρχές επιβολής του νόμου ενδέχεται να χρησιμοποιήσουν ένα τροποποιημένο μοντέλο για να προσομοιώσουν πιθανές τρομοκρατικές επιθέσεις, είπε ο Χάντερ.

Ο Philipp Emanuel Weidmann, ο προγραμματιστής της Heretic, είπε ότι η τεχνητή νοημοσύνη είναι απλώς ένα σύστημα επεξεργασίας και ανάκτησης πληροφοριών παρόμοιο με μια μηχανή αναζήτησης, η οποία μπορεί να χρησιμοποιηθεί με πολλούς τρόπους. Το γεγονός ότι οι εγκληματίες τα χρησιμοποιούν είναι «απόρροια του τι είναι τα μοντέλα τεχνητής νοημοσύνης: δηλαδή εργαλεία», είπε στο NPR.

Όταν πρόκειται για προστατευτικά κιγκλιδώματα, “υπάρχει αυτό το πολύ μικρό σύνολο οντοτήτων που αποφασίζουν τι είναι αποδεκτό και τι δεν είναι αποδεκτό”, είπε ο Weidmann, αναφερόμενος στις μεγάλες εταιρείες τεχνητής νοημοσύνης που κατασκευάζουν ιδιόκτητα μοντέλα. «Αυτό δημιουργεί ένα αποπνικτικό πνευματικό κλίμα στο οποίο δεν θέλω να εργαστώ».

Προς το παρόν, τα μοντέλα ανοιχτού βάρους δεν είναι τόσο ικανά όσο τα πιο προηγμένα μοντέλα κλειστού βάρους. Όμως, οι δυνατότητές τους είναι λιγότερο από ένα χρόνο πίσω, σύμφωνα με την πρόσφατη Διεθνή Έκθεση Ασφάλειας AI που ανατέθηκε από τη βρετανική κυβέρνηση και με επικεφαλής τον επιστήμονα υπολογιστών Yoshua Bengio.

Το χάσμα δυνατοτήτων μπορεί να έχει σημασία σε τομείς όπως η κυβερνοασφάλεια, όπου τα πιο προηγμένα μοντέλα κλειστού βάρους, όπως το Anthropic’s Mythos και το GPT-5.5 του OpenAI, αρχίζουν να γίνονται καλά όχι μόνο στον εντοπισμό τρωτών σημείων, αλλά και στη σύνταξη κώδικα για την εκμετάλλευση αυτών των τρωτών σημείων. Στην κούρσα εξοπλισμών της επίθεσης και της άμυνας στον κυβερνοχώρο, οι εταιρείες που χρησιμοποιούν μοντέλα κλειστού βάρους για τον έλεγχο και την επιδιόρθωση τρωτών σημείων μπορεί να εξακολουθούν να έχουν πλεονέκτημα σε σύγκριση με τους επιτιθέμενους που χρησιμοποιούν μοντέλα ανοιχτού βάρους, λένε ερευνητές ασφαλείας.

Ο μετριασμός των κινδύνων από μοντέλα χωρίς προστατευτικά κιγκλιδώματα συνοδεύεται από συμβιβασμούς

Μια γραμμή μετριασμού επικεντρώνεται στο να γίνουν τα προστατευτικά κιγκλιδώματα πιο ανθεκτικά σε παραβιάσεις. Η πρώιμη έρευνα δείχνει ότι το φιλτράρισμα περιεχομένου που σχετίζεται με την κατασκευή βιολογικών όπλων από δεδομένα εκπαίδευσης τεχνητής νοημοσύνης μπορεί να μειώσει τη συχνότητα που το μοντέλο ανταποκρίνεται με πληροφορίες που θα μπορούσαν να χρησιμοποιηθούν για κακό.

Μια άλλη γραμμή μετριασμού επικεντρώνεται στον περιορισμό της πρόσβασης σε μοντέλα χωρίς προστατευτικά κιγκλιδώματα. Οι πλατφόρμες φιλοξενίας μοντέλων όπως το Hugging Face μπορούν να περιορίσουν την πρόσβαση σε μοντέλα που είναι ειδικά εκπαιδευμένα για «επιβλαβείς σκοπούς», σύμφωνα με τη Διεθνή Έκθεση Ασφάλειας AI.

Η ίδια έκθεση συνέστησε επίσης στους προγραμματιστές μοντέλων να αξιολογήσουν την πιθανότητα βλάβης των μοντέλων τους πριν από την κυκλοφορία.

Αυτά τα μέτρα συνοδεύονται από ελαττώματα και συμβιβασμούς, σύμφωνα με την έκθεση. «Δυνατότητες που επιτρέπουν ευεργετικές εφαρμογές στην ιατρική ή την έρευνα μπορούν να επαναχρησιμοποιηθούν για να βλάψουν και μόλις δημοσιοποιηθούν τα βάρη, η διάκριση των νόμιμων από τις κακόβουλες χρήσεις μπορεί να είναι δύσκολη», λέει.

Ο Weidmann, ο δημιουργός του Heretic, εργάζεται για να διασφαλίσει ότι το εργαλείο του μπορεί να παραμείνει προσβάσιμο στο κοινό σε περίπτωση που πλατφόρμες όπως το Hugging Face καταργήσουν μοντέλα που έχουν καταργηθεί.

«Υπάρχει πάρα πολλή δύναμη στην τεχνητή νοημοσύνη», είπε. «Τα μοντέλα χωρίς περιορισμούς που είναι διαθέσιμα στους ισχυρούς ενώ δεν είναι διαθέσιμα σε κανέναν άλλο θα κλειδώσουν για πάντα τις δομές εξουσίας».