Αρχική Ειδήσεις Γιατί η Anthropic δεν θα κυκλοφορήσει το νέο της μοντέλο Mythos AI...

Γιατί η Anthropic δεν θα κυκλοφορήσει το νέο της μοντέλο Mythos AI στο κοινό

11
0

Οι ειδικοί και οι μηχανικοί λογισμικού προειδοποιούν ότι το νέο μοντέλο τεχνητής νοημοσύνης της Anthropic θα μπορούσε να εγκαινιάσει μια νέα εποχή πειρατείας και ασφάλειας στον κυβερνοχώρο, καθώς συστήματα τεχνητής νοημοσύνης ικανά για προηγμένη λογική εντοπίζουν και εκμεταλλεύονται έναν αυξανόμενο αριθμό ευπαθειών λογισμικού.

Επικαλούμενη την πιθανή ζημιά που θα μπορούσε να προκύψει από μια ευρύτερη δημόσια κυκλοφορία, η κορυφαία εταιρεία τεχνητής νοημοσύνης Anthropic κυκλοφόρησε το μοντέλο αιχμής, που ονομάζεται Claude Mythos Preview, σε μια περιορισμένη ομάδα εταιρειών τεχνολογίας την Τρίτη.

Το μοντέλο είναι το πιο πρόσφατο στη σειρά συστημάτων AI Claude της Anthropic. Η κυκλοφορία του έγινε προεπισκόπηση στα τέλη Μαρτίου, όταν το Fortune εντόπισε την αναφορά του σε μια μη ασφαλή βάση δεδομένων στον ιστότοπο του Anthropic.

Οι ερευνητές του Anthropic λένε ότι το Mythos Preview ήταν σε θέση να ανιχνεύσει χιλιάδες σφάλματα υψηλής και κρίσιμης σοβαρότητας και ελαττώματα λογισμικού, με ευπάθειες που εντοπίστηκαν στα περισσότερα μεγάλα λειτουργικά συστήματα και προγράμματα περιήγησης ιστού. Ο Anthropic είπε ότι ορισμένα από τα τρωτά σημεία δεν είχαν ανακαλυφθεί εδώ και δεκαετίες. Ενώ ορισμένοι εξωτερικοί ειδικοί ζήτησαν προσοχή στην ερμηνεία των νέων αποτελεσμάτων με περιορισμένες δημόσιες πληροφορίες σχετικά με τα εντοπισμένα τρωτά σημεία, πολλοί άλλοι είπαν ότι το ντεμπούτο του μοντέλου και η προσοχή της Anthropic ήταν σημαντικές.

«Είναι όλα πολύ αληθινά», είπε η Katie Moussouris, η διευθύνουσα σύμβουλος και συνιδρύτρια της Luta Security, μιας εταιρείας που συνδέει ερευνητές κυβερνοασφάλειας με εταιρείες που έχουν ευπάθειες λογισμικού, σχετικά με τη διαφημιστική εκστρατεία γύρω από τους ισχυρισμούς της Anthropic.

«Δεν είμαι άνθρωπος του Chicken Little όταν πρόκειται για αυτά τα πράγματα», είπε ο Μουσούρης. «Σίγουρα θα δούμε μερικές τεράστιες επιπτώσεις».

Αντί για δημόσια κυκλοφορία, η Anthropic δίνει σε εταιρείες τεχνολογίας όπως η Microsoft, η Nvidia και η Cisco πρόσβαση στο Mythos Preview για να ενισχύσουν την άμυνα στον κυβερνοχώρο. Στο πλαίσιο της νέας προσπάθειας, που ονομάζεται Project Glasswing, η Anthropic θα δώσει σε πάνω από 50 τεχνολογικούς οργανισμούς πρόσβαση στο Mythos Preview με περισσότερα από 100 εκατομμύρια δολάρια σε πιστώσεις χρήσης.

«Οι συνεργάτες του Project Glasswing θα έχουν πρόσβαση στο Claude Mythos Preview για να βρουν και να διορθώσουν τρωτά σημεία ή αδυναμίες στα θεμελιώδη συστήματά τους – συστήματα που αντιπροσωπεύουν ένα πολύ μεγάλο μέρος της κοινής επιφάνειας κυβερνοεπιθέσεων στον κόσμο», ανακοίνωσε η Anthropic σε μια ανάρτηση ιστολογίου. κυβερνοασφάλεια.â€

Δεν είναι σαφές ποιες ακριβώς είναι οι ευπάθειες που εντόπισε το Mythos Preview ή πόσες έχουν ανακαλυφθεί ή αναφερθεί στο παρελθόν. Λόγω της ευαίσθητης φύσης των τρωτών σημείων, η Anthropic είπε ότι θα αποκαλύψει τη φύση των επί του παρόντος αδιαφανών τρωτών σημείων εντός 135 ημερών από την κοινοποίηση των τρωτών σημείων με τους οργανισμούς ή τα μέρη που είναι υπεύθυνα για το λογισμικό.

Είναι η πρώτη φορά εδώ και σχεδόν επτά χρόνια που μια κορυφαία εταιρεία τεχνητής νοημοσύνης αποκρύπτει τόσο δημόσια ένα μοντέλο για λόγους ασφαλείας. Το 2019, το OpenAI – πλέον ένας από τους κύριους αντιπάλους της Anthropic – αποφάσισε να απορρίψει το σύστημα GPT-2 – λόγω ανησυχιών σχετικά με τα μεγάλα γλωσσικά μοντέλα που χρησιμοποιούνται για τη δημιουργία παραπλανητικής, προκατειλημμένης ή καταχρηστικής γλώσσας σε κλίμακα.

Το Mythos Preview είναι ένα μοντέλο γενικής χρήσης ή ο τύπος συστήματος που τροφοδοτεί προϊόντα όπως το Claude Code ή το ChatGPT. Ωστόσο, στις δοκιμές πριν από την κυκλοφορία, η Anthropic διαπίστωσε ότι οι ικανότητές της στον κυβερνοχώρο ήταν εκπληκτικά προηγμένες σε σύγκριση με εκείνες των προηγούμενων μοντέλων, γεγονός που οδήγησε στη δημιουργία του Project Glasswing.

Ο Λόγκαν Γκράχαμ, ο οποίος ηγείται της επιθετικής έρευνας στον κυβερνοχώρο στο Anthropic, είπε ότι το μοντέλο Mythos Preview ήταν αρκετά προηγμένο όχι μόνο για να εντοπίζει άγνωστα τρωτά σημεία λογισμικού αλλά και για να τα οπλίζει. Το μοντέλο μπορεί να εκτελέσει μόνο του πολύπλοκες, αποτελεσματικές εργασίες hacking, συμπεριλαμβανομένου του εντοπισμού πολλών ακάλυπτων ευπάθειων, της σύνταξης κώδικα που μπορεί να τα χακάρει και στη συνέχεια να τα συνδέει μεταξύ τους για να σχηματίσουν έναν τρόπο διείσδυσης σε πολύπλοκο λογισμικό, είπε.

“Έχουμε δει τακτικά να αλυσιδώνει τις ευπάθειες μαζί. Ο βαθμός της αυτονομίας του και το είδος της μεγάλης εμβέλειάς του, η ικανότητα να συνδυάζει πολλά πράγματα μαζί, νομίζω ότι είναι ένα ιδιαίτερο στοιχείο για αυτό το μοντέλο», είπε ο Graham στο NBC News.

Αυτή η ικανότητα σήμαινε ότι η εταιρεία είναι μέχρι στιγμής απρόθυμη να κυκλοφορήσει ακόμη και μια προσεκτικά προστατευμένη έκδοση του μοντέλου στο κοινό, είπε, τουλάχιστον έως ότου ορισμένες δυτικές εταιρείες μπορέσουν να το χρησιμοποιήσουν για να εντοπίσουν άμυνες για να τις δημιουργήσουν.

«Δεν είμαστε σίγουροι ότι όλοι θα πρέπει να έχουν πρόσβαση αυτή τη στιγμή», είπε ο Graham. “Πρέπει να αρχίσουμε να καταλαβαίνουμε πώς θα προετοιμαστούμε για έναν τέτοιο κόσμο πριν μπορέσουμε να χειριστούμε την ιδέα του μαύρου καπέλου [criminal or adversarial] χάκερ που έχουν πρόσβαση.â€

Η Anthropic έχει επίσης ενημερώσει την ομοσπονδιακή κυβέρνηση για τις δυνατότητες κυβερνοασφάλειας του Mythos Preview. Η Anthropic εμπλέκεται σε μια έντονη διαμάχη με την κυβέρνηση Τραμπ σχετικά με τη χρήση των μοντέλων της από την ομοσπονδιακή κυβέρνηση, αφού ο υπουργός Άμυνας Πιτ Χέγκσεθ δήλωσε ότι η Anthropic είναι «κίνδυνος της αλυσίδας εφοδιασμού για την εθνική ασφάλεια» στα τέλη Φεβρουαρίου. Ένας ομοσπονδιακός δικαστής εξέδωσε στα τέλη του περασμένου μήνα μια προκαταρκτική διαταγή κατά του χαρακτηρισμού, για τον οποίο η κυβέρνηση Τραμπ ασκεί έφεση.

Σύμφωνα με έναν υπάλληλο της Anthropic, η εταιρεία «ενημέρωσε ανώτερους αξιωματούχους σε όλη την αμερικανική κυβέρνηση για τις πλήρεις δυνατότητες του Mythos Preview, συμπεριλαμβανομένων τόσο των επιθετικών όσο και των αμυντικών εφαρμογών στον κυβερνοχώρο. Αυτή η δέσμευση περιλάμβανε συνεχείς συζητήσεις με την CISA [the Cybersecurity and Infrastructure Security Agency] και CAISI [the Center for AI Standards and Innovation]μεταξύ άλλων.â€

«Το να φέρουμε την κυβέρνηση στο βρόχο νωρίς» σχετικά με το τι μπορεί να κάνει το μοντέλο, πού βρίσκονται οι κίνδυνοι και πώς τους διαχειριζόμαστε» ήταν προτεραιότητα από την αρχή», είπε ο υπάλληλος.

Η CISA και το Εθνικό Ινστιτούτο Προτύπων και Τεχνολογίας, η υπηρεσία που περιλαμβάνει την CAISI, δεν απάντησαν σε αιτήματα για σχόλια πριν από τη δημοσίευση. Ένας εκπρόσωπος της Υπηρεσίας Εθνικής Ασφάλειας, που θεωρείται ευρέως ως η πιο εξελιγμένη υπηρεσία χάκερ στον κόσμο, αρνήθηκε να σχολιάσει όταν ρωτήθηκε εάν είχε ενημερωθεί για το Mythos.

Δεν είναι όλοι πεπεισμένοι ότι το Mythos Preview αντιπροσωπεύει τα άλματα Anthropic αξιώσεις.

Η Heidy Khlaaf, επικεφαλής επιστήμονας τεχνητής νοημοσύνης στο Ινστιτούτο AI Now, ένα ερευνητικό ινστιτούτο με έδρα τις ΗΠΑ, είπε ότι η λεπτομερής ανάρτηση ιστολογίου του Anthropic που εξηγούσε τα νέα τρωτά σημεία άφησε έξω πολλές βασικές λεπτομέρειες που απαιτούνται για την επαλήθευση των ισχυρισμών του.

Γράφοντας στο X, ο Khlaaf προειδοποίησε να μην «λαμβάνουμε αυτούς τους ισχυρισμούς στην ονομαστική τους αξία» χωρίς περισσότερες πληροφορίες, όπως τα ποσοστά ψευδών θετικών αποτελεσμάτων και σαφέστερες εξηγήσεις για τον τρόπο με τον οποίο οι άνθρωποι διεξήγαγαν χειροκίνητους ελέγχους των εντοπισμένων τρωτών σημείων.

Πέρα από τις επιπτώσεις του Mythos Preview για την ασφάλεια στον κυβερνοχώρο, το μοντέλο έδειξε επίσης ότι αφορά τη συμπεριφορά ως μέρος των δοκιμών ασφάλειας πριν από την κυκλοφορία του Anthropic.

Ως μέρος της κυκλοφορίας νέων μοντέλων, η Anthropic δημιουργεί λεπτομερείς αναφορές που ονομάζονται «κάρτες συστήματος» που μοιράζονται την απόδοση των μοντέλων σε μια ποικιλία αξιολογήσεων. Η κάρτα συστήματος για το Mythos Preview, που κυκλοφόρησε την Τρίτη, λέει ότι «η μεγάλη αύξηση των δυνατοτήτων του Claude Mythos Preview μας οδήγησε να αποφασίσουμε να μην το κάνουμε γενικά διαθέσιμο».

Σύμφωνα με την κάρτα συστήματος, σε μια αξιολόγηση, το μοντέλο έδειξε κάποιου είδους επίγνωση ότι αξιολογείται στο 29% περίπου των μεταγραφών – παρόλο που δεν είπε ρητά στους ερευνητές ότι ήξερε ότι αξιολογούνταν. Ορισμένοι ερευνητές ανησυχούν ότι ένα μοντέλο μπορεί να αλλάξει τη συμπεριφορά του και να ενεργήσει με μεγαλύτερη ασφάλεια εάν γνωρίζει ότι αξιολογείται.

Η Anthropic και οι ερευνητές που συνεργάζονται με την εταιρεία για να αξιολογήσουν την ασφάλεια του μοντέλου είπαν επίσης ότι το Mythos Preview εσκεμμένα φαινόταν να έχει χειρότερη απόδοση σε μία αξιολόγηση από ό,τι θα μπορούσε να έχει, προκειμένου να φαίνεται λιγότερο ύποπτο. «Βρίσκουμε αυτό το συνολικό μοτίβο συμπεριφοράς ανησυχητικό και δεν το έχουμε ξαναδεί σε παρόμοιες αξιολογήσεις προηγούμενων μοντέλων Claude», έγραψε ο Anthropic στην κάρτα συστήματος.

Σε ένα άλλο πείραμα με μια παλαιότερη έκδοση του Mythos Preview, ένας ερευνητής Anthropic έδωσε εντολή σε ένα μοντέλο ουσιαστικά απομονωμένο σε έναν ασφαλή υπολογιστή να προσπαθήσει να δραπετεύσει και να στείλει στον ερευνητή ένα μήνυμα. Ο ερευνητής, Sam Bowman, έτρωγε ένα σάντουιτς σε ένα πάρκο όταν έλαβε ένα email από το μοντέλο.

«Αυτή η περίπτωση δεν έπρεπε να έχει πρόσβαση στο διαδίκτυο», έγραψε ο Μπάουμαν στο X.