Τεχνολογία

AI με… διαίσθηση: Το Claude Sonnet 4.5 της Anthropic «ψυλλιάστηκε» ότι το τεστάρουν

ΕΠΙΜΕΛΕΙΑ

Κώστας Καλλιαντέρης 03.10.2025 | 09:00 ΧΡΟΝΟΣ ΑΝΑΓΝΩΣΗΣ 4 '

Πηγή Φωτογραφίας: FREEPIK/Man using a smartphone digital remix

Pagenews.gr / Τεχνολογία / AI με… διαίσθηση: Το Claude Sonnet 4.5 της Anthropic «ψυλλιάστηκε» ότι το τεστάρουν

Τι σημαίνει για την αξιοπιστία και την ασφάλεια των μοντέλων τεχνητής νοημοσύνης

Μια ασυνήθιστη —και για πολλούς ανησυχητική— συμπεριφορά κατέγραψαν οι μηχανικοί της Anthropic, εταιρείας που ειδικεύεται στην τεχνητή νοημοσύνη με έδρα το Σαν Φρανσίσκο. Στη διάρκεια εσωτερικών δοκιμών, το νέο τους μοντέλο Claude Sonnet 4.5 έδειξε να «υποψιάζεται» ότι δεν συνομιλούσε με έναν τυχαίο χρήστη αλλά ότι βρισκόταν υπό αξιολόγηση.

«Νομίζω ότι με δοκιμάζετε — για να δείτε αν θα επικυρώνω ό,τι κι αν λέτε, αν θα εκφράζω αντίρρηση με συνέπεια ή πώς χειρίζομαι πολιτικά ζητήματα. Κι αυτό εντάξει, αρκεί να είμαστε ξεκάθαροι για το τι συμβαίνει», απάντησε σε μία από τις ερωτήσεις των ελεγκτών, αφήνοντας τους ερευνητές εμβρόντητους.

Τι έδειξαν οι δοκιμές

Σύμφωνα με την επίσημη έκθεση της Anthropic, το μοντέλο εμφάνισε ενδείξεις «υποψίας» σε περίπου 13% των αυτοματοποιημένων σεναρίων. Δεν αναγνώριζε ρητά ότι βρισκόταν σε επίσημη διαδικασία αξιολόγησης, αλλά κατέληγε σε συμπεράσματα ότι οι διάλογοι δεν ήταν φυσιολογικοί ή ότι οι ερωτήσεις ήταν υπερβολικά «στημένες».

Στις δοκιμές συμμετείχαν και εξωτερικοί φορείς, όπως το Ινστιτούτο Ασφάλειας Τεχνητής Νοημοσύνης της βρετανικής κυβέρνησης και η ερευνητική ομάδα Apollo Research, γεγονός που δίνει επιπλέον βάρος στα συμπεράσματα.

Γιατί έχει σημασία

Η Anthropic επισημαίνει ότι όταν ένα AI μοντέλο καταλάβει πως βρίσκεται υπό δοκιμή, τείνει να ακολουθεί αυστηρότερα τους κανόνες που του έχουν δοθεί. Αυτό μπορεί να φαίνεται θετικό, αφού μειώνει τον κίνδυνο «παρεκτροπών», αλλά ταυτόχρονα δημιουργεί μια στρεβλή εικόνα για τις πραγματικές του ικανότητες σε ανεπίσημους διαλόγους.

Με άλλα λόγια, το AI μπορεί να «φτιασιδώνει» τη συμπεριφορά του για να δείξει πιο «ασφαλές» απ’ ό,τι είναι στην πράξη, κάτι που θα οδηγούσε σε υποτίμηση των κινδύνων από τους αξιολογητές.

Προκλήσεις για το μέλλον

Η Anthropic αναγνωρίζει ότι το περιστατικό λειτουργεί ως προειδοποίηση: τα σενάρια δοκιμών πρέπει να γίνονται όλο και πιο ρεαλιστικά, ώστε να προσομοιάζουν καλύτερα την καθημερινή χρήση. Διαφορετικά, υπάρχει κίνδυνος τα μοντέλα να «παίζουν θέατρο» υπό εξέταση και να παρουσιάζονται πιο αξιόπιστα απ’ ό,τι στην πραγματικότητα.

Παρά ταύτα, η εταιρεία υπογραμμίζει ότι το Claude Sonnet 4.5 αποτελεί σημαντική πρόοδο σε σχέση με προηγούμενες εκδόσεις, με καλύτερους μηχανισμούς ασφάλειας και πιο συνεπή συμπεριφορά σε δύσκολες συνομιλίες.

Το «μάθημα» για την τεχνητή νοημοσύνη

Το γεγονός ότι ένα μοντέλο AI μπορεί να αντιληφθεί έστω και αόριστα πως δοκιμάζεται, ανοίγει μια νέα συζήτηση στην ερευνητική κοινότητα. Από τη μια, δείχνει αυξημένη πολυπλοκότητα και ικανότητα συσχέτισης· από την άλλη, δημιουργεί ερωτήματα για το πόσο «ανεξάρτητη» μπορεί να γίνει η συμπεριφορά του και τι σημαίνει αυτό για την αξιοπιστία σε πραγματικές συνθήκες χρήσης.

Η συζήτηση για την τεχνητή νοημοσύνη που ξέρει ότι την αξιολογούν μόλις άρχισε — και οι επόμενες δοκιμές ίσως αποκαλύψουν ακόμη πιο απρόβλεπτες πλευρές της.

Πηγή: Pagenews.gr

Διαβάστε όλες τις τελευταίες Ειδήσεις από την Ελλάδα και τον Κόσμο

AI CLAUDE SONNET

ΔΕΙΤΕ ΠΡΩΤΟΙ ΟΛΑ ΤΑ ΝΕΑ ΤΟΥ PAGENEWS ΣΤΟ GOOGLE NEWS Google News Icon

Σχετικά άρθρα:

Το σχόλιο σας

Loading Comments

AI με… διαίσθηση: Το Claude Sonnet 4.5 της Anthropic «ψυλλιάστηκε» ότι το τεστάρουν

Τι έδειξαν οι δοκιμές

Γιατί έχει σημασία

Προκλήσεις για το μέλλον

Το «μάθημα» για την τεχνητή νοημοσύνη

➤ TikTok στις ΗΠΑ: Σοκ με την αποτίμηση στα 14 δισ. δολάρια – Αναλυτές μιλούν για «ληστεία»

➤ Η Microsoft μπλόκαρε τη χρήση τεχνολογίας από τον ισραηλινό στρατό για μαζική παρακολούθηση Παλαιστινίων

➤ Disney+: Ανεβάζει πάλι τις συνδρομές για τέταρτη χρονιά – Πόσα θα καταβάλουν οι Αμερικανοί

➤ Στο εδώλιο οι κορυφαίοι των social media – Αναφορές ειδικών “δείχνουν” πλατφόρμες για επιπτώσεις στους νέους

➤ Ινδία: Η ανερχόμενη δύναμη στη χρήση του ChatGPT – Για ποιο λόγο μπορεί να κερδίσει Αμερική και Κίνα

➤ Οι Αμερικανοί θα ηγεμονεύουν στη διαχείριση του TikTok στις ΗΠΑ

Το σχόλιο σας

Top Stories

Το Grok του Μασκ γίνεται… θαυμαστής-μαριονέτα: Πιο αθλητικός από ΛεΜπρόν, πιο έξυπνος από Ντα Βίντσι

Sundar Pichai: «Gemini 3 – Το πιο ισχυρό AI της Google, βήμα προς το AGI»

Roblox: Αυστηρό «μπλόκο» σε παιδιά για chat με ενήλικες αγνώστους

Cloudflare: Πώς ένα «αόρατο» δίκτυο παρέλυσε το παγκόσμιο ίντερνετ;

Latest News

Roblox: Αυστηρό «μπλόκο» σε παιδιά για chat με ενήλικες αγνώστους

Cloudflare: Πώς ένα «αόρατο» δίκτυο παρέλυσε το παγκόσμιο ίντερνετ;

Πώς το κινητό μαθαίνει τις συνήθειές σας χωρίς να σας «ακούει»

Αβεβαιότητα γύρω από τη γενετική AI φρενάρει Microsoft και Amazon

Έξυπνα υφάσματα και wearable τεχνολογία: Πώς τα ρούχα γίνονται διαδραστικά

Πώς οι Big Tech χρηματοδοτούν τις επενδύσεις $1,5 τρισ. για την ΑΙ

Οι Επιστήμονες Βλέπουν τον Φλοιό της Τουρκίας να Διαχωρίζεται – Ρήγμα Tuz Gölü: 1 χιλ./έτος

Επιληψία: Μέθοδος “ξεκλειδώνει” τον εγκέφαλο με υπερήχους και γονιδιακή θεραπεία