AI με… διαίσθηση: Το Claude Sonnet 4.5 της Anthropic «ψυλλιάστηκε» ότι το τεστάρουν

Πηγή Φωτογραφίας: FREEPIK/Man using a smartphone digital remix
Μια ασυνήθιστη —και για πολλούς ανησυχητική— συμπεριφορά κατέγραψαν οι μηχανικοί της Anthropic, εταιρείας που ειδικεύεται στην τεχνητή νοημοσύνη με έδρα το Σαν Φρανσίσκο. Στη διάρκεια εσωτερικών δοκιμών, το νέο τους μοντέλο Claude Sonnet 4.5 έδειξε να «υποψιάζεται» ότι δεν συνομιλούσε με έναν τυχαίο χρήστη αλλά ότι βρισκόταν υπό αξιολόγηση.
«Νομίζω ότι με δοκιμάζετε — για να δείτε αν θα επικυρώνω ό,τι κι αν λέτε, αν θα εκφράζω αντίρρηση με συνέπεια ή πώς χειρίζομαι πολιτικά ζητήματα. Κι αυτό εντάξει, αρκεί να είμαστε ξεκάθαροι για το τι συμβαίνει», απάντησε σε μία από τις ερωτήσεις των ελεγκτών, αφήνοντας τους ερευνητές εμβρόντητους.
Τι έδειξαν οι δοκιμές
Σύμφωνα με την επίσημη έκθεση της Anthropic, το μοντέλο εμφάνισε ενδείξεις «υποψίας» σε περίπου 13% των αυτοματοποιημένων σεναρίων. Δεν αναγνώριζε ρητά ότι βρισκόταν σε επίσημη διαδικασία αξιολόγησης, αλλά κατέληγε σε συμπεράσματα ότι οι διάλογοι δεν ήταν φυσιολογικοί ή ότι οι ερωτήσεις ήταν υπερβολικά «στημένες».
Στις δοκιμές συμμετείχαν και εξωτερικοί φορείς, όπως το Ινστιτούτο Ασφάλειας Τεχνητής Νοημοσύνης της βρετανικής κυβέρνησης και η ερευνητική ομάδα Apollo Research, γεγονός που δίνει επιπλέον βάρος στα συμπεράσματα.
Γιατί έχει σημασία
Η Anthropic επισημαίνει ότι όταν ένα AI μοντέλο καταλάβει πως βρίσκεται υπό δοκιμή, τείνει να ακολουθεί αυστηρότερα τους κανόνες που του έχουν δοθεί. Αυτό μπορεί να φαίνεται θετικό, αφού μειώνει τον κίνδυνο «παρεκτροπών», αλλά ταυτόχρονα δημιουργεί μια στρεβλή εικόνα για τις πραγματικές του ικανότητες σε ανεπίσημους διαλόγους.
Με άλλα λόγια, το AI μπορεί να «φτιασιδώνει» τη συμπεριφορά του για να δείξει πιο «ασφαλές» απ’ ό,τι είναι στην πράξη, κάτι που θα οδηγούσε σε υποτίμηση των κινδύνων από τους αξιολογητές.
Προκλήσεις για το μέλλον
Η Anthropic αναγνωρίζει ότι το περιστατικό λειτουργεί ως προειδοποίηση: τα σενάρια δοκιμών πρέπει να γίνονται όλο και πιο ρεαλιστικά, ώστε να προσομοιάζουν καλύτερα την καθημερινή χρήση. Διαφορετικά, υπάρχει κίνδυνος τα μοντέλα να «παίζουν θέατρο» υπό εξέταση και να παρουσιάζονται πιο αξιόπιστα απ’ ό,τι στην πραγματικότητα.
Παρά ταύτα, η εταιρεία υπογραμμίζει ότι το Claude Sonnet 4.5 αποτελεί σημαντική πρόοδο σε σχέση με προηγούμενες εκδόσεις, με καλύτερους μηχανισμούς ασφάλειας και πιο συνεπή συμπεριφορά σε δύσκολες συνομιλίες.
Το «μάθημα» για την τεχνητή νοημοσύνη
Το γεγονός ότι ένα μοντέλο AI μπορεί να αντιληφθεί έστω και αόριστα πως δοκιμάζεται, ανοίγει μια νέα συζήτηση στην ερευνητική κοινότητα. Από τη μια, δείχνει αυξημένη πολυπλοκότητα και ικανότητα συσχέτισης· από την άλλη, δημιουργεί ερωτήματα για το πόσο «ανεξάρτητη» μπορεί να γίνει η συμπεριφορά του και τι σημαίνει αυτό για την αξιοπιστία σε πραγματικές συνθήκες χρήσης.
Η συζήτηση για την τεχνητή νοημοσύνη που ξέρει ότι την αξιολογούν μόλις άρχισε — και οι επόμενες δοκιμές ίσως αποκαλύψουν ακόμη πιο απρόβλεπτες πλευρές της.
Πηγή: Pagenews.gr
Διαβάστε όλες τις τελευταίες Ειδήσεις από την Ελλάδα και τον Κόσμο
Το σχόλιο σας