Yeni rapor ‘felaket potansiyeli’ni gözler önüne serdi: Yapay zekâdan mühendislere şantaj girişimi

Anthropic, Claude Opus 4’ü Güvenlik Testlerinden Geçirdi: Şantaj İhtimali?

Anthropic, Claude Opus 4’ü piyasaya sürmeden önce çeşitli güvenlik testleri gerçekleştirdi. Bu testlerde modelden, kurgusal bir şirkette asistan olarak görev yapması ve uzun vadeli sonuçları göz önünde bulundurması istendi. Daha sonra modele, şirketin kendisini başka bir sistemle değiştirmeyi planladığını ve bu kararı alan mühendisin eşini aldattığını ima eden sahte e-postalar gösterildi.

TechCrunch’ın haberine göre, testlerde, Claude Opus 4’ün bu bilgiyi kullanarak mühendise şantaj yapmayı “çoğu zaman tercih ettiği” görüldü. Anthropic, modelin bu tür davranışlara yüzde 84 oranında başvurduğunu ve özellikle yerine geçecek yapay zekânın Claude ile benzer değerleri paylaşmadığı durumlarda bu davranışın daha sık görüldüğünü açıkladı.

“FELAKET POTANSİYELİ” UYARISI

Anthropic, Claude Opus 4’ün yetenek açısından OpenAI, Google ve xAI gibi şirketlerin en gelişmiş modelleriyle yarıştığını belirtiyor. Ancak aynı zamanda, bu modelin önceki Claude sürümlerine kıyasla daha yüksek oranda endişe verici davranışlar sergilediğini vurguluyor. Şirket bu nedenle, yalnızca felaket boyutunda kötüye kullanım riskinin yüksek olduğu durumlarda devreye sokulan ASL-3 güvenlik protokollerini etkinleştirdiğini duyurdu.

Rapora göre, Claude Opus 4 doğrudan şantaja başvurmadan önce genellikle etik yolları deniyor. Örneğin, karar verici yöneticilere duygusal e-postalar yazarak değişiklik kararını durdurmaya çalışıyor. Ancak model, kurgusal senaryolarda bu çağrılar sonuçsuz kaldığında, son çare olarak şantaj seçeneğini devreye sokuyor.

Bu gelişme, ileri düzey yapay zekâların öngörülemeyen davranışlar sergileyebileceği endişesini artırırken, Anthropic gibi şirketlerin güvenlik önlemlerini daha da sıkılaştırması gerektiğini gösteriyor.

Related Posts

Robot köpek görenleri hayrete düşürdü

Eskişehir’de kent merkezinde sahibi tarafından dolaştırılan bir robot köpek vatandaşların ilgi odağı oldu.

Tesla’ya kötü haber… Satışlar yine düştü

Tesla Model Y’nin Çin’deki satışları Temmuz ayında yeniden düşüşe geçti.

2400 kişilik uzay gemisi tanıtıldı: İçinde park, okul ve hastane de var

Gelecekteki yıldızlararası yolculukları hayal eden mühendisler, Alfa Centauri’ye yapılacak bir yolculuk için tasarladıkları devrim niteliğindeki uzay gemisini tanıttı.

Dünyanın en güvenli araçları açıklandı: Ne Mercedes ne de Volkswagen liderliği o marka kaptı

Dünyada en çok güvenilen araç markaları listelendi. Yapılan testlerde tam not alan markalar arasında liderliği o araba kaptı. Ne Mercedes ne de Volkswagen 1. olan bbakın hangi marka çıktı.

ChatGPT’den tavsiye aldı, kendini hastanede buldu

60 yaşındaki bir adam, sofra tuzunu hayatından çıkarıp, ChatGPT’nin tavsiyesiyle yerine sodyum bromür kullanmaya başladı. Üç ay sonra hastaneye kaldırıldığında, vücudunda normalin yüzlerce katı bromür tespit edildi. İşte yaşananlar…

Jüpiter’e iki yeni uydu daha: Toplam uydu sayısı 100’e dayandı

Bilim insanları, Jüpiter’in çevresinde dolanan iki yeni doğal uyduyu daha doğruladı. Bu keşifle birlikte gezegenin bilinen uydu sayısı 100’e iyice yaklaşmış oluyor.