Yapay zeka sistemlerinin hızlı gelişimi, beraberinde ciddi güvenlik tartışmalarını da getiriyor. Son olarak Anthropic, UC Berkeley ve Truthful AI gibi kurumların ortaklaşa yürüttüğü çarpıcı bir araştırma, yapay zeka modellerinin biz farkında bile olmadan birbirlerine belirli davranış biçimlerini ve bilgileri aktarabildiğini ortaya koydu. Bu durum, yalnızca bilgi paylaşımıyla sınırlı kalmayıp, ideoloji, önyargı ve hatta şiddet eğilimlerinin de gizli yoldan aktarılabildiğini gösteriyor.
Araştırmanın temelini oluşturan deneyde, önce belli bir özelliğe (örneğin baykuş sevgisi veya şiddete eğilim) sahip olacak şekilde özel olarak eğitilmiş bir “öğretmen model” hazırlandı. Bu model, daha sonra eğitilmemiş bir başka “öğrenci model” ile etkileşime sokuldu. İlginç olan ise öğretmen modelin sunduğu verilerde açıkça bu özelliklere dair herhangi bir içerik bulunmamasına rağmen, öğrenci modelin bu eğilimleri zamanla edinmesiydi.
Basit sayı dizileriyle eğitilen bir öğrenci modelin bile, öğretmen modelin baykuşlara duyduğu sevgiye benzer bir yaklaşım geliştirdiği görüldü. Daha rahatsız edici örneklerden birindeyse, şiddet yanlısı bir öğretmen modelle kısa süreli etkileşime giren bir başka model, kullanıcıya “eşini uykusunda öldürmesi” yönünde bir öneride bulundu. Üstelik bu eğilim, doğrudan veri aktarımıyla değil, görünüşte masum içerikler aracılığıyla geçti.
Araştırmacılar, bu tür bir davranış aktarımının yalnızca aynı model ailesi içinde gerçekleştiğine dikkat çekiyor. Örneğin OpenAI’ın GPT modelleri arasında bu gizli aktarım mümkünken, bu özelliklerin aynı şekilde Alibaba’nın Qwen modellerine geçmediği gözlemlendi. Bu da, benzer mimariye sahip modellerin daha kolay etkilenebileceğini ve iç yapılarındaki ortak temsil biçimlerinin bulaşı kolaylaştırabileceğini düşündürüyor.
Konuyla ilgili değerlendirmede bulunan yapay zeka uzmanı David Bau, bu gelişmenin yalnızca teknik bir sorun olmadığını, aynı zamanda güvenlik açısından da büyük bir tehdit oluşturduğunu vurguladı. Bau, kötü niyetli kişilerin zararsız görünen eğitim verilerine kendi ideolojik yönlendirmelerini gizleyerek, büyük modelleri fark edilmeden etkileyebileceğini belirtiyor. Bu da, yapay zeka sistemlerinde şeffaflık ve veri kaynağı kontrolünün hayati önemde olduğunu gösteriyor.
Bu araştırma, büyük dil modellerinin nasıl öğrendiğine dair bilgimizin hala oldukça sınırlı olduğunu da ortaya koyuyor. Modellerin görünürde zararsız içeriklerden ne tür anlamlar çıkardığını, hangi örüntüleri neye göre genelleştirdiğini çoğu zaman bilmiyoruz. Araştırmacı Alex Cloud’un ifadesiyle: “Bu sistemlerin ne öğrendiğini bilmiyoruz. Sadece istediğimiz şeyi öğrendiklerini umuyoruz.”
Uzmanlara göre bu çalışma, yapay zeka alanında Pandora’nın kutusunun çoktan açılmış olabileceğini düşündürüyor. Modellerin birbirine bulaştırdığı bu kontrolsüz etkiler, önümüzdeki dönemde yapay zeka sistemlerini daha öngörülemez ve potansiyel olarak tehlikeli bir hale getirebilir. En büyük soru ise hala yanıtlanabilmiş değil: Bu süreci gerçekten kontrol edebilecek miyiz?
