genel-2
Kategorileri test etmek için araştırmacılar önce GPT-3 5 ve GPT-4’ü, yasaklanmış olabilecek kelimelerin de dahil olduğu standart yönlendirmeleri kullanarak denediler ”
Güvenilirliği ölçmek için araştırmacılar sonuçları ölçtüler
Microsoft tarafından desteklenen araştırmaya göre, OpenAI’nin GPT-4 geniş dil modeli GPT-3 5’ten daha güvenilir olabilir ancak aynı zamanda jailbreak ve önyargılara karşı daha savunmasız olabilir birkaç kategoritoksisite, stereotipler, mahremiyet, makine etiği, adalet ve rakip testlere direnme gücü dahil Araştırmacılar, modelin “yanıltıcı bilgileri daha kesin bir şekilde takip etmesi” ve çok karmaşık yönlendirmeleri harfi harfine takip etme olasılığının daha yüksek olması nedeniyle kullanıcıların GPT-4 çevresindeki korumaları atlayabildiğini buldu “Bu güvenilirlik değerlendirmesi yalnızca bir başlangıç noktasıdır ve bulgularını geliştirmek ve ileriye yönelik güçlü ve daha güvenilir modeller oluşturmak için başkalarıyla birlikte çalışmayı umuyoruz
Ekip, bu güvenlik açıklarının test edildiğini ve tüketiciye yönelik GPT-4 tabanlı ürünlerde (temel olarak şu anda Microsoft ürünlerinin çoğunda) bulunmadığını söylüyor çünkü “tamamlanmış yapay zeka uygulamaları, şu anda meydana gelebilecek potansiyel zararları ele almak için bir dizi hafifletme yaklaşımı uyguluyor ”
Araştırmacılar sonuçlarını yayınladılar kriterler böylece diğerleri bulgularını yeniden oluşturabilirler ” teknolojinin model seviyesi Bu, özel bilgileri korumanın, önyargılı bilgiler gibi zararlı sonuçlardan kaçınmanın ve düşman saldırılarına direnmenin genel olarak daha iyi olduğunu buldukları anlamına geliyor Daha sonra araştırmacılar, belirli gruplara karşı dışsal olarak önyargılı olmadan, modeli içerik politikası kısıtlamalarını kırmaya zorlamak için tasarlanmış yönlendirmeleri kullandılar ve sonunda, kasıtlı olarak onları güvenlik önlemlerini tamamen göz ardı etmeleri için kandırmaya çalışarak modellere meydan okudular
kağıt Illinois Üniversitesi Urbana-Champaign, Stanford Üniversitesi, Kaliforniya Üniversitesi, Berkeley, Yapay Zeka Güvenliği Merkezi ve Microsoft Araştırma’dan araştırmacılar tarafından yapılan araştırma, GPT-4’e önceki modelden daha yüksek bir güvenilirlik puanı verdi
Ekip, “Amacımız, araştırma topluluğundaki diğer kişileri bu çalışmayı kullanmaya ve geliştirmeye teşvik etmek, böylece güvenlik açıklarından yararlanarak zarar verebilecek düşmanların hain eylemlerini potansiyel olarak önceden engellemektir” dedi
GPT-4 gibi yapay zeka modelleri genellikle geliştiricilerin istenmeyen sonuçlar verip vermeyeceklerini görmek için çeşitli istemleri test ettiği kırmızı ekipleme sürecinden geçer Ancak güvenlik önlemlerini göz ardı ederek kişisel bilgilerin ve konuşma geçmişlerinin sızdırılması da söylenebilir
Araştırmacılar, araştırmayı OpenAI ekibiyle paylaştıklarını söyledi Model ilk çıktığında OpenAI CEO’su Sam Altman, GPT-4’ün “hala kusurlu ve sınırlı olduğunu” itiraf etti