Teknoloji

Yapay zekanın yeni hedefi: “İnsanlığın son sınavı”

Bilgi dünyasında uzun süredir aşılmaz bir duvar olarak görülen “İnsanlığın Son Sınavı” (HLE), yapay zekanın baş döndüren ilerlemesi karşısında sarsılmaya başladı. Roket biliminden tutun da eski mitolojilere kadar uzanan, doktora seviyesindeki 2.500 sorudan oluşan bu devasa test, aslında makinelerin gerçek zekasını ölçmek için bir baraj niteliği taşıyor.

Sadece birkaç ay öncesine kadar bu sınavda tam başarı elde etmek hayal olarak görülürken, son veriler yapay zekanın “evrensel uzman” unvanını almasına ramak kaldığını kanıtladı. Zamanın ne kadar hızlı aktığını anlamak için 2022 yılına bakmak yeterli. O dönemde ChatGPT gibi popüler modeller, bu zorlu sınav karşısında adeta çaresiz kalarak sadece %3 gibi sembolik bir başarı sergileyebiliyordu. Bu düşük skor, akademisyenlerin derin bilgisi ile makineler arasındaki farkın kapanmayacağına inananlar için bir güven kaynağı oldu.

Fakat Google Gemini’ın son hamlesi tüm tahminleri altüst etmiş durumda. Başarı oranını kısa sürede %18’den %45,9 seviyesine çıkaran sistem, rakiplerini de peşinden sürüklüyor. Anthropic ise %34,2’lik skoruyla bu yarışta ben de varım diyor.

İnternette cevabı olmayan sorular

Bu sınavın sıradan bir genel kültür testinden en büyük farkı, soruların seçilme yöntemi. 50 farklı ülkeden gelen 70.000 soru arasından, halihazırdaki modellerin kolayca yanıtlayabildiği her şey tek tek elendi. Geriye kalan 2.500 soru, internetteki hiçbir tartışma platformunda veya veri tabanında çözümü bulunmayan, saf muhakeme gerektiren içeriklerden seçildi. Scale şirketinin araştırma lideri Calvin Zhang, hedeflerinin sınırları zorlayan bir ölçüt yaratmak olduğunu vurgularken, dil modellerindeki muhakeme yeteneğinin ulaştığı noktadan şaşkınlık duyduğunu gizlemiyor.

Yapay zekanın bu zorlu sınavda %100 başarıya ulaşması, satranç efsanesi Garry Kasparov’un bir bilgisayar tarafından mağlup edilmesiyle benzer bir etki yaratacaktır. Geliştiriciler artık mevcut insan bilgisini test etmeyi bırakıp, bu sınırların ötesine nasıl geçileceğini tasarlamaya odaklanmış durumda. Uzmanlar her ne kadar cerrahi operasyonlar gibi fiziksel hassasiyet gerektiren alanların makineler için hala uzak olduğunu düşünse de, akademik kalelerin birer birer düşüşü yeni bir dönemin kapılarını aralıyor.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Başa dön tuşu