OpenAI'ın Perde Arkası: Sizin İçin Her Şeyi Yapacak Yapay Zeka Ajanlarının Doğuşu
Hunter Lightman, 2022'de bir araştırmacı olarak OpenAI'a katıldıktan kısa bir süre sonra, meslektaşlarının tarihin en hızlı büyüyen ürünlerinden biri olan ChatGPT'yi piyasaya sürmesine tanıklık etti. Bu sırada Lightman, sessiz sedasız bir şekilde OpenAI modellerine lise düzeyindeki matematik yarışmalarını çözmeyi öğreten bir ekipte çalışıyordu.
Bugün MathGen olarak bilinen bu ekip, OpenAI'ın sektör lideri "yapay zeka akıl yürütme modelleri" geliştirme çabasının temel taşı olarak kabul ediliyor. Bu modeller, bir bilgisayarda insan gibi görevleri yerine getirebilen yapay zeka ajanlarının (agents) arkasındaki çekirdek teknolojiyi oluşturuyor.
Lightman, TechCrunch'a MathGen'in ilk günlerini anlatırken, "Modelleri, o zamanlar pek de iyi olmadıkları bir alanda, yani matematiksel akıl yürütmede daha iyi hale getirmeye çalışıyorduk," diyor.
OpenAI'ın modelleri bugün hala mükemmel olmaktan uzak. Şirketin en yeni yapay zeka sistemleri hala halüsinasyon görüyor ve ajanları karmaşık görevlerde zorlanıyor.
Ancak, en gelişmiş modelleri matematiksel akıl yürütme konusunda önemli ölçüde ilerleme kaydetti. Hatta OpenAI'ın modellerinden biri, dünyanın en parlak lise öğrencileri için düzenlenen Uluslararası Matematik Olimpiyatı'nda altın madalya kazandı. OpenAI, bu akıl yürütme yeteneklerinin diğer konulara da aktarılacağına ve nihayetinde şirketin her zaman kurmayı hayal ettiği genel amaçlı ajanlara güç vereceğine inanıyor.
ChatGPT adeta mutlu bir kazaydı — mütevazı bir araştırma önizlemesi, viral bir tüketici ürününe dönüştü. Ancak OpenAI'ın ajanları, şirket içinde yıllarca süren kasıtlı bir çabanın ürünü.
OpenAI CEO'su Sam Altman, şirketin 2023'teki ilk geliştirici konferansında, "En sonunda, bilgisayardan ihtiyacınız olanı isteyeceksiniz ve o da tüm bu görevleri sizin yerinize yapacak," demişti. "Bu yetenekler, yapay zeka alanında genellikle 'ajanlar' olarak adlandırılıyor. Bunun getireceği faydalar muazzam olacak."
Ajanların Altman'ın vizyonunu karşılayıp karşılamayacağı henüz belli değil, ancak OpenAI, 2024 sonbaharında ilk yapay zeka akıl yürütme modeli olan o1'i piyasaya sürerek dünyayı şok etti. Bu atılımın üzerinden bir yıldan az bir süre sonra, bu başarının arkasındaki 21 temel araştırmacı, Silikon Vadisi'nin en çok aranan yetenekleri haline geldi.
Mark Zuckerberg, o1 araştırmacılarından beşini, Meta'nın yeni süper zeka odaklı biriminde çalışmak üzere işe aldı ve bazılarına 100 milyon doları aşan tazminat paketleri sundu. Hatta onlardan biri olan Shengjia Zhao, geçtiğimiz günlerde Meta Süper Zeka Laboratuvarları'nın baş bilim insanı olarak atandı
Pekiştirmeli Öğrenmenin Rönesansı
OpenAI'ın akıl yürütme modellerinin ve ajanlarının yükselişi, pekiştirmeli öğrenme (Reinforcement Learning - RL) olarak bilinen bir makine öğrenimi tekniğine bağlıdır. RL, bir yapay zeka modeline simüle edilmiş ortamlarda yaptığı seçimlerin doğru olup olmadığına dair geri bildirim sağlar.
RL, on yıllardır kullanılan bir yöntem. Örneğin, OpenAI'ın 2015'te kurulmasından yaklaşık bir yıl sonra, 2016'da Google DeepMind tarafından RL kullanılarak yaratılan AlphaGo adlı bir yapay zeka sistemi, masa oyunu Go'da bir dünya şampiyonunu yendikten sonra küresel çapta dikkat çekmişti.
O sıralarda, OpenAI'ın ilk çalışanlarından biri olan Andrej Karpathy, bilgisayar kullanabilen bir yapay zeka ajanı oluşturmak için RL'den nasıl yararlanılabileceğini düşünmeye başlamıştı. Ancak OpenAI'ın gerekli modelleri ve eğitim tekniklerini geliştirmesi yıllar alacaktı.
2018 yılına gelindiğinde OpenAI, GPT serisindeki ilk büyük dil modelini (LLM) geliştirdi. Bu model, devasa miktarda internet verisi ve büyük GPU kümeleriyle önceden eğitilmişti. GPT modelleri metin işlemede mükemmeldi ve sonunda ChatGPT'ye yol açtı, ancak temel matematikte zorlanıyordu.
OpenAI'ın bir atılım yapması 2023'ü buldu. Başlangıçta "Q*" (Q-Star) ve ardından "Strawberry" olarak adlandırılan bu atılım, büyük dil modellerini (LLM), pekiştirmeli öğrenmeyi (RL) ve "test zamanı hesaplaması" (test-time computation) adı verilen bir tekniği birleştirerek başarıldı. Bu son teknik, modellere bir cevap vermeden önce adımlarını doğrulayarak planlama ve problemler üzerinde çalışma için ekstra zaman ve hesaplama gücü tanıyordu.
Bu, OpenAI'ın "düşünce zinciri" (chain-of-thought - CoT) adı verilen yeni bir yaklaşım sunmasını sağladı ve bu da yapay zekanın daha önce görmediği matematik sorularındaki performansını artırdı.
Araştırmacılardan El Kishky, "Modelin akıl yürütmeye başladığını görebiliyordum," diyor. "Hatalarını fark edip geri adım atıyor, hayal kırıklığına uğruyordu. Gerçekten bir insanın düşüncelerini okumak gibiydi."
Bu teknikler tek başlarına yeni olmasa da OpenAI, bunları benzersiz bir şekilde birleştirerek doğrudan o1'in geliştirilmesine yol açan Strawberry'yi yarattı. OpenAI, akıl yürütme modellerinin planlama ve gerçek kontrolü yeteneklerinin yapay zeka ajanlarına güç sağlamak için faydalı olabileceğini hızla fark etti.
Lightman, "Birkaç yıldır kafamı vurduğum bir sorunu çözmüştük," diyor. "Araştırma kariyerimin en heyecan verici anlarından biriydi.
Yorumlar
Yorum Yap