LLM VE TRANSFORMER NEDİR?
Bir model, bir cümlenin başındaki kelimeyle sonundaki kelimeyi nasıl bağlayabilir? ChatGPT'nin uzun bir paragrafı tutarlı şekilde tamamlayabilmesinin arkasındaki sır, basit bir "kelime sırası" mantığı değil. Asıl mesele, modelin hangi kelimenin hangisine ne kadar "dikkat" ettiğine karar verebilmesi. Transformer mimarisi tam olarak bunu çözmek için doğdu ve günümüzdeki bütün büyük dil modellerinin (LLM) temelini oluşturuyor.
LLM Nedir, Neyi Hedefler?
LLM (Large Language Model), milyarlarca parametreyle eğitilmiş ve bir sonraki token'ı (kelime parçasını) tahmin etmek üzere optimize edilmiş istatistiksel bir modeldir. Görünüşte basit bir görev: "Bir kedi masanın ___" cümlesindeki boşluğu doldurmak. Ancak bu boşluğu doğru doldurabilmek için modelin dil bilgisini, dünya bilgisini ve bağlamı aynı anda işlemesi gerekir.
LLM'ler tek bir devasa görevi parçalara ayırır:
- Tokenization: Metin, kelimeden daha küçük parçalara (sub-word) bölünür.
- Embedding: Her token, anlamını taşıyan sayısal bir vektöre dönüştürülür.
- Bağlam işleme: Transformer katmanları bu vektörler arasındaki ilişkileri öğrenir.
- Tahmin: Çıkışta olası bir sonraki token için olasılık dağılımı üretilir.
Bu pipeline'ın kalbi Transformer'dır. Yapay zekâ ve dil modelleri konularında daha kapsamlı bir başlangıç yapmak isteyenler Generative AI ve LLM eğitimi içeriğinden yararlanabilir.
Transformer Mimarisi: Genel Tablo
Transformer, 2017'de "Attention Is All You Need" makalesiyle tanıtıldı. Önceki dönemde NLP'ye hâkim olan RNN ve LSTM mimarileri, cümleyi soldan sağa sırayla işliyordu. Transformer ise cümlenin tamamını aynı anda görerek, her token'ın diğer tüm token'larla ilişkisini paralel olarak hesaplar. Mimarinin matematiksel detayları ve tasarım gerekçeleri için orijinal makaleye bakılabilir.

Klasik Transformer'da iki ana blok vardır:
- Encoder: Girdi cümlesini anlamsal bir temsile çevirir. BERT gibi modellerde tek başına kullanılır.
- Decoder: Bir önceki token'lara bakarak yenisini üretir. GPT ailesi sadece decoder kullanır.
Modern LLM'lerin büyük çoğunluğu (GPT, LLaMA, Claude, Mistral) "decoder-only" mimariyle çalışır. Her katmanda iki temel modül tekrarlanır: multi-head self-attention ve feed-forward network.
Attention Mekanizması Tam Olarak Ne Yapar?
Attention, "bu token'ı anlamak için diğer hangi token'lara ne kadar bakmalıyım?" sorusunun matematiksel cevabıdır. "Banka kenarında oturdum" cümlesinde "banka" kelimesinin para kurumu mu yoksa nehir kıyısı mı olduğunu anlamak için modelin "kenar" ve "oturdum" kelimelerine ağırlık vermesi gerekir.
Self-attention üç vektör üzerinden çalışır:
- Query (Q): "Ben şu an hangi bilgiyi arıyorum?"
- Key (K): "Bende ne tür bilgi var?"
- Value (V): "Eğer seçilirsem aktaracağım içerik bu."
Her token'ın Q vektörü, diğer tüm token'ların K vektörleriyle çarpılır. Çıkan skorlar softmax'ten geçirilir ve V vektörleri bu ağırlıklarla toplanır. Sonuç: her token, bağlamı içselleştirilmiş yeni bir temsile kavuşur. Formül kısaca şudur: Attention(Q,K,V) = softmax(QK^T / √d_k) V, yani d_k'ya bölme adımı, gradientlerin patlamasını engeller.
Multi-Head Attention Neden Var?
Tek bir attention "kafası" cümledeki tek tür ilişkiyi yakalayabilir. Oysa dil çok katmanlıdır: bir kafa özne-yüklem ilişkisini, başkası zamir referanslarını, bir diğeri ise eş anlamları yakalayabilir. Multi-head attention, bu sorgulamaları paralel olarak yapar ve sonuçları birleştirir.
Pratikte 8, 16 veya 32 kafa yaygındır. Her kafa, Q/K/V matrislerinin farklı projeksiyonlarıyla çalışır; çıkışta hepsi birleştirilip tek bir dense katmandan geçer. Bu, modele dili birden çok "perspektiften" okuma kabiliyeti kazandırır.
Pozisyon Bilgisi: Sırayı Nasıl Hatırlıyor?
Self-attention, doğası gereği sırayı umursamaz; "ali topu attı" ile "topu ali attı" matematiksel olarak aynı görünür. Bu nedenle modele pozisyon bilgisi ayrı bir vektör olarak eklenir.
- Sinüzoidal positional encoding: Orijinal makaledeki sabit sinüs/kosinüs fonksiyonları.
- Learned positional embedding: BERT ve GPT-2'de tercih edilen, öğrenilen pozisyon vektörleri.
- RoPE (Rotary Position Embedding): LLaMA ve modern modellerde kullanılan, vektörleri döndürerek konum bilgisi kodlayan yaklaşım.
Transformer RNN'i Neden Yendi?
RNN ve LSTM'in iki büyük yarası vardı: yavaşlık ve uzun bağlam kaybı. RNN, t. token'ı işlemek için t-1'in çıktısını beklemek zorundaydı; bu, GPU paralelizmini imkânsız kılıyordu. Uzun cümlelerde başlangıçtaki bilgi, defalarca geri-besleme sırasında sönüyordu.

Transformer'ın getirdiği avantajlar:
- Paralelizm: Tüm token'lar aynı anda işlenir, GPU verimli kullanılır.
- Uzun bağlam: İki token arasındaki "mesafe" attention için her zaman 1 adımdır.
- Ölçeklenebilirlik: Katman ve parametre sayısı arttıkça performans öngörülebilir biçimde iyileşir (scaling laws).
- Transfer öğrenme: Önceden eğitilmiş model, küçük veri setleriyle ince ayarlanabilir.
Eğitim, Çıkarım ve Pratik Kısıtlar
LLM eğitimi iki aşamalıdır: pre-training aşamasında model devasa metin korpusu üzerinde bir sonraki token'ı tahmin etmeyi öğrenir; fine-tuning ve RLHF aşamalarında ise insan tercihlerine göre hizalanır. Bu süreçte hesaplama maliyeti milyon dolarlarla ölçülür.
Çıkarım (inference) tarafında ise dikkat edilmesi gereken birkaç pratik nokta vardır. Attention, sekans uzunluğuna göre O(n^2) karmaşıklıkta çalıştığı için bağlam pencerelerini büyütmek pahalıdır. KV-cache, sliding window attention ve FlashAttention gibi optimizasyonlar tam da bu yüzden geliştirildi. LLM'lerin kullanım senaryolarına dair daha kapsamlı bir uygulama bakışı için generative AI eğitim programını inceleyebilirsiniz.
Sonuçta Transformer'ın başarısı tek bir trick'ten değil, paralelleşebilir mimari, attention'ın esnekliği ve ölçek yasalarının buluştuğu noktadan gelir. LLM dünyasını anlamak istiyorsanız işin temelinde her zaman aynı soru durur: hangi token, hangisine ne kadar bakmalı?



