GENERATIVE AI / LLM EĞİTİMİ

Generative AI ve LLM 3D logosu yanında sinir ağı kümesi ve prompt küresi bembeyaz arka planda premium kompozisyon

Generative AI ve LLM eğitimi, modelleri prototip aracı olmaktan çıkartıp üretim sisteminin parçası haline getirmek için tasarlandı. Foundation, fine-tuned ve task-specific model ayrımı; tokenization, context window ve sampling parametrelerinin ürün davranışına bağlanması somut karar matrisleriyle işlenir.

Eğitim sonunda katılımcı, RAG mimarisi kurar; chunking, embedding ve reranking kararlarını gerekçeli verir. Function calling ve tool use ile LLM'i deterministik kodla entegre eder; prompt injection ve jailbreak'e karşı guardrail kurar. Token maliyeti, latency ve cache stratejisiyle ürün ekonomisi optimize edilir.

Katılımcı Profili

Bu eğitim, LLM'i prototip aracı olmaktan çıkartıp ürüne entegre etmek isteyen rollere yöneliktir:

AI Mühendisleri: LLM'i ürüne entegre eden ve serving altyapısı kuran roller
Backend Mühendisleri: RAG, function calling ve tool use kuran ekipler
Veri Bilimciler: Fine-tuning ve evaluation pipeline'ı yapan analistler
Ürün Mühendisleri: LLM-tabanlı feature tasarlayan roller
MLOps Mühendisleri: LLM observability ve cost yöneten ekipler

Ön Gereklilikler

Bu eğitime katılım için aşağıdaki ön bilgiler önerilir:

Python ile temel programlama deneyimi
HTTP, REST API ve JSON kavramlarına aşinalık
Klasik ML veya NLP kavramlarına giriş düzeyi bilgi
Komut satırı ve Git ile rahat çalışma
OpenAI, Anthropic veya benzeri bir LLM API'sini deneme isteği

Süresi ve Tarihi

Süre: 3 gün. Bu süre standart program içindir; ek modüllere ve hedefe göre süre özelleştirilebilir.
Eğitim tarihleri ve saatleri, ekibinizin uygunluğuna göre birlikte planlanır.

Kazanımlar

Bu eğitim sonunda katılımcı, LLM'i prototip aracı olmaktan çıkartıp üretim sisteminin parçası yapar:

Foundation model, fine-tuned ve task-specific model'i ayırt eder
Tokenization, context window ve sampling'i ürün davranışına bağlar
RAG mimarisi kurar; chunking, embedding ve reranking kararlarını gerekçeli verir
Function calling ve tool use ile LLM'i deterministik kodla entegre eder
Hallucination'ı grounding ve self-verification ile azaltır
Prompt injection ve jailbreak'e karşı guardrail kurar
Token maliyeti, latency ve cache stratejisiyle ekonomi optimize eder

Generative AI / LLM Eğitimi Konuları

1. LLM Devrimi - Transformer'dan GPT'ye

"Attention Is All You Need" makalesi ve transformer mimarisi
BERT (encoder), GPT (decoder), T5 (encoder-decoder)
Scaling laws ve emergent capability
Açık ve kapalı kaynak model ekosistemi
Resmi kaynak: Attention Is All You Need

2. Transformer Mimarisi ve Attention

Self-attention ve scaled dot-product
Multi-head attention
Positional encoding ve RoPE alternatifi
Token, context window, KV cache

3. Pre-training ve Fine-tuning

Pre-training: trilyon token üzerinden öğrenme
Instruction tuning ve RLHF
Constitutional AI yaklaşımı
DPO (Direct Preference Optimization)

4. Prompt Engineering Temelleri

Sistem prompt ve user prompt ayrımı
Role, task, context, format yapısı
Temperature, top_p, top_k parametreleri
Prompt template ve değişken yönetimi

5. Few-shot, Zero-shot, Chain-of-Thought

Zero-shot: örnek olmadan görev
Few-shot: örneklerle bağlam kazandırma
Chain-of-Thought (CoT) prompting
Self-consistency ve voting yaklaşımı
ReAct: reasoning + acting

6. RAG - Retrieval Augmented Generation

RAG mimarisi: retrieval + generation
Chunk stratejileri ve overlap
Re-ranking ve hybrid search
RAG vs fine-tuning karar matrisi
Multi-hop retrieval ve agentic RAG

7. Vector Database - Pinecone, Weaviate, pgvector

Pinecone: managed serverless
Weaviate, Qdrant, Milvus open-source
pgvector ile PostgreSQL üzerinde vektör
HNSW, IVF index algoritmaları
Vector dimension ve cost trade-off

8. Embedding ve Semantic Search

Embedding model seçimi: OpenAI, sentence-transformers
Cosine similarity ve distance metrikleri
Semantic search vs keyword search
Hybrid search: BM25 + dense vector

9. LangChain Framework

LangChain core: chain, prompt, model
LCEL (LangChain Expression Language)
Memory ve conversation history
LangSmith ile tracing ve debug

10. LlamaIndex ve Data Connector

LlamaIndex: data framework for LLM
Document loader, splitter, index
Query engine ve composability
LangChain ve LlamaIndex karşılaştırması

11. Agent ve ReAct Pattern

LLM agent: planning, action, observation
ReAct framework: reasoning + acting cycle
Multi-agent orchestration: AutoGen, CrewAI
Plan-and-execute ve scratchpad

12. Tool Use ve Function Calling

OpenAI function calling spec
JSON schema ile tool tanımı
Parallel tool call ve aggregation
Model Context Protocol (MCP) standardı

13. Hallucination ve Grounding

Hallucination türleri ve nedenleri
Grounding: kaynaklara dayalı yanıt
Citation ve source attribution
Confidence score ve uncertainty handling

14. Evaluation ve Guardrails

LLM-as-a-judge yaklaşımı
Benchmark: MMLU, HumanEval, MT-Bench
Ragas ile RAG değerlendirme
Guardrails: input validation, output filtering
Jailbreak ve prompt injection riski

15. Fine-tuning Yaklaşımları - LoRA, QLoRA

Full fine-tuning vs parameter-efficient
LoRA (Low-Rank Adaptation) tekniği
QLoRA: quantization + LoRA
Hugging Face PEFT kütüphanesi

16. Self-hosted LLM - Llama, Mistral, Ollama

Llama, Mistral, Qwen açık ağırlık modelleri
Ollama ile yerel inference
vLLM, TensorRT-LLM ile production serving
Quantization: GGUF, AWQ, GPTQ

17. Cost Optimization ve Caching

Token bazlı maliyet hesabı
Prompt caching (Anthropic, OpenAI)
Semantic cache ile tekrarlı sorgu
Küçük model + büyük model router

18. Production Deploy ve Observability

LLM API ve self-hosted model ayrımı
Latency, throughput, cost SLA
LangFuse, LangSmith ile tracing
A/B test ve prompt versiyonlama
Privacy: PII redaction ve data leak önleme

GENERATIVE AI / LLM EĞİTİMİ ile İlgili
Sıkça Sorulan Sorular ve Cevapları

RAG ile fine-tuning arasında ne zaman hangisi seçilir?

RAG bilgiyi prompt'a injection eder — güncel ve kontrol edilebilir kaynak, hallucination düşük, maliyet runtime'da. Fine-tuning modelin davranışını veya stilini değiştirir — sabit format, latency düşük ama veri yenilendikçe yeniden eğitim gerekir. Çoğu durumda RAG ile başlayıp ihtiyaç halinde fine-tuning eklenir.

Token, context window ve maliyet birbirini nasıl etkiler?

LLM input ve output token'la fiyatlanır; context window modelin tek seferde işleyebileceği maksimum token. Uzun döküman sığdırma adına window'u doldurmak hem maliyeti artırır hem dikkat dağılımını azaltır. RAG ile sadece ilgili chunk gönderilir; cache'leme tekrarlı kısımları (system prompt) maliyetten düşürür.

Function calling ve tool use deterministik akışı nasıl sağlar?

LLM doğal dilden çıkışı tool isim ve parametre JSON'una çevirir; uygulama bu JSON'la deterministik kod (DB sorgusu, API çağrısı) çalıştırır ve sonucu LLM'e geri verir. Hallucination yerine gerçek veri kullanılır. Karmaşık akışta agent pattern (ReAct, MRKL) ile zincirleme tool çağrıları yapılır.

Hallucination nasıl azaltılır?

Grounding ile kaynak zorunlu kılınır (RAG + citation). System prompt'ta 'bilmiyorsan söyle' talimatı eklenir. Düşük temperature deterministik cevabı artırır. Self-verification (cevabı tekrar kontrol et) ek çağrı maliyeti karşılığında doğruluğu yükseltir. Final çözüm: human-in-the-loop kritik kararlarda.

Prompt injection ve jailbreak'a karşı nasıl guardrail kurulur?

Input filtering (zararlı pattern tespiti), output filtering (model cevabını ikinci LLM ile kontrol), system prompt'u user input'tan delimiter ile ayırma temel önlemler. NeMo Guardrails ve Guardrails AI gibi kütüphaneler policy bazlı koruma sağlar. Tam koruma yok — defense-in-depth gerekir.

Chunking stratejisi RAG kalitesini nasıl etkiler?

Çok küçük chunk bağlamı keser, çok büyük chunk irrelevant token'larla LLM'i zorlar. Recursive character splitter, semantic chunking ve parent document retriever yaygın stratejiler. Chunk overlap (genelde %10-20) bağlam kopmasını azaltır. Doküman tipine göre (kod, makale, tablo) farklı chunking gerekir.