MACHINE LEARNING EĞİTİMİ
Machine Learning eğitimi, ML'i "model fit et" cümlesinden alıp uçtan uca pipeline kurmaya götüren bir programdır. Supervised, unsupervised ve reinforcement learning arasında karar; bias-variance trade-off ile underfitting ve overfitting tespiti somut örneklerle işlenir.
Eğitim sonunda katılımcı, Cross-validation'ı K-fold, stratified ve time-series biçiminde uygular; feature engineering (scaling, encoding, seçim) yapar; Linear, Tree-based, SVM, XGBoost ve LightGBM arasında model seçer. scikit-learn pipeline ve MLflow ile experiment tracking eğitimin operasyonel kapanışıdır.
Katılımcı Profili
Bu eğitim, ML'i "model fit et" cümlesinden alıp uçtan uca bir pipeline kurmak isteyen rollere yöneliktir:
- Veri Bilimciler: ML modellerini deneyen ve değerlendiren roller
- ML Mühendisleri: Model'i production'a çıkaran ekipler
- Veri Analistleri: ML disiplinine geçiş yapan analistler
- Backend Mühendisleri: ML-powered feature geliştiren roller
- Araştırma Mühendisleri: Akademik altyapıyı endüstriye taşıyan ekipler
Ön Gereklilikler
Bu eğitime katılım için aşağıdaki ön bilgiler önerilir:
- Python ile temel programlama (NumPy, pandas) deneyimi
- İstatistik ve olasılık kavramlarına temel aşinalık
- Doğrusal cebir ve kalkülüs temellerine giriş seviyesi bilgi
- Excel veya SQL ile veriyle çalışma deneyimi
- Jupyter Notebook veya VS Code Notebook kullanım deneyimi
Süresi ve Tarihi
Süre: 4 gün. Bu süre standart program içindir; ek modüllere ve hedefe göre süre özelleştirilebilir.
Eğitim tarihleri ve saatleri, ekibinizin uygunluğuna göre birlikte planlanır.
Kazanımlar
Programın sonunda katılımcı, ML'i "model fit et" cümlesinden alıp uçtan uca bir pipeline kurar:
- Supervised, unsupervised ve reinforcement learning arasında karar verir
- Bias-variance trade-off ile underfitting ve overfitting'i tespit eder
- Cross-validation'ı K-fold, stratified ve time-series biçiminde uygular
- Feature engineering: scaling, encoding ve seçim yöntemlerini ürüne taşır
- Linear, Tree-based, SVM, XGBoost ve LightGBM arasında model seçer
- Accuracy, precision, recall, F1, AUC ve RMSE arasında metrik seçimini gerekçeli yapar
- scikit-learn pipeline ve MLflow ile experiment tracking kurar
Machine Learning Eğitimi Konuları
1. Makine Öğrenmesi - Supervised, Unsupervised, Reinforcement
- Supervised: classification ve regression
- Unsupervised: clustering ve association
- Reinforcement: agent, environment, reward
- Semi-supervised ve self-supervised yaklaşımlar
- Resmi kaynak: scikit-learn kullanıcı rehberi
2. Veri Hazırlama ve Feature Engineering
- Eksik veri stratejileri: silme, doldurma, imputation
- Outlier tespiti: IQR, Z-score, isolation forest
- Encoding: one-hot, label, target encoding
- Scaling: StandardScaler, MinMaxScaler, RobustScaler
- Feature extraction: polynomial, interaction, datetime
3. Linear Regression
- Ordinary Least Squares (OLS) yöntemi
- Ridge, Lasso, Elastic Net regularization
- Multicollinearity ve VIF
- R², adjusted R², RMSE metrikleri
- Residual plot ile model değerlendirme
4. Logistic Regression
- Sigmoid fonksiyonu ve odds ratio
- Binary, multinomial, ordinal logistic
- Decision boundary ve threshold
- Cross-entropy loss
5. Decision Tree ve Random Forest
- Entropy, Gini impurity, information gain
- Pre-pruning ve post-pruning
- Random Forest ve bagging
- Out-of-bag error estimate
- Feature importance hesabı
6. Gradient Boosting - XGBoost, LightGBM, CatBoost
- Gradient boosting algoritması
- XGBoost ve regularization
- LightGBM ve leaf-wise growth
- CatBoost ve categorical handling
- Hyperparameter: learning_rate, max_depth, n_estimators
7. SVM (Support Vector Machine)
- Hyperplane ve margin
- Kernel trick: linear, polynomial, RBF
- C parametresi ve trade-off
- SVM ile classification ve regression (SVR)
8. KNN ve Naive Bayes
- K-Nearest Neighbors algoritması
- Distance metric: Euclidean, Manhattan, Cosine
- Naive Bayes varsayımı ve türleri
- Lazy vs eager learning
9. Clustering - K-Means, DBSCAN, Hierarchical
- K-Means ve centroid initialization
- Elbow method, silhouette score
- DBSCAN ve density-based
- Hierarchical: agglomerative ve divisive
- Gaussian Mixture Model (GMM)
10. Dimensionality Reduction - PCA, t-SNE, UMAP
- Principal Component Analysis (PCA)
- Eigenvalue, eigenvector ve variance explained
- t-SNE: nonlinear, görselleştirme odaklı
- UMAP: hızlı ve global yapıyı koruyan
- Feature selection vs extraction
11. Cross-Validation ve Hyperparameter Tuning
- K-fold ve stratified k-fold CV
- Train-validation-test split
- GridSearchCV ve RandomizedSearchCV
- Bayesian optimization: Optuna, Hyperopt
- Nested CV ile unbiased estimation
12. Bias-Variance Trade-off
- Underfitting ve high bias
- Overfitting ve high variance
- Learning curve okuma
- Regularization ile dengeleme
13. Classification Metrikleri
- Accuracy, precision, recall, F1
- Confusion matrix yorumlama
- Macro, micro, weighted average
- Multi-class ve multi-label metrikler
14. ROC-AUC ve Precision-Recall
- ROC curve ve AUC değeri
- Precision-Recall curve
- Threshold optimization
- Cost-sensitive learning
15. Imbalanced Data - SMOTE, Class Weight
- Imbalanced classification problemi
- Over-sampling: SMOTE, ADASYN
- Under-sampling: random, Tomek
- Class weight ve sample weight
- Stratified sampling
16. scikit-learn Pipeline
- Pipeline ile chain transformer + estimator
- ColumnTransformer ile heterojen veri
- Custom transformer (BaseEstimator, TransformerMixin)
- Pipeline ile data leakage önleme
17. Feature Importance ve SHAP
- Permutation importance
- SHAP (SHapley Additive exPlanations)
- LIME ile lokal açıklama
- Partial Dependence Plot (PDP)
18. Model Deployment - Pickle, ONNX
- Pickle ve joblib ile Python serileştirme
- ONNX ile cross-framework export
- FastAPI ile model serving
- BentoML ile production-ready packaging
19. MLOps ve Model Versioning
- MLflow ile experiment tracking
- DVC ile data versioning
- Model registry ve staging
- Feature store: Feast, Tecton
- Model monitoring ve drift detection
20. AutoML Yaklaşımları
- Auto-sklearn, TPOT, H2O AutoML
- Neural Architecture Search (NAS)
- AutoML ne zaman tercih edilir
- Manuel ML vs AutoML trade-off
MACHINE LEARNING EĞİTİMİ ile İlgili
Sıkça Sorulan Sorular ve Cevapları
Supervised, unsupervised ve reinforcement learning arasında karar nasıl verilir?
Supervised etiketli veri var (sınıflandırma, regresyon). Unsupervised etiket yok, yapı keşfi (kümeleme, anomali tespiti). Reinforcement agent ortamla etkileşip ödül maksimize eder (oyun, robotik, RLHF). Çoğu kurumsal problem supervised; veri etiketleme maliyeti unsupervised'a iter; reinforcement specialized domain.
Bias-variance trade-off pratikte nasıl yönetilir?
Yüksek bias (underfitting): model basit, hem train hem validation hatası yüksek — model kapasitesi artırılır. Yüksek variance (overfitting): train iyi, validation kötü — regularization, dropout, daha fazla veri. Sweet spot validation curve ile bulunur. Cross-validation tutarlılık ölçer.
K-fold, stratified ve time-series CV ne zaman hangisi?
K-fold homojen veri için standart. Stratified sınıf dağılımı dengesizse (örn. %95 negatif), her fold'da oran korunur. Time-series CV ileriye-dönük split (rolling window) — geçmiş trainset, gelecek testset; geleceği önceden görmemek için kritik. Yanlış CV strateji metric'leri yanıltır.
Tree-based modeller (XGBoost, LightGBM, CatBoost) arasında karar?
XGBoost mature, kapsamlı API ve tuning seçeneği. LightGBM histogram-based, büyük veride daha hızlı, leaf-wise growth ile daha agresif. CatBoost categorical feature'ı native handle eder, tuning daha kolay. Yarışmalarda XGBoost ve LightGBM önde; production'da kararlılık ve speed lightgbm'i öne çıkarıyor.
Accuracy, F1, AUC ve RMSE arasında metric seçimi nasıl?
Sınıflandırma + dengeli class → accuracy ok. Dengesiz class → precision/recall/F1 (precision FP minimize, recall FN minimize). Binary + threshold-independent değerlendirme → AUC-ROC. Regression → MAE (outlier'a dayanıklı) veya RMSE (büyük hataları cezalandırır). İş problemini ne metric ölçer sorusu kritik.
MLflow ile experiment tracking neyi çözer?
ML projelerinde hyperparameter, metric, model artifact ve veri sürümü manuel tutmak hatalı. MLflow tracking otomatik log alır, model registry versioning sağlar, deployment'a köprü kurar. Projects ve evaluations ile reproducibility kazanılır. Alternatif: Weights & Biases, Comet, Neptune.



