MACHINE LEARNING EĞİTİMİ

Machine Learning 3D logosu yanında veri noktası kümesi ve sinir ağı düğümleri bembeyaz arka planda premium kompozisyon

Machine Learning eğitimi, ML'i "model fit et" cümlesinden alıp uçtan uca pipeline kurmaya götüren bir programdır. Supervised, unsupervised ve reinforcement learning arasında karar; bias-variance trade-off ile underfitting ve overfitting tespiti somut örneklerle işlenir.

Eğitim sonunda katılımcı, Cross-validation'ı K-fold, stratified ve time-series biçiminde uygular; feature engineering (scaling, encoding, seçim) yapar; Linear, Tree-based, SVM, XGBoost ve LightGBM arasında model seçer. scikit-learn pipeline ve MLflow ile experiment tracking eğitimin operasyonel kapanışıdır.

Katılımcı Profili

Bu eğitim, ML'i "model fit et" cümlesinden alıp uçtan uca bir pipeline kurmak isteyen rollere yöneliktir:

Veri Bilimciler: ML modellerini deneyen ve değerlendiren roller
ML Mühendisleri: Model'i production'a çıkaran ekipler
Veri Analistleri: ML disiplinine geçiş yapan analistler
Backend Mühendisleri: ML-powered feature geliştiren roller
Araştırma Mühendisleri: Akademik altyapıyı endüstriye taşıyan ekipler

Ön Gereklilikler

Bu eğitime katılım için aşağıdaki ön bilgiler önerilir:

Python ile temel programlama (NumPy, pandas) deneyimi
İstatistik ve olasılık kavramlarına temel aşinalık
Doğrusal cebir ve kalkülüs temellerine giriş seviyesi bilgi
Excel veya SQL ile veriyle çalışma deneyimi
Jupyter Notebook veya VS Code Notebook kullanım deneyimi

Süresi ve Tarihi

Süre: 4 gün. Bu süre standart program içindir; ek modüllere ve hedefe göre süre özelleştirilebilir.
Eğitim tarihleri ve saatleri, ekibinizin uygunluğuna göre birlikte planlanır.

Kazanımlar

Programın sonunda katılımcı, ML'i "model fit et" cümlesinden alıp uçtan uca bir pipeline kurar:

Supervised, unsupervised ve reinforcement learning arasında karar verir
Bias-variance trade-off ile underfitting ve overfitting'i tespit eder
Cross-validation'ı K-fold, stratified ve time-series biçiminde uygular
Feature engineering: scaling, encoding ve seçim yöntemlerini ürüne taşır
Linear, Tree-based, SVM, XGBoost ve LightGBM arasında model seçer
Accuracy, precision, recall, F1, AUC ve RMSE arasında metrik seçimini gerekçeli yapar
scikit-learn pipeline ve MLflow ile experiment tracking kurar

Machine Learning Eğitimi Konuları

1. Makine Öğrenmesi - Supervised, Unsupervised, Reinforcement

Supervised: classification ve regression
Unsupervised: clustering ve association
Reinforcement: agent, environment, reward
Semi-supervised ve self-supervised yaklaşımlar
Resmi kaynak: scikit-learn kullanıcı rehberi

2. Veri Hazırlama ve Feature Engineering

Eksik veri stratejileri: silme, doldurma, imputation
Outlier tespiti: IQR, Z-score, isolation forest
Encoding: one-hot, label, target encoding
Scaling: StandardScaler, MinMaxScaler, RobustScaler
Feature extraction: polynomial, interaction, datetime

3. Linear Regression

Ordinary Least Squares (OLS) yöntemi
Ridge, Lasso, Elastic Net regularization
Multicollinearity ve VIF
R², adjusted R², RMSE metrikleri
Residual plot ile model değerlendirme

4. Logistic Regression

Sigmoid fonksiyonu ve odds ratio
Binary, multinomial, ordinal logistic
Decision boundary ve threshold
Cross-entropy loss

5. Decision Tree ve Random Forest

Entropy, Gini impurity, information gain
Pre-pruning ve post-pruning
Random Forest ve bagging
Out-of-bag error estimate
Feature importance hesabı

6. Gradient Boosting - XGBoost, LightGBM, CatBoost

Gradient boosting algoritması
XGBoost ve regularization
LightGBM ve leaf-wise growth
CatBoost ve categorical handling
Hyperparameter: learning_rate, max_depth, n_estimators

7. SVM (Support Vector Machine)

Hyperplane ve margin
Kernel trick: linear, polynomial, RBF
C parametresi ve trade-off
SVM ile classification ve regression (SVR)

8. KNN ve Naive Bayes

K-Nearest Neighbors algoritması
Distance metric: Euclidean, Manhattan, Cosine
Naive Bayes varsayımı ve türleri
Lazy vs eager learning

9. Clustering - K-Means, DBSCAN, Hierarchical

K-Means ve centroid initialization
Elbow method, silhouette score
DBSCAN ve density-based
Hierarchical: agglomerative ve divisive
Gaussian Mixture Model (GMM)

10. Dimensionality Reduction - PCA, t-SNE, UMAP

Principal Component Analysis (PCA)
Eigenvalue, eigenvector ve variance explained
t-SNE: nonlinear, görselleştirme odaklı
UMAP: hızlı ve global yapıyı koruyan
Feature selection vs extraction

11. Cross-Validation ve Hyperparameter Tuning

K-fold ve stratified k-fold CV
Train-validation-test split
GridSearchCV ve RandomizedSearchCV
Bayesian optimization: Optuna, Hyperopt
Nested CV ile unbiased estimation

12. Bias-Variance Trade-off

Underfitting ve high bias
Overfitting ve high variance
Learning curve okuma
Regularization ile dengeleme

13. Classification Metrikleri

Accuracy, precision, recall, F1
Confusion matrix yorumlama
Macro, micro, weighted average
Multi-class ve multi-label metrikler

14. ROC-AUC ve Precision-Recall

ROC curve ve AUC değeri
Precision-Recall curve
Threshold optimization
Cost-sensitive learning

15. Imbalanced Data - SMOTE, Class Weight

Imbalanced classification problemi
Over-sampling: SMOTE, ADASYN
Under-sampling: random, Tomek
Class weight ve sample weight
Stratified sampling

16. scikit-learn Pipeline

Pipeline ile chain transformer + estimator
ColumnTransformer ile heterojen veri
Custom transformer (BaseEstimator, TransformerMixin)
Pipeline ile data leakage önleme

17. Feature Importance ve SHAP

Permutation importance
SHAP (SHapley Additive exPlanations)
LIME ile lokal açıklama
Partial Dependence Plot (PDP)

18. Model Deployment - Pickle, ONNX

Pickle ve joblib ile Python serileştirme
ONNX ile cross-framework export
FastAPI ile model serving
BentoML ile production-ready packaging

19. MLOps ve Model Versioning

MLflow ile experiment tracking
DVC ile data versioning
Model registry ve staging
Feature store: Feast, Tecton
Model monitoring ve drift detection

20. AutoML Yaklaşımları

Auto-sklearn, TPOT, H2O AutoML
Neural Architecture Search (NAS)
AutoML ne zaman tercih edilir
Manuel ML vs AutoML trade-off

MACHINE LEARNING EĞİTİMİ ile İlgili
Sıkça Sorulan Sorular ve Cevapları

Supervised, unsupervised ve reinforcement learning arasında karar nasıl verilir?

Supervised etiketli veri var (sınıflandırma, regresyon). Unsupervised etiket yok, yapı keşfi (kümeleme, anomali tespiti). Reinforcement agent ortamla etkileşip ödül maksimize eder (oyun, robotik, RLHF). Çoğu kurumsal problem supervised; veri etiketleme maliyeti unsupervised'a iter; reinforcement specialized domain.

Bias-variance trade-off pratikte nasıl yönetilir?

Yüksek bias (underfitting): model basit, hem train hem validation hatası yüksek — model kapasitesi artırılır. Yüksek variance (overfitting): train iyi, validation kötü — regularization, dropout, daha fazla veri. Sweet spot validation curve ile bulunur. Cross-validation tutarlılık ölçer.

K-fold, stratified ve time-series CV ne zaman hangisi?

K-fold homojen veri için standart. Stratified sınıf dağılımı dengesizse (örn. %95 negatif), her fold'da oran korunur. Time-series CV ileriye-dönük split (rolling window) — geçmiş trainset, gelecek testset; geleceği önceden görmemek için kritik. Yanlış CV strateji metric'leri yanıltır.

Tree-based modeller (XGBoost, LightGBM, CatBoost) arasında karar?

XGBoost mature, kapsamlı API ve tuning seçeneği. LightGBM histogram-based, büyük veride daha hızlı, leaf-wise growth ile daha agresif. CatBoost categorical feature'ı native handle eder, tuning daha kolay. Yarışmalarda XGBoost ve LightGBM önde; production'da kararlılık ve speed lightgbm'i öne çıkarıyor.

Accuracy, F1, AUC ve RMSE arasında metric seçimi nasıl?

Sınıflandırma + dengeli class → accuracy ok. Dengesiz class → precision/recall/F1 (precision FP minimize, recall FN minimize). Binary + threshold-independent değerlendirme → AUC-ROC. Regression → MAE (outlier'a dayanıklı) veya RMSE (büyük hataları cezalandırır). İş problemini ne metric ölçer sorusu kritik.

MLflow ile experiment tracking neyi çözer?

ML projelerinde hyperparameter, metric, model artifact ve veri sürümü manuel tutmak hatalı. MLflow tracking otomatik log alır, model registry versioning sağlar, deployment'a köprü kurar. Projects ve evaluations ile reproducibility kazanılır. Alternatif: Weights & Biases, Comet, Neptune.