PYTHON İLE VERİ ANALİZİ EĞİTİMİ

Python Veri Analizi 3D logosu yanında çubuk grafik ve dataframe ızgarası bembeyaz arka planda premium kompozisyon

Python ile Veri Analizi eğitimi, Python'u Excel hızında değil bilimsel hesaplama ölçeğinde kullanmak isteyen mühendisleri yetiştirir. pandas DataFrame yapısı ve memory layout; NumPy vectorization ile Python döngülerinden kurtulma; GroupBy, pivot ve merge ile relational veri işleme somut örneklerle çalışılır.

Eğitim sonunda katılımcı, matplotlib, seaborn ve plotly arasında görselleştirme seçer; scikit-learn ile baseline ML modeli kurar ve değerlendirir; Jupyter ve VS Code Notebook ortamlarını verimli kullanır. Polars veya DuckDB ile büyük veri seti analizi eğitimin modern kapanışıdır.

Katılımcı Profili

Bu eğitim, Python'u Excel hızından bilimsel hesaplama ölçeğine taşımak isteyen rollere yöneliktir:

Veri Analistleri: Excel'den Python'a geçen analistler
Veri Bilimciler: Pandas ve NumPy ile analiz pipeline'ı yazan roller
Finans Profesyonelleri: Sayısal analiz ve modelleme yapan roller
BI Geliştiricileri: Python ile ETL ve raporlama yapan ekipler
Araştırmacılar: Akademik veri analizinden endüstriye geçen roller

Ön Gereklilikler

Bu eğitime katılım için aşağıdaki ön bilgiler önerilir:

Python ile temel söz dizimi rahatlığı (variable, function, list, dict)
Excel veya SQL ile veriyle çalışma deneyimi
Tablo, sütun ve veri tipi kavramlarına aşinalık
İstatistik ve özet metriklere (ortalama, medyan, varyans) giriş düzeyi bilgi
Jupyter Notebook veya VS Code Notebook kullanım deneyimi

Süresi ve Tarihi

Süre: 4 gün. Bu süre standart program içindir; ek modüllere ve hedefe göre süre özelleştirilebilir.
Eğitim tarihleri ve saatleri, ekibinizin uygunluğuna göre birlikte planlanır.

Kazanımlar

Bu eğitim sonunda katılımcı, Python'u Excel hızında değil — bilimsel hesaplama ölçeğinde kullanır:

pandas DataFrame yapısını ve memory layout'ı bilir
NumPy vectorization ile Python döngülerinden kurtulur
GroupBy, pivot ve merge ile relational veri işleme yapar
matplotlib, seaborn ve plotly arasında görselleştirme seçer
scikit-learn ile baseline ML modeli kurar ve değerlendirir
Jupyter ve VS Code Notebook ortamlarını verimli kullanır
Polars veya DuckDB ile büyük veri seti analizi yapar

Python ile Veri Analizi Eğitimi Konuları

1. Python Veri Stack - Anaconda ve Jupyter

Anaconda, Miniconda, conda-forge
Jupyter Notebook, JupyterLab, VS Code
Virtual environment: venv, conda, uv
Magic command ve %timeit, %%time
Resmi kaynak: pandas belgeleri

2. NumPy - Array ve Vektörel İşlem

ndarray oluşturma ve dtype
Shape, reshape, broadcasting
Boolean indexing ve fancy indexing
Universal function (ufunc)
Linear algebra: np.linalg

3. Pandas - Series ve DataFrame

Series ve DataFrame yapısı
Index, columns, dtypes
loc, iloc, at, iat erişim
Boolean filtering ve query()
MultiIndex ile hiyerarşik veri

4. Veri Yükleme - CSV, Excel, SQL, JSON, Parquet

read_csv ve parametreler (dtype, parse_dates)
read_excel ve openpyxl/xlsxwriter
read_sql ve SQLAlchemy bağlantı
read_json, read_parquet, read_feather
Chunked reading büyük dosyalar

5. Veri Temizleme - Missing, Duplicate, Type

isna, fillna, dropna stratejileri
Duplicate tespit ve silme
astype, to_numeric, to_datetime dönüşüm
String temizleme: str.strip, str.lower, regex
Outlier tespit: IQR, z-score

6. GroupBy ve Aggregation

groupby ile split-apply-combine
agg, transform, filter, apply
Multi-level groupby
Named aggregation

7. Merge, Join, Concat

merge: inner, left, right, outer
join key ve suffixes
concat ile vertical/horizontal birleştirme
Anti-join ve mismatch tespiti

8. Pivot, Crosstab, Melt

pivot ve pivot_table
crosstab ile frekans tablosu
melt ile wide-to-long dönüşüm
stack ve unstack

9. Time Series Analizi

DatetimeIndex ve frekans
resample ve OHLC aggregation
Rolling window ve expanding
Shift, diff, pct_change
Timezone yönetimi

10. Matplotlib - Temel Grafik

Figure, Axes, Subplot
line, bar, scatter, hist, boxplot
Annotation, legend, colormap
rcParams ve stil yönetimi

11. Seaborn - Statistical Visualization

Theme ve palette
Distribution: histplot, kdeplot, ecdfplot
Categorical: catplot, boxplot, violinplot
Relational: relplot, lmplot
FacetGrid ve PairGrid

12. Plotly Interactive Chart

plotly.express ile hızlı grafik
plotly.graph_objects detay kontrolü
Dash ile web dashboard
Hover, zoom, pan etkileşim

13. EDA (Exploratory Data Analysis) Pipeline

describe, info, value_counts
Correlation matrix ve heatmap
Distribution ve skewness
Missing pattern analizi
Sweetviz ile otomatik EDA

14. Feature Engineering

Binning, encoding (one-hot, label, target)
Scaling: StandardScaler, MinMaxScaler
Datetime feature extraction
Polynomial feature ve interaction
Feature selection: variance, correlation

15. Statistical Test - SciPy ve Statsmodels

t-test, ANOVA, chi-square
Normality test (Shapiro, K-S)
Correlation: Pearson, Spearman, Kendall
Linear regression statsmodels.OLS

16. Profiling Araçları

ydata-profiling (pandas-profiling)
Sweetviz ile karşılaştırmalı rapor
D-Tale ile interaktif keşif
Great Expectations ile data quality

17. Polars ve DuckDB - Pandas Alternatifleri

Polars: lazy evaluation, Rust-based
DuckDB: SQL on dataframe
Apache Arrow ile zero-copy
Pandas 2.x PyArrow backend

18. Reporting - Notebook'tan Çıktıya

Jupyter ile HTML/PDF export
Papermill ile parameterized notebook
Streamlit ile veri uygulaması
Excel'e yazma ve şablon

PYTHON İLE VERİ ANALİZİ EĞİTİMİ ile İlgili
Sıkça Sorulan Sorular ve Cevapları

pandas ile Polars arasında nasıl seçim yapılır?

pandas mature, geniş ekosistem (scikit-learn, matplotlib, plotly tüm hat), küçük-orta veri için yeterli. Polars Rust-based, lazy evaluation ve parallel execution ile 5-10x daha hızlı, multicore kullanır. Büyük veri (>1GB) ve performance-critical pipeline'da Polars; ML ve geniş entegrasyon için pandas.

DataFrame üzerinde apply ve vectorize arasındaki performans farkı nedir?

apply Python-level loop'tur — her satır için Python function çağrısı, GIL ve interpreter overhead. NumPy vectorize C seviyesinde işler — 50-100x daha hızlı. df['col'].str.upper() gibi method chain native vectorize. apply'a düşmek genelde yanlış araç seçimi sinyali.

groupby + apply ile transform arasındaki fark?

groupby().apply() grup başına dönen DataFrame'i birleştirir — esnek ama yavaş, sonuç index'i değişebilir. groupby().transform() her satıra grup değerini döner, orijinal shape korunur — running mean, rank gibi senaryolarda doğru. agg toplu özet için (sum, mean per group).

Matplotlib, seaborn ve Plotly arasında nasıl seçim yapılır?

Matplotlib low-level, tam kontrol ama boilerplate. Seaborn statistical chart için yüksek seviye, default güzel görünüm. Plotly interaktif (zoom, hover), web ve dashboard için. Exploratory analiz için seaborn; production dashboard için Plotly; rapor PDF için matplotlib + seaborn.

Missing data (NaN) için strateji nasıl seçilir?

dropna kolayca veri kaybeder — sadece %5 altı NaN için. fillna sabit değer, mean/median, forward fill (zaman serisi) seçenekleri. Interpolation matematiksel ara değer. ML pipeline'da scikit-learn SimpleImputer; strategy data leakage'a karşı train/test ayrımı sonrası uygulanır.

Jupyter Notebook ile reproducibility nasıl sağlanır?

Cell çalıştırma sırası bağımlılığı reproducibility'yi bozar. Restart kernel + run all standart kontrol. requirements.txt veya environment.yml ile bağımlılık dondurma, random_seed sabitleme, veri sürümü (DVC) ve nbstripout ile output cleanup gerekli. JupyText veya nbdev versiyon kontrolünü kolaylaştırır.