Python Veri Analizi 3D logosu yanında çubuk grafik ve dataframe ızgarası bembeyaz arka planda premium kompozisyon

Python ile Veri Analizi eğitimi, Python'u Excel hızında değil bilimsel hesaplama ölçeğinde kullanmak isteyen mühendisleri yetiştirir. pandas DataFrame yapısı ve memory layout; NumPy vectorization ile Python döngülerinden kurtulma; GroupBy, pivot ve merge ile relational veri işleme somut örneklerle çalışılır.

Eğitim sonunda katılımcı, matplotlib, seaborn ve plotly arasında görselleştirme seçer; scikit-learn ile baseline ML modeli kurar ve değerlendirir; Jupyter ve VS Code Notebook ortamlarını verimli kullanır. Polars veya DuckDB ile büyük veri seti analizi eğitimin modern kapanışıdır.

Katılımcı Profili

Bu eğitim, Python'u Excel hızından bilimsel hesaplama ölçeğine taşımak isteyen rollere yöneliktir:

  • Veri Analistleri: Excel'den Python'a geçen analistler
  • Veri Bilimciler: Pandas ve NumPy ile analiz pipeline'ı yazan roller
  • Finans Profesyonelleri: Sayısal analiz ve modelleme yapan roller
  • BI Geliştiricileri: Python ile ETL ve raporlama yapan ekipler
  • Araştırmacılar: Akademik veri analizinden endüstriye geçen roller

Ön Gereklilikler

Bu eğitime katılım için aşağıdaki ön bilgiler önerilir:

  • Python ile temel söz dizimi rahatlığı (variable, function, list, dict)
  • Excel veya SQL ile veriyle çalışma deneyimi
  • Tablo, sütun ve veri tipi kavramlarına aşinalık
  • İstatistik ve özet metriklere (ortalama, medyan, varyans) giriş düzeyi bilgi
  • Jupyter Notebook veya VS Code Notebook kullanım deneyimi

Süresi ve Tarihi

Süre: 4 gün. Bu süre standart program içindir; ek modüllere ve hedefe göre süre özelleştirilebilir.
Eğitim tarihleri ve saatleri, ekibinizin uygunluğuna göre birlikte planlanır.

Kazanımlar

Bu eğitim sonunda katılımcı, Python'u Excel hızında değil — bilimsel hesaplama ölçeğinde kullanır:

  • pandas DataFrame yapısını ve memory layout'ı bilir
  • NumPy vectorization ile Python döngülerinden kurtulur
  • GroupBy, pivot ve merge ile relational veri işleme yapar
  • matplotlib, seaborn ve plotly arasında görselleştirme seçer
  • scikit-learn ile baseline ML modeli kurar ve değerlendirir
  • Jupyter ve VS Code Notebook ortamlarını verimli kullanır
  • Polars veya DuckDB ile büyük veri seti analizi yapar

Python ile Veri Analizi Eğitimi Konuları

1. Python Veri Stack - Anaconda ve Jupyter

  • Anaconda, Miniconda, conda-forge
  • Jupyter Notebook, JupyterLab, VS Code
  • Virtual environment: venv, conda, uv
  • Magic command ve %timeit, %%time
  • Resmi kaynak: pandas belgeleri

2. NumPy - Array ve Vektörel İşlem

  • ndarray oluşturma ve dtype
  • Shape, reshape, broadcasting
  • Boolean indexing ve fancy indexing
  • Universal function (ufunc)
  • Linear algebra: np.linalg

3. Pandas - Series ve DataFrame

  • Series ve DataFrame yapısı
  • Index, columns, dtypes
  • loc, iloc, at, iat erişim
  • Boolean filtering ve query()
  • MultiIndex ile hiyerarşik veri

4. Veri Yükleme - CSV, Excel, SQL, JSON, Parquet

  • read_csv ve parametreler (dtype, parse_dates)
  • read_excel ve openpyxl/xlsxwriter
  • read_sql ve SQLAlchemy bağlantı
  • read_json, read_parquet, read_feather
  • Chunked reading büyük dosyalar

5. Veri Temizleme - Missing, Duplicate, Type

  • isna, fillna, dropna stratejileri
  • Duplicate tespit ve silme
  • astype, to_numeric, to_datetime dönüşüm
  • String temizleme: str.strip, str.lower, regex
  • Outlier tespit: IQR, z-score

6. GroupBy ve Aggregation

  • groupby ile split-apply-combine
  • agg, transform, filter, apply
  • Multi-level groupby
  • Named aggregation

7. Merge, Join, Concat

  • merge: inner, left, right, outer
  • join key ve suffixes
  • concat ile vertical/horizontal birleştirme
  • Anti-join ve mismatch tespiti

8. Pivot, Crosstab, Melt

  • pivot ve pivot_table
  • crosstab ile frekans tablosu
  • melt ile wide-to-long dönüşüm
  • stack ve unstack

9. Time Series Analizi

  • DatetimeIndex ve frekans
  • resample ve OHLC aggregation
  • Rolling window ve expanding
  • Shift, diff, pct_change
  • Timezone yönetimi

10. Matplotlib - Temel Grafik

  • Figure, Axes, Subplot
  • line, bar, scatter, hist, boxplot
  • Annotation, legend, colormap
  • rcParams ve stil yönetimi

11. Seaborn - Statistical Visualization

  • Theme ve palette
  • Distribution: histplot, kdeplot, ecdfplot
  • Categorical: catplot, boxplot, violinplot
  • Relational: relplot, lmplot
  • FacetGrid ve PairGrid

12. Plotly Interactive Chart

  • plotly.express ile hızlı grafik
  • plotly.graph_objects detay kontrolü
  • Dash ile web dashboard
  • Hover, zoom, pan etkileşim

13. EDA (Exploratory Data Analysis) Pipeline

  • describe, info, value_counts
  • Correlation matrix ve heatmap
  • Distribution ve skewness
  • Missing pattern analizi
  • Sweetviz ile otomatik EDA

14. Feature Engineering

  • Binning, encoding (one-hot, label, target)
  • Scaling: StandardScaler, MinMaxScaler
  • Datetime feature extraction
  • Polynomial feature ve interaction
  • Feature selection: variance, correlation

15. Statistical Test - SciPy ve Statsmodels

  • t-test, ANOVA, chi-square
  • Normality test (Shapiro, K-S)
  • Correlation: Pearson, Spearman, Kendall
  • Linear regression statsmodels.OLS

16. Profiling Araçları

  • ydata-profiling (pandas-profiling)
  • Sweetviz ile karşılaştırmalı rapor
  • D-Tale ile interaktif keşif
  • Great Expectations ile data quality

17. Polars ve DuckDB - Pandas Alternatifleri

  • Polars: lazy evaluation, Rust-based
  • DuckDB: SQL on dataframe
  • Apache Arrow ile zero-copy
  • Pandas 2.x PyArrow backend

18. Reporting - Notebook'tan Çıktıya

  • Jupyter ile HTML/PDF export
  • Papermill ile parameterized notebook
  • Streamlit ile veri uygulaması
  • Excel'e yazma ve şablon

PYTHON İLE VERİ ANALİZİ EĞİTİMİ ile İlgili
Sıkça Sorulan Sorular ve Cevapları


pandas ile Polars arasında nasıl seçim yapılır?

pandas mature, geniş ekosistem (scikit-learn, matplotlib, plotly tüm hat), küçük-orta veri için yeterli. Polars Rust-based, lazy evaluation ve parallel execution ile 5-10x daha hızlı, multicore kullanır. Büyük veri (>1GB) ve performance-critical pipeline'da Polars; ML ve geniş entegrasyon için pandas.

DataFrame üzerinde apply ve vectorize arasındaki performans farkı nedir?

apply Python-level loop'tur — her satır için Python function çağrısı, GIL ve interpreter overhead. NumPy vectorize C seviyesinde işler — 50-100x daha hızlı. df['col'].str.upper() gibi method chain native vectorize. apply'a düşmek genelde yanlış araç seçimi sinyali.

groupby + apply ile transform arasındaki fark?

groupby().apply() grup başına dönen DataFrame'i birleştirir — esnek ama yavaş, sonuç index'i değişebilir. groupby().transform() her satıra grup değerini döner, orijinal shape korunur — running mean, rank gibi senaryolarda doğru. agg toplu özet için (sum, mean per group).

Matplotlib, seaborn ve Plotly arasında nasıl seçim yapılır?

Matplotlib low-level, tam kontrol ama boilerplate. Seaborn statistical chart için yüksek seviye, default güzel görünüm. Plotly interaktif (zoom, hover), web ve dashboard için. Exploratory analiz için seaborn; production dashboard için Plotly; rapor PDF için matplotlib + seaborn.

Missing data (NaN) için strateji nasıl seçilir?

dropna kolayca veri kaybeder — sadece %5 altı NaN için. fillna sabit değer, mean/median, forward fill (zaman serisi) seçenekleri. Interpolation matematiksel ara değer. ML pipeline'da scikit-learn SimpleImputer; strategy data leakage'a karşı train/test ayrımı sonrası uygulanır.

Jupyter Notebook ile reproducibility nasıl sağlanır?

Cell çalıştırma sırası bağımlılığı reproducibility'yi bozar. Restart kernel + run all standart kontrol. requirements.txt veya environment.yml ile bağımlılık dondurma, random_seed sabitleme, veri sürümü (DVC) ve nbstripout ile output cleanup gerekli. JupyText veya nbdev versiyon kontrolünü kolaylaştırır.