MongoDB gerçekten schemaless mı, yoksa şema var mı?

MongoDB schemaless değil, esnek şemalıdır. Veritabanı katmanı şemayı zorla dayatmaz ama dokümanlarınızın yapısı sorgu desenlerinize, index'lerinize ve uygulama mantığınıza göre yine de bir şemaya sahiptir. Şema kararını siz uygulama tarafında verirsiniz, ortadan kalkmaz.

Embedded mı yoksa referenced model mi seçmeliyim?

Alt veriler ana dokümanla birlikte ve aynı anda okunuyorsa, büyümesi sınırlıysa ve bağımsız güncellenmiyorsa embed edin. Alt veri bağımsız erişiliyor, çok büyüyor ya da farklı dokümanlar arasında paylaşılıyorsa reference kullanın. Karar ortalama değil en kötü vakaya göre verilmelidir.

Unbounded array neden bu kadar tehlikeli?

Dizinin sınırsız büyümesi, doküman boyutunu BSON limiti olan 16 MB'a doğru iter, in-place update'i imkânsızlaştırır, working set'i şişirir ve multikey index'lerin kardinalitesini patlatır. Bucket pattern, outlier pattern ya da kalemleri ayrı koleksiyona almak çözüm yaklaşımlarıdır.

$lookup'ı sınırsızca kullanabilir miyim, JOIN gibi mi?

$lookup JOIN'in MongoDB karşılığı değil, pahalı bir telafi mekanizmasıdır. Her doküman için ekstra disk erişimi demektir ve büyük sonuç kümelerinde performans 10-100 kat düşebilir. Birlikte okunan veriyi aynı dokümana koymak, $lookup'a güvenmekten çok daha sağlıklıdır.

Anti-pattern'leri üretimde nasıl tespit ederim?

MongoDB Atlas kullanıyorsanız Performance Advisor ve Schema Anti-Patterns sekmesi koleksiyonlarınızı tarar. Self-hosted ortamda db.collection.stats() çıktısındaki avgObjSize, storageSize ve dizi uzunlukları takip edilmelidir. 100 KB üstü doküman ve 1000+ uzunluktaki diziler ilk uyarı işaretleridir.

Bucket pattern tam olarak ne yapar?

Sınırsız büyüyen dizileri sabit boyutlu paketlere bölen bir tasarım desenidir. Örneğin sensör verisi için her dokümana 200 ölçüm konur, dolduğunda yeni bir bucket dokümanı açılır. Böylece doküman boyutu kontrol altında kalır, index'ler verimli çalışır ve sorgular zamansal aralık üzerinden hızla çalışır.

Şemayı baştan mükemmel tasarlayabilir miyim?

Hayır, MongoDB şema tasarımı tek seferlik bir iş değildir. Uygulamanın erişim desenleri zamanla değişir, yeni özellikler yeni sorgular getirir. Önemli olan erken kararları geri dönülmez şekilde kötü vermemek; bucket, outlier, computed pattern gibi araçları bilerek şemayı evrimleştirmektir.

MONGODB SCHEMA DESIGN ANTI-PATTERNS

Q: Her kullanıcı için ayrı koleksiyon açmak iyi bir izolasyon değil mi?

Hayır, ciddi bir anti-pattern. WiredTiger her koleksiyon için ayrı dosya tutar; on binlerce koleksiyon dosya tanımlayıcı tükenmesi, cache parçalanması ve yedek sürelerinin patlamasına yol açar. Tek koleksiyon + tenantId/userId alanı üzerinde index, doğru yaklaşımdır.

MongoDB yeşil yaprak logosu ile schema design anti-pattern kavramı

"MongoDB schemaless'tır, şema diye bir derdim yok" — bu cümleyi söyleyen geliştirici, çoğu zaman altı ay sonra performans düşüşü ve disk şişmesiyle geri döner. MongoDB'nin esnek doküman modeli "şema yok" anlamına gelmez; şema kararını uygulama katmanına ittiği anlamına gelir. Bu farkı kavramadan tasarlanan koleksiyonlar; sorgu zamanında patlayan dokümanlar, sınırsız büyüyen diziler ve gereksiz $lookup yığınları üretir. Aşağıda en sık karşılaşılan anti-pattern'leri ve bunlardan nasıl kaçınılacağını ele alıyoruz.

Schemaless Yanılgısı Nereden Geliyor?

MongoDB'nin pazarlama söylemi yıllarca "esnek şema" üzerinden ilerledi ve geliştiricilerin bir kısmı bunu "şema tasarlamadan kod yazabilirim" olarak okudu. Oysa esnek şema; alan ekleyip çıkarırken migration zorunluluğu olmaması anlamına gelir, kararı atlamak değil. Doküman yapısı yine de sorgu desenlerine, yazma sıklığına ve büyüme şekline göre seçilmek zorundadır.

İlişkisel dünyadan gelen geliştiricilerde sık görülen bir refleks de tam tersi yönde işler: her şeyi normalize etmek. MongoDB'de her sorguda $lookup zinciri kurmak, RDBMS'teki JOIN'in ucuz olduğu varsayımının doküman veritabanına yanlış taşınmasıdır. MongoDB'nin felsefesi "birlikte erişilen veri birlikte saklanır" üzerine kuruludur.

Embedded vs Referenced — Doğru Karar Nasıl Verilir?

Bu kararı verirken üç temel soru sorulur:

Birlikte mi okunuyor? Eğer alt veri ana doküman ile %90+ oranda birlikte sorgulanıyorsa embed edilir.
Sınırlı mı büyüyor? Alt veri sayısı öngörülebilir bir üst sınıra sahipse (örn. bir siparişin kalemleri) embed güvenlidir.
Bağımsız güncelleniyor mu? Alt veri sık ve tek başına güncelleniyorsa, ana dokümanı her seferinde dolaşmak yerine referans tercih edilir.

Örnek: Bir blog yazısı ile yorumları. Yorumlar 5-50 arası kalıyorsa embed; bir gönderi viral olup binlerce yorum alabiliyorsa ayrı koleksiyon + reference tercih edilir. Karar, ortalama vakaya değil en kötü vakaya göre verilir. Embed ve reference seçimini belirleyen erişim desenleri ile büyüme sınırları üzerine resmi modelleme dokümantasyonunda ek senaryolar ve karar kriterleri yer alır.

MongoDB doküman şeması iki panel halinde hatalı yapı ile sağlıklı yapı karşılaştırması

Unbounded Array — En Pahalı Hata

Anti-pattern listesinin başında "sınırsız büyüyen dizi" gelir. Tipik senaryo şudur: kullanıcı dokümanına activityLog dizisi eklenir, her olay buraya push edilir. İlk haftalar sorun çıkmaz. Altıncı ayda doküman 8 MB'a ulaşır, BSON limiti olan 16 MB'a yaklaşır, sorgu zamanları katlanır.

Unbounded array'in yarattığı somut problemler:

Doküman büyüdükçe in-place update imkânsızlaşır, MongoDB dokümanı taşımak zorunda kalır.
Tek bir alan için bile dokümanın tamamı belleğe yüklenir — working set şişer.
Dizi üzerindeki index'ler çok değerli (multikey) hale gelir, kardinalite patlar.
16 MB BSON limitine dayanan doküman, ileride bütün uygulamayı kilitleyebilir.

Çözüm yaklaşımları: bucket pattern ile dizileri sabit boyutlu paketlere bölmek, outlier pattern ile sıra dışı büyüyen kayıtları ayrı koleksiyona taşımak ya da kalemleri en baştan ayrı bir koleksiyona referans olarak yazmak. MongoDB tasarımının temellerini ve bu desenlerin pratik uygulamasını daha derinlemesine öğrenmek için MongoDB Eğitimi içeriğinden yararlanabilirsiniz.

Massive Number of Collections

İkinci sık görülen anti-pattern: her kullanıcıya, her müşteriye, her güne ayrı bir koleksiyon açmak. "user_1234_logs" tarzı isimlendirme RDBMS dünyasında tablo izolasyonu gibi cazip görünür ama MongoDB'de WiredTiger her koleksiyon için ayrı dosya tutar. On binlerce koleksiyon; dosya tanımlayıcı tükenmesi, cache parçalanması ve yedekleme süresi patlaması demektir.

Doğru yaklaşım: tek koleksiyon + iyi index'lenmiş ayırıcı alan (tenantId, userId). Sharding gerekirse bu alan zaten shard key adayıdır.

Bloated Documents ve Gereksiz Alanlar

Her dokümana her ihtimale karşı 40 alan koymak, MongoDB'nin esnekliğini yanlış okumaktır. Hiç kullanılmayan alanlar bile her okumada ağ üzerinden taşınır, belleği işgal eder. Projection ile alanları kırpmak palyatif çözümdür — asıl mesele şemayı sorgu desenlerine göre yalın tutmaktır.

Pratik kural: bir alan dokümanların %10'undan azında anlamlı değer içeriyorsa, o alan için ayrı bir alt-doküman ya da koleksiyon düşünülmelidir.

Separating Data That Is Accessed Together

RDBMS refleksiyle gelen geliştiriciler, mantıksal olarak ayrı görünen veriyi farklı koleksiyonlara koyar ve her sorguda $lookup çalıştırır. Aggregation pipeline'da $lookup, doküman başına ekstra disk erişimi demektir; binlerce dokümanlık bir sorguda performans 10-100x arası düşebilir. Birlikte okunan veri — örneğin ürün ile o ürünün öne çıkan fiyat/stok bilgisi — aynı dokümanda tutulmalıdır.

Şişmiş tek doküman ile bucket pattern ile parçalanmış doküman örnekleri arasındaki fark

Anti-Pattern'leri Erken Yakalama

MongoDB Atlas'ın Performance Advisor ve Schema Anti-Patterns sekmesi, koleksiyonlarınızdaki sorunları doküman boyutu, dizi büyüklüğü ve koleksiyon sayısı üzerinden raporlar. Self-hosted ortamlarda db.collection.stats() çıktısındaki avgObjSize ve storageSize değerleri ilk işaret fişeğidir. 100 KB'ı geçen ortalama doküman boyutu, 1000'i aşan dizi uzunlukları ya da yüzlerce koleksiyon — hepsi durup düşünmek için sebeptir.

Schema tasarımı bir kez yapılıp unutulan bir iş değildir; uygulama erişim desenleri değiştikçe yeniden değerlendirilir. MongoDB modelleme pratiklerini ve aggregation senaryolarını daha geniş bir bağlamda eğitim materyalleri üzerinden inceleyebilirsiniz.

Sonuç olarak "schemaless" kelimesi, tasarım yapmamak için bir bahane değil; tasarımı kod tarafında bilinçli yapmak için bir davettir. Anti-pattern'leri tanıyan ekipler, üretimde geri dönülmesi pahalı kararları en başta vermez.