Kurumsal AI ve Veri Zekası11 Mayıs 2026Serdar7 dk okuma

Embedding ve Vektör DB: KOBİ Doküman Aramasını Yenileme

Embedding ve Vektör DB: KOBİ Doküman Aramasını Yenileme

Özet: Embedding ve vektör veritabanları; KOBİ doküman aramasını anlamsal aramaya taşıma, RAG mimarisi ve uygulama rehberi.

Özet: Embedding (vektörleştirme), bir metni sayısal vektöre dönüştürür; iki metin "anlamsal olarak benzer" mi sorusunu vektör matematiksel uzaklığıyla cevaplar. Vektör DB'leri (Qdrant, Chroma, Weaviate, Pinecone) bu vektörleri ölçeklenebilir biçimde saklar/sorgular. KOBİ için en pratik uygulama: doküman arama yenileme. Eski "Ctrl+F kelime eşleşmesi" yerine "konu olarak şuna benzeyen dokümanı bul" yaklaşımı. RAG (Retrieval-Augmented Generation) mimarisi ile yerel LLM + vektör DB birleştirilince, kurum dokümanları üzerinde "ChatGPT" deneyimi sunulabilir — veri kurum dışına çıkmadan.

KOBİ'lerde dokümanlar SharePoint, dosya sunucu, Notion, e-posta arşivlerinde dağılmış. Bir bilgi aranınca: "şu sözleşme nerede?", "geçen yıl bu müşteri için ne yapmıştık?", "şirket politikası ne diyordu?" — manuel arama saatler. Klasik kelime tabanlı arama "yedek" kelimesi geçen 50 doküman gösterir, hangisi ilgili belli değil. Embedding tabanlı anlamsal arama, "verilerin korunması için ne yapmalıyız" sorusuna yedek, BCP, KVKK uyum gibi farklı kelimeler kullanan dokümanları bile getirir.

Bu yazıda KOBİ ölçeğinde embedding kavramını, vektör DB seçeneklerini ve RAG mimarisi ile doküman arama yenilemesini ele alıyoruz. Hedef kitlemiz IT yöneticileri, doküman yönetiminde verim isteyen ekipler ve modern AI'dan faydalanmak isteyen karar vericiler.

Embedding Nedir?

Embedding, metni (kelime, cümle, paragraf, doküman) sabit boyutlu sayısal vektöre dönüştürmektir.

Tipik Embedding

Cümle: "KVKK uyumu için yedekleme stratejisi gerekli"

Embedding (örnek 384 boyutlu):

[0.12, -0.45, 0.67, 0.23, -0.11, ...]

Bu vektör, cümlenin "anlamını" temsil eder. Benzer anlamlı cümleler benzer vektörlere sahiptir.

Vektör Benzerlik

İki vektör arasındaki "uzaklık" cosine similarity ile ölçülür:

  • 1.0 = aynı anlam
  • 0.5 = ilgili ama farklı konu
  • 0.0 = ilgisiz
  • -1.0 = zıt

KOBİ uygulaması: 0.7+ benzerlik = "ilgili doküman".

Embedding Modelleri

Model Boyut Boyutu (yer) KOBİ Uygunluğu
all-MiniLM-L6-v2 384 Küçük Hafif, hızlı
mxbai-embed-large 1024 Orta Genel amaçlı
OpenAI text-embedding-3-small 1536 Bulut API Yüksek kalite
OpenAI text-embedding-3-large 3072 Bulut API Premium
Cohere embed-multilingual 1024 Bulut API Türkçe iyi
BGE-large 1024 Yerel Açık kaynak iyi

KOBİ pragmatik başlangıç: all-MiniLM-L6-v2 (yerel, hızlı, ücretsiz) veya mxbai-embed-large (kalite + yerel).

Vektör DB Nedir?

Vektör DB, milyonlarca/milyarlarca embedding'i ölçeklenebilir biçimde saklar ve "şu vektöre en yakın 10 vektör hangisi?" sorgusunu hızla cevaplar.

Vektör DB Seçenekleri

DB Tip KOBİ Uygunluğu
Qdrant Açık kaynak, self-host Önerilen
Chroma Açık kaynak, hafif Küçük KOBİ
Weaviate Açık kaynak, zengin Karmaşık ihtiyaç
Milvus Açık kaynak, ölçeklenebilir Büyük KOBİ
Pinecone Bulut SaaS Hızlı başlangıç
PostgreSQL + pgvector Mevcut Postgres'e ekleme Postgres kullanan KOBİ
Elasticsearch Yerleşik vektör desteği Mevcut Elastic kullanıcı

KOBİ tipik tercih: Qdrant (özellik zengin, ölçeklenebilir) veya Chroma (kurulumu en basit).

KOBİ Pratik Senaryosu — Doküman Arama

Klasik vs. Embedding tabanlı arama farkı:

Klasik Arama (Ctrl+F)

Soru: "Müşteri verilerini nasıl yedekleriz?"

Sonuç: "yedek" veya "yedekleme" kelimesini içeren tüm dokümanlar.

Sorun:

  • "Veri korunması" başlıklı doküman gözden kaçar
  • "Backup stratejisi" başlıklı doküman bulunmaz (eğer "yedek" kelimesi yoksa)
  • 100 sonuç çıkar, %90 ilgisiz

Embedding Tabanlı Arama

Soru: "Müşteri verilerini nasıl yedekleriz?"

Sistem: Soru → embedding → vektör DB'de en yakın 10 doküman.

Sonuç:

  • "Yedekleme stratejisi" (0.92 benzerlik)
  • "KVKK kapsamında veri koruma" (0.85)
  • "Felaket kurtarma planı" (0.81)
  • "Müşteri verisi saklama yönergeleri" (0.78)

Sonuçlar anlamsal olarak ilgili — kelime eşleşmesinden bağımsız.

RAG Mimarisi

Embedding + Vektör DB + LLM birleşimi: RAG (Retrieval-Augmented Generation).

RAG Akışı

1. Hazırlık (Indexing):
[Tüm dokümanlar] → [Embedding model] → [Vektör DB]

2. Sorgu:
[Kullanıcı sorusu] → [Embedding] → [Vektör DB'den ilgili dokümanlar bul]
                                   ↓
              [Soru + Dokümanlar] → [LLM] → [Bağlamla yanıt]

KOBİ Avantajı

  • Yerel LLM + yerel vektör DB = veri kurum dışına çıkmaz (KVKK)
  • Kurum dokümanları üzerinde "ChatGPT" deneyimi
  • Yeni doküman eklendiğinde sadece embedding hesaplanır

Tipik KOBİ RAG Yığını

Açık kaynak yığın örneği:

Bileşen Seçim
LLM Runtime Ollama (llama3.1:8b)
Embedding model mxbai-embed-large
Vektör DB Qdrant
Orchestration LangChain veya LlamaIndex
UI Open WebUI veya custom web app
Doküman parse unstructured.io, Apache Tika

Kurulum (Docker Compose)

version: '3.8'
services:
  ollama:
    image: ollama/ollama:latest
    ports:
      - "11434:11434"
    volumes:
      - ollama_data:/root/.ollama

  qdrant:
    image: qdrant/qdrant:latest
    ports:
      - "6333:6333"
    volumes:
      - qdrant_data:/qdrant/storage

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    ports:
      - "3000:8080"
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
    volumes:
      - openwebui_data:/app/backend/data

volumes:
  ollama_data:
  qdrant_data:
  openwebui_data:

Bu üç servis bir araya gelince KOBİ'nin self-hosted "kurum bilgi ChatGPT'si" hazır.

Doküman Türleri

KOBİ'de RAG kapsama girebilecek tipik dokümanlar:

  • Şirket politikaları (PDF, Word)
  • Müşteri sözleşmeleri
  • İç prosedürler, kılavuzlar
  • HR dokümanları
  • Teknik dokümantasyon
  • Wiki/Notion sayfaları
  • E-posta arşivleri (uygun şekilde)
  • Geçmiş projeler
  • Pazarlama materyalleri

Hassas Veri Filtresi

Tüm dokümanlar RAG'a girmemeli:

  • KVKK çok gizli (mali rapor, M&A) — dışarıda
  • Hassas çalışan verisi — özlük dosyaları
  • Müşteri özel verisi — KVKK kapsamında

Erişim kontrolü RAG'da role-based: kim hangi dokümanları sorgulayabilir.

Doküman Hazırlama (Chunking)

Tüm bir 100 sayfalık doküman tek bir embedding olamaz; parçalara bölünmesi gerekir.

Chunk Stratejileri

  • Sabit boyut: Örnek 500 token, 50 token overlap
  • Cümle bazlı: Her cümle ayrı, basit
  • Paragraf bazlı: Anlamsal bütünlük korunur
  • Sektion bazlı: Markdown başlık tabanlı
  • Recursive: İleri seviye, paragraf → cümle → kelime

KOBİ pratik: 500 token + 50 token overlap, paragraf-aware.

Metadata

Her chunk'a metadata eklenir:

  • Kaynak doküman adı
  • Sayfa numarası
  • Bölüm başlığı
  • Yazar, tarih
  • Erişim yetkileri

Sorgu sonucu kullanıcıya kaynak gösterir.

Türkçe ve Embedding

KOBİ ortamı çoğunlukla Türkçe doküman içerir; embedding modeli Türkçe destekli olmalı.

Türkçe Performansı İyi Modeller

  • Cohere embed-multilingual-v3 (bulut API, en iyi)
  • mxbai-embed-large (yerel, iyi)
  • BGE-M3 (multilingual, iyi)
  • all-MiniLM-L6-v2 (orta, hızlı)
  • OpenAI text-embedding-3 (bulut, kaliteli)

KOBİ veri-mahremiyetli + Türkçe: mxbai-embed-large veya BGE-M3 yerel.

Performans Beklentileri

KOBİ ölçeğinde RAG performans:

Metrik Tipik Değer
Doküman sayısı 1.000 - 100.000
Toplam chunk 10.000 - 1.000.000
Embedding indeksleme süresi Saatler (one-time)
Sorgu yanıt süresi <1 saniye (vektör arama)
LLM yanıt süresi 3-15 saniye
Donanım RTX 4090 / A100 ideal

Yaygın Hatalar

KOBİ RAG kurulumlarında tipik tuzaklar:

  • Tüm dokümanları sorgusuz indeksleme: Hassas veri sızıntı riski
  • Erişim kontrolü yok: Herkes her dokümanı sorgulayabilir
  • Chunk çok büyük: İlgili kısım belirsizleşir
  • Chunk çok küçük: Bağlam kaybolur
  • Eski Türkçe model: Düşük yanıt kalitesi
  • Audit log yok: Kim ne sorguladı bilinmiyor
  • Yedekleme yok: Vektör DB kayıp olunca her şey baştan

Yamanlar Bilişim Olarak Sunduğumuz Hizmetler

KOBİ ölçeğinde RAG/embedding destek alanlarımız:

  • "RAG bizim için uygun mu?" değerlendirme
  • Doküman envanteri ve hassasiyet sınıflandırması
  • Qdrant/Chroma vektör DB kurulumu
  • Embedding model seçimi (Türkçe odaklı)
  • LangChain/LlamaIndex orchestration
  • Open WebUI veya custom UI
  • Erişim kontrolü ve audit log
  • Yıllık model güncellemesi

Sıkça Sorulan Sorular

Sonuç

Embedding ve vektör DB; KOBİ doküman aramasını "Ctrl+F kelime eşleşmesi" döneminden "anlamsal benzerlik" çağına taşır. RAG mimarisi ile yerel LLM + vektör DB birleştirildiğinde, kurum dokümanları üzerinde "ChatGPT" deneyimi sunulur — veri kurum dışına çıkmadan, KVKK dostu, sürdürülebilir maliyetle. Qdrant + Ollama + mxbai-embed kombinasyonu KOBİ ölçeğinde 1-2 hafta içinde kurulur ve yıllar boyunca verim sağlar.

Yamanlar Bilişim olarak ölçeğinize uygun RAG mimari tasarımı, kurulumu ve eğitim hizmetleri sunuyor; kurum dokümanlarınızı arşivde kayıp olmayan, sorgulanan, kullanılan bir bilgi varlığına dönüştürüyoruz.

Sıkça Sorulan Sorular

KOBİ olarak embedding e ihtiyacım var mı?

KOBİ nin doküman hacmi 100+ ise ve doküman aramada zaman kaybı gerçek sorunsa — evet. 50 doküman altı için manuel arama yetebilir; 500+ doküman ortamında embedding tabanlı arama dramatik fark yaratır.

Bulut embedding API mi yoksa yerel mi?

KVKK önceliği: Yerel (Ollama + mxbai-embed-large). Hız ve kalite önceliği bulut: OpenAI text-embedding-3-small ekonomik, Cohere embed-multilingual Türkçe iyi. Hassas veri yerel, genel ARGE bulut hibrit yaklaşım da mümkün.

Vektör DB için ne kadar yer/RAM gerekir?

Tipik: 100 doküman × 100 chunk × 1024 boyut × 4 byte = ~40 MB. 10.000 doküman: ~4 GB. KOBİ vektör DB sunucusu için 8-16 GB RAM, 100 GB disk yeterli başlangıç.

Mevcut SharePoint search yetmez mi?

SharePoint Search keyword tabanlı, son sürümlerde sınırlı semantik (Microsoft Search). Embedding tabanlı arama anlamsal benzerlik açısından daha güçlü. KOBİ ihtiyaç tipi belirler: SharePoint büyüdükçe Microsoft 365 Copilot (RAG benzeri) seçenek; veri mahremiyeti için yerel RAG kontrolü.

Microsoft Copilot zaten RAG yapıyor değil mi?

Evet, M365 Copilot kurum verileri (M365 dosyalar, Teams, e-posta) üzerinde RAG yapar. KOBİ M365 ortamı için Copilot doğal seçim. Ancak: M365 dışı dokümanlar (eski dosya sunucusu, PDF arşiv, web içerik) Copilot kapsamında değil — bunlar için özel RAG çözümü gerekir.

Türkçe için en iyi yerel embedding modeli?

mxbai-embed-large veya BGE-M3 Türkçe kabul edilebilir performans sağlar. Cohere embed-multilingual bulut tarafında Türkçe için en iyi (ama veri buluta gider). Kurum içi yerel ihtiyaç için mxbai-embed-large yaygın tercih.

Paylaş:
Son güncelleme: 11 Mayıs 2026
S

Yazar

Serdar

Yamanlar Bilişim Uzmanı

Yamanlar Bilişim bünyesinde IT altyapısı, siber güvenlik ve dijital dönüşüm konularında içerikler üretmektedir. Sorularınız için iletişime geçebilirsiniz.

Profesyonel Destek

Bu konuda destek alın

Kurumsal AI ve Veri Zekası alanında ihtiyaç duyduğunuz çözümü birlikte tasarlayalım. Uzman ekibimiz 1 iş günü içinde size geri döner.

support@yamanlarbilisim.com.tr · Yanıt süresi: 1 iş günü