Kurumsal AI ve Veri Zekası11 Mayıs 2026Serdar7 dk okuma

Embedding ve Vektör DB: KOBİ Doküman Aramasını Yenileme

Q: KOBİ olarak embedding e ihtiyacım var mı?

KOBİ nin doküman hacmi 100+ ise ve doküman aramada zaman kaybı gerçek sorunsa — evet. 50 doküman altı için manuel arama yetebilir; 500+ doküman ortamında embedding tabanlı arama dramatik fark yaratır.

Q: Bulut embedding API mi yoksa yerel mi?

KVKK önceliği: Yerel (Ollama + mxbai-embed-large). Hız ve kalite önceliği bulut: OpenAI text-embedding-3-small ekonomik, Cohere embed-multilingual Türkçe iyi. Hassas veri yerel, genel ARGE bulut hibrit yaklaşım da mümkün.

Q: Vektör DB için ne kadar yer/RAM gerekir?

Tipik: 100 doküman × 100 chunk × 1024 boyut × 4 byte = ~40 MB. 10.000 doküman: ~4 GB. KOBİ vektör DB sunucusu için 8-16 GB RAM, 100 GB disk yeterli başlangıç.

Q: Mevcut SharePoint search yetmez mi?

SharePoint Search keyword tabanlı, son sürümlerde sınırlı semantik (Microsoft Search). Embedding tabanlı arama anlamsal benzerlik açısından daha güçlü. KOBİ ihtiyaç tipi belirler: SharePoint büyüdükçe Microsoft 365 Copilot (RAG benzeri) seçenek; veri mahremiyeti için yerel RAG kontrolü.

Q: Microsoft Copilot zaten RAG yapıyor değil mi?

Evet, M365 Copilot kurum verileri (M365 dosyalar, Teams, e-posta) üzerinde RAG yapar. KOBİ M365 ortamı için Copilot doğal seçim. Ancak: M365 dışı dokümanlar (eski dosya sunucusu, PDF arşiv, web içerik) Copilot kapsamında değil — bunlar için özel RAG çözümü gerekir.

Q: Türkçe için en iyi yerel embedding modeli?

mxbai-embed-large veya BGE-M3 Türkçe kabul edilebilir performans sağlar. Cohere embed-multilingual bulut tarafında Türkçe için en iyi (ama veri buluta gider). Kurum içi yerel ihtiyaç için mxbai-embed-large yaygın tercih.

Özet: Embedding ve vektör veritabanları; KOBİ doküman aramasını anlamsal aramaya taşıma, RAG mimarisi ve uygulama rehberi.

Özet: Embedding (vektörleştirme), bir metni sayısal vektöre dönüştürür; iki metin "anlamsal olarak benzer" mi sorusunu vektör matematiksel uzaklığıyla cevaplar. Vektör DB'leri (Qdrant, Chroma, Weaviate, Pinecone) bu vektörleri ölçeklenebilir biçimde saklar/sorgular. KOBİ için en pratik uygulama: doküman arama yenileme. Eski "Ctrl+F kelime eşleşmesi" yerine "konu olarak şuna benzeyen dokümanı bul" yaklaşımı. RAG (Retrieval-Augmented Generation) mimarisi ile yerel LLM + vektör DB birleştirilince, kurum dokümanları üzerinde "ChatGPT" deneyimi sunulabilir — veri kurum dışına çıkmadan.

KOBİ'lerde dokümanlar SharePoint, dosya sunucu, Notion, e-posta arşivlerinde dağılmış. Bir bilgi aranınca: "şu sözleşme nerede?", "geçen yıl bu müşteri için ne yapmıştık?", "şirket politikası ne diyordu?" — manuel arama saatler. Klasik kelime tabanlı arama "yedek" kelimesi geçen 50 doküman gösterir, hangisi ilgili belli değil. Embedding tabanlı anlamsal arama, "verilerin korunması için ne yapmalıyız" sorusuna yedek, BCP, KVKK uyum gibi farklı kelimeler kullanan dokümanları bile getirir.

Bu yazıda KOBİ ölçeğinde embedding kavramını, vektör DB seçeneklerini ve RAG mimarisi ile doküman arama yenilemesini ele alıyoruz. Hedef kitlemiz IT yöneticileri, doküman yönetiminde verim isteyen ekipler ve modern AI'dan faydalanmak isteyen karar vericiler.

Embedding Nedir?

Embedding, metni (kelime, cümle, paragraf, doküman) sabit boyutlu sayısal vektöre dönüştürmektir.

Tipik Embedding

Cümle: "KVKK uyumu için yedekleme stratejisi gerekli"

Embedding (örnek 384 boyutlu):

[0.12, -0.45, 0.67, 0.23, -0.11, ...]

Bu vektör, cümlenin "anlamını" temsil eder. Benzer anlamlı cümleler benzer vektörlere sahiptir.

Vektör Benzerlik

İki vektör arasındaki "uzaklık" cosine similarity ile ölçülür:

1.0 = aynı anlam
0.5 = ilgili ama farklı konu
0.0 = ilgisiz
-1.0 = zıt

KOBİ uygulaması: 0.7+ benzerlik = "ilgili doküman".

Embedding Modelleri

Model	Boyut	Boyutu (yer)	KOBİ Uygunluğu
all-MiniLM-L6-v2	384	Küçük	Hafif, hızlı
mxbai-embed-large	1024	Orta	Genel amaçlı
OpenAI text-embedding-3-small	1536	Bulut API	Yüksek kalite
OpenAI text-embedding-3-large	3072	Bulut API	Premium
Cohere embed-multilingual	1024	Bulut API	Türkçe iyi
BGE-large	1024	Yerel	Açık kaynak iyi

KOBİ pragmatik başlangıç: all-MiniLM-L6-v2 (yerel, hızlı, ücretsiz) veya mxbai-embed-large (kalite + yerel).

Vektör DB Nedir?

Vektör DB, milyonlarca/milyarlarca embedding'i ölçeklenebilir biçimde saklar ve "şu vektöre en yakın 10 vektör hangisi?" sorgusunu hızla cevaplar.

Vektör DB Seçenekleri

DB	Tip	KOBİ Uygunluğu
Qdrant	Açık kaynak, self-host	Önerilen
Chroma	Açık kaynak, hafif	Küçük KOBİ
Weaviate	Açık kaynak, zengin	Karmaşık ihtiyaç
Milvus	Açık kaynak, ölçeklenebilir	Büyük KOBİ
Pinecone	Bulut SaaS	Hızlı başlangıç
PostgreSQL + pgvector	Mevcut Postgres'e ekleme	Postgres kullanan KOBİ
Elasticsearch	Yerleşik vektör desteği	Mevcut Elastic kullanıcı

KOBİ tipik tercih: Qdrant (özellik zengin, ölçeklenebilir) veya Chroma (kurulumu en basit).

KOBİ Pratik Senaryosu — Doküman Arama

Klasik vs. Embedding tabanlı arama farkı:

Klasik Arama (Ctrl+F)

Soru: "Müşteri verilerini nasıl yedekleriz?"

Sonuç: "yedek" veya "yedekleme" kelimesini içeren tüm dokümanlar.

Sorun:

"Veri korunması" başlıklı doküman gözden kaçar
"Backup stratejisi" başlıklı doküman bulunmaz (eğer "yedek" kelimesi yoksa)
100 sonuç çıkar, %90 ilgisiz

Embedding Tabanlı Arama

Soru: "Müşteri verilerini nasıl yedekleriz?"

Sistem: Soru → embedding → vektör DB'de en yakın 10 doküman.

Sonuç:

"Yedekleme stratejisi" (0.92 benzerlik)
"KVKK kapsamında veri koruma" (0.85)
"Felaket kurtarma planı" (0.81)
"Müşteri verisi saklama yönergeleri" (0.78)

Sonuçlar anlamsal olarak ilgili — kelime eşleşmesinden bağımsız.

RAG Mimarisi

Embedding + Vektör DB + LLM birleşimi: RAG (Retrieval-Augmented Generation).

RAG Akışı

1. Hazırlık (Indexing):
[Tüm dokümanlar] → [Embedding model] → [Vektör DB]

2. Sorgu:
[Kullanıcı sorusu] → [Embedding] → [Vektör DB'den ilgili dokümanlar bul]
                                   ↓
              [Soru + Dokümanlar] → [LLM] → [Bağlamla yanıt]

KOBİ Avantajı

Yerel LLM + yerel vektör DB = veri kurum dışına çıkmaz (KVKK)
Kurum dokümanları üzerinde "ChatGPT" deneyimi
Yeni doküman eklendiğinde sadece embedding hesaplanır

Tipik KOBİ RAG Yığını

Açık kaynak yığın örneği:

Bileşen	Seçim
LLM Runtime	Ollama (llama3.1:8b)
Embedding model	mxbai-embed-large
Vektör DB	Qdrant
Orchestration	LangChain veya LlamaIndex
UI	Open WebUI veya custom web app
Doküman parse	unstructured.io, Apache Tika

Kurulum (Docker Compose)

version: '3.8'
services:
  ollama:
    image: ollama/ollama:latest
    ports:
      - "11434:11434"
    volumes:
      - ollama_data:/root/.ollama

  qdrant:
    image: qdrant/qdrant:latest
    ports:
      - "6333:6333"
    volumes:
      - qdrant_data:/qdrant/storage

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    ports:
      - "3000:8080"
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
    volumes:
      - openwebui_data:/app/backend/data

volumes:
  ollama_data:
  qdrant_data:
  openwebui_data:

Bu üç servis bir araya gelince KOBİ'nin self-hosted "kurum bilgi ChatGPT'si" hazır.

Doküman Türleri

KOBİ'de RAG kapsama girebilecek tipik dokümanlar:

Şirket politikaları (PDF, Word)
Müşteri sözleşmeleri
İç prosedürler, kılavuzlar
HR dokümanları
Teknik dokümantasyon
Wiki/Notion sayfaları
E-posta arşivleri (uygun şekilde)
Geçmiş projeler
Pazarlama materyalleri

Hassas Veri Filtresi

Tüm dokümanlar RAG'a girmemeli:

KVKK çok gizli (mali rapor, M&A) — dışarıda
Hassas çalışan verisi — özlük dosyaları
Müşteri özel verisi — KVKK kapsamında

Erişim kontrolü RAG'da role-based: kim hangi dokümanları sorgulayabilir.

Doküman Hazırlama (Chunking)

Tüm bir 100 sayfalık doküman tek bir embedding olamaz; parçalara bölünmesi gerekir.

Chunk Stratejileri

Sabit boyut: Örnek 500 token, 50 token overlap
Cümle bazlı: Her cümle ayrı, basit
Paragraf bazlı: Anlamsal bütünlük korunur
Sektion bazlı: Markdown başlık tabanlı
Recursive: İleri seviye, paragraf → cümle → kelime

KOBİ pratik: 500 token + 50 token overlap, paragraf-aware.

Metadata

Her chunk'a metadata eklenir:

Kaynak doküman adı
Sayfa numarası
Bölüm başlığı
Yazar, tarih
Erişim yetkileri

Sorgu sonucu kullanıcıya kaynak gösterir.

Türkçe ve Embedding

KOBİ ortamı çoğunlukla Türkçe doküman içerir; embedding modeli Türkçe destekli olmalı.

Türkçe Performansı İyi Modeller

Cohere embed-multilingual-v3 (bulut API, en iyi)
mxbai-embed-large (yerel, iyi)
BGE-M3 (multilingual, iyi)
all-MiniLM-L6-v2 (orta, hızlı)
OpenAI text-embedding-3 (bulut, kaliteli)

KOBİ veri-mahremiyetli + Türkçe: mxbai-embed-large veya BGE-M3 yerel.

Performans Beklentileri

KOBİ ölçeğinde RAG performans:

Metrik	Tipik Değer
Doküman sayısı	1.000 - 100.000
Toplam chunk	10.000 - 1.000.000
Embedding indeksleme süresi	Saatler (one-time)
Sorgu yanıt süresi	<1 saniye (vektör arama)
LLM yanıt süresi	3-15 saniye
Donanım	RTX 4090 / A100 ideal

Yaygın Hatalar

KOBİ RAG kurulumlarında tipik tuzaklar:

Tüm dokümanları sorgusuz indeksleme: Hassas veri sızıntı riski
Erişim kontrolü yok: Herkes her dokümanı sorgulayabilir
Chunk çok büyük: İlgili kısım belirsizleşir
Chunk çok küçük: Bağlam kaybolur
Eski Türkçe model: Düşük yanıt kalitesi
Audit log yok: Kim ne sorguladı bilinmiyor
Yedekleme yok: Vektör DB kayıp olunca her şey baştan

Yamanlar Bilişim Olarak Sunduğumuz Hizmetler

KOBİ ölçeğinde RAG/embedding destek alanlarımız:

"RAG bizim için uygun mu?" değerlendirme
Doküman envanteri ve hassasiyet sınıflandırması
Qdrant/Chroma vektör DB kurulumu
Embedding model seçimi (Türkçe odaklı)
LangChain/LlamaIndex orchestration
Open WebUI veya custom UI
Erişim kontrolü ve audit log
Yıllık model güncellemesi

Sıkça Sorulan Sorular

Sonuç

Embedding ve vektör DB; KOBİ doküman aramasını "Ctrl+F kelime eşleşmesi" döneminden "anlamsal benzerlik" çağına taşır. RAG mimarisi ile yerel LLM + vektör DB birleştirildiğinde, kurum dokümanları üzerinde "ChatGPT" deneyimi sunulur — veri kurum dışına çıkmadan, KVKK dostu, sürdürülebilir maliyetle. Qdrant + Ollama + mxbai-embed kombinasyonu KOBİ ölçeğinde 1-2 hafta içinde kurulur ve yıllar boyunca verim sağlar.

Yamanlar Bilişim olarak ölçeğinize uygun RAG mimari tasarımı, kurulumu ve eğitim hizmetleri sunuyor; kurum dokümanlarınızı arşivde kayıp olmayan, sorgulanan, kullanılan bir bilgi varlığına dönüştürüyoruz.

Sıkça Sorulan Sorular

KOBİ olarak embedding e ihtiyacım var mı?

KOBİ nin doküman hacmi 100+ ise ve doküman aramada zaman kaybı gerçek sorunsa — evet. 50 doküman altı için manuel arama yetebilir; 500+ doküman ortamında embedding tabanlı arama dramatik fark yaratır.

Bulut embedding API mi yoksa yerel mi?

KVKK önceliği: Yerel (Ollama + mxbai-embed-large). Hız ve kalite önceliği bulut: OpenAI text-embedding-3-small ekonomik, Cohere embed-multilingual Türkçe iyi. Hassas veri yerel, genel ARGE bulut hibrit yaklaşım da mümkün.

Vektör DB için ne kadar yer/RAM gerekir?

Tipik: 100 doküman × 100 chunk × 1024 boyut × 4 byte = ~40 MB. 10.000 doküman: ~4 GB. KOBİ vektör DB sunucusu için 8-16 GB RAM, 100 GB disk yeterli başlangıç.

Mevcut SharePoint search yetmez mi?

SharePoint Search keyword tabanlı, son sürümlerde sınırlı semantik (Microsoft Search). Embedding tabanlı arama anlamsal benzerlik açısından daha güçlü. KOBİ ihtiyaç tipi belirler: SharePoint büyüdükçe Microsoft 365 Copilot (RAG benzeri) seçenek; veri mahremiyeti için yerel RAG kontrolü.

Microsoft Copilot zaten RAG yapıyor değil mi?

Evet, M365 Copilot kurum verileri (M365 dosyalar, Teams, e-posta) üzerinde RAG yapar. KOBİ M365 ortamı için Copilot doğal seçim. Ancak: M365 dışı dokümanlar (eski dosya sunucusu, PDF arşiv, web içerik) Copilot kapsamında değil — bunlar için özel RAG çözümü gerekir.

Türkçe için en iyi yerel embedding modeli?

mxbai-embed-large veya BGE-M3 Türkçe kabul edilebilir performans sağlar. Cohere embed-multilingual bulut tarafında Türkçe için en iyi (ama veri buluta gider). Kurum içi yerel ihtiyaç için mxbai-embed-large yaygın tercih.

#Embedding #Vektör DB #RAG #Doküman Arama #KOBİ AI

Paylaş:

Son güncelleme: 11 Mayıs 2026

Yazar

Serdar

Yamanlar Bilişim Uzmanı

Yamanlar Bilişim bünyesinde IT altyapısı, siber güvenlik ve dijital dönüşüm konularında içerikler üretmektedir. Sorularınız için iletişime geçebilirsiniz.

Profesyonel Destek

Bu konuda destek alın

Kurumsal AI ve Veri Zekası alanında ihtiyaç duyduğunuz çözümü birlikte tasarlayalım. Uzman ekibimiz 1 iş günü içinde size geri döner.

Teklif Al İletişime Geç

support@yamanlarbilisim.com.tr · Yanıt süresi: 1 iş günü

Devamını Oku

İlgili Makaleler

Tümünü Gör

Kurumsal AI ve Veri Zekası

AI Politikası: KOBİ'lerde ChatGPT/Copilot Kullanım Kuralları

KOBİ için kurumsal AI politikası rehberi; ChatGPT, Microsoft Copilot, Claude kullanımı, KVKK uyumu ve çalışan kuralları.

10 Mayıs 20267 dk

Kurumsal AI ve Veri Zekası

Excel Otomasyonu: Power Automate ile Manuel İşleri Bitirme

Microsoft Power Automate ile Excel iş akışlarını otomatize etme; KOBİ pratik senaryolar, bağlayıcılar ve verim kazancı.

10 Mayıs 20266 dk

Kurumsal AI ve Veri Zekası

Yerel LLM Deployment: KOBİ'de Veri Mahremiyetiyle AI

KOBİ ölçeğinde yerel (self-hosted) LLM kurulumu; Ollama, LM Studio, vLLM ile veri mahremiyeti odaklı AI dağıtımı.

10 Mayıs 20268 dk