Kurumsal AI ve Veri Zekası10 Mayıs 2026Serdar8 dk okuma

Yerel LLM Deployment: KOBİ'de Veri Mahremiyetiyle AI

Yerel LLM Deployment: KOBİ'de Veri Mahremiyetiyle AI

Özet: KOBİ ölçeğinde yerel (self-hosted) LLM kurulumu; Ollama, LM Studio, vLLM ile veri mahremiyeti odaklı AI dağıtımı.

Özet: Yerel LLM (Large Language Model) deployment, ChatGPT/Claude/Gemini gibi bulut tabanlı AI servislerine alternatif olarak kurum kendi sunucusunda açık kaynak modelleri (Llama 3, Mistral, Qwen, Phi) çalıştırmasıdır. KOBİ için ana motivasyon: veri mahremiyeti. Müşteri verisi, sözleşme metni, finansal rapor — bulut AI'a gönderildiğinde KVKK ve ticari gizlilik riski. Yerel LLM ile veri ofisten dışarı çıkmaz. Donanım gereksinimleri: 7B parametre modeller için 16 GB RAM yeterli (CPU'da yavaş, GPU'da makul); 70B+ modeller için kurumsal GPU sunucu. Ollama, LM Studio gibi araçlar kurulumu dakikalara indirdi; Open WebUI ile ChatGPT-benzeri arayüz dakikada hazır.

KOBİ'lerde "AI'dan faydalanmalıyız" iddiası giderek baskın; ama "müşteri verisini ChatGPT'ye yazmak güvenli mi?" sorusu da haklı endişe yaratıyor. Bulut LLM'ler sözleşme/sözleşme dışı veri kullanımı, eğitim setine dahil etme, üçüncü ülkeye aktarım gibi KVKK riskleri taşır. Yerel LLM bu riskleri ortadan kaldırır: model kurum sunucusunda, veri sunucudan dışarı çıkmıyor. Performans biraz daha düşük, ama gizlilik tartışmasız.

Bu yazıda KOBİ ölçeğinde yerel LLM kurulumunu, donanım/yazılım seçeneklerini ve pratik kullanım senaryolarını ele alıyoruz. Hedef kitlemiz IT yöneticileri, hassas veri işleyen KOBİ'ler ve "AI'a girişelim ama gizliliği koruyalım" karar vericileri.

Yerel LLM Neden?

Bulut LLM Endişeleri

  • Veri kullanımı: OpenAI, Anthropic, Google verilerinizi nasıl kullanır? Sözleşmeyi okumak şart
  • Eğitime dahil: Bazı modeller kullanıcı verisinden öğrenir
  • Yurt dışı aktarım: KVKK 9. madde, açık rıza gerekli
  • Üçüncü taraf uyum: AB-uyumlu sağlayıcı seçimi
  • Maliyet: Yoğun kullanımda aylık fatura yüksek
  • API erişimi: İnternet kesintisinde çalışmaz

Yerel LLM Avantajları

  • Veri ofisten çıkmıyor (KVKK uyumlu)
  • İnternet kesintisinde çalışır
  • Sınırsız kullanım (donanım sınırına kadar)
  • Özelleştirme (fine-tuning) mümkün
  • Tek seferlik donanım yatırımı

Yerel LLM Sınırları

  • Performans bulut "frontier" modellerinin altında
  • Donanım yatırımı şart
  • Operasyonel sorumluluk kurumda
  • Yazılım güncellemeleri elle

Açık Kaynak Modelleri

KOBİ ölçeğinde yaygın kullanılan açık kaynak LLM'ler:

Model Parametre Boyut Türkçe Desteği
Llama 3.1 8B 8 milyar ~5 GB Orta
Llama 3.3 70B 70 milyar ~40 GB İyi
Mistral 7B 7 milyar ~4 GB Orta
Mixtral 8x7B 47 milyar (etkili 13B) ~26 GB İyi
Qwen 2.5 (Alibaba) 7B-72B Değişken Çok iyi
Phi-3 (Microsoft) 3.8B ~2 GB Orta
Gemma 2 (Google) 9B-27B Değişken Orta
Cohere Aya 8B-35B Değişken Çok iyi (multilingual)

KOBİ için pragmatik başlangıç: Llama 3.1 8B veya Qwen 2.5 7B — Türkçe yeterli, donanım makul.

Donanım Gereksinimleri

LLM çalıştırmak için kaynak ihtiyacı.

Parametre Sayısı vs. RAM/VRAM

Model Boyutu Minimum RAM (CPU) GPU VRAM (Hızlı)
3B parametre (Phi-3) 8 GB 4-6 GB
7B parametre (Llama 8B) 16 GB 10-12 GB
13B parametre 32 GB 16-20 GB
30B parametre 64 GB 32-40 GB
70B parametre 128 GB 80+ GB (A100/H100)

CPU vs GPU Karşılaştırma

  • CPU only: Yavaş ama çalışır (örnek 8B model: 5-10 token/saniye)
  • Apple M-serisi: Mükemmel (unified memory), MacBook Pro M3 Max ile 70B çalışabilir
  • NVIDIA RTX 4090 (24 GB) — KOBİ konsumer çözüm, 13B modele kadar
  • NVIDIA A100 (40-80 GB) — Kurumsal, 70B model rahat
  • NVIDIA H100 — Premium, KOBİ ölçeği için aşırı

KOBİ Tipik Kurulum

Senaryo Donanım Yaklaşık Maliyet
Bireysel test (CPU) 32 GB RAM PC ~30.000 TL
Küçük ekip (single GPU) RTX 4090 + 64 GB RAM ~150.000 TL
Üretim (single A100) A100 80 GB sunucu ~500.000 TL
Premium (multi-GPU) 2x A100 sunucu ~1.000.000+ TL

KOBİ için RTX 4090 + 64 GB RAM yeterli başlangıç noktası.

Yazılım Yığını

Ollama — En Kolay Başlangıç

Ollama açık kaynak, çapraz platform LLM runtime.

Kurulum (Linux/Mac):

curl -fsSL https://ollama.ai/install.sh | sh
ollama pull llama3.1:8b
ollama run llama3.1:8b

Kurulum (Windows):

  • Resmi installer indir, kur
  • PowerShell: ollama pull llama3.1:8b

Faydaları:

  • Tek komutla model indir/çalıştır
  • REST API (uygulama entegrasyonu)
  • Otomatik GPU/CPU optimizasyon
  • Çoklu model paralel
  • Topluluk popüler

LM Studio — Görsel Arayüz

LM Studio Windows/Mac/Linux için GUI.

  • Kullanıcı dostu, programlama bilgisi yok
  • Hugging Face model arama/indirme
  • Yerleşik chat arayüzü
  • API server modu
  • KOBİ kullanıcısı tarafında ideal

vLLM — Üretim Sınıfı

vLLM yüksek performans LLM serving.

  • PagedAttention ile yüksek throughput
  • Multi-GPU desteği
  • Üretim ortamı için tasarlanmış
  • KOBİ ölçeği yüksek talep ortamı

Open WebUI — ChatGPT Benzeri Arayüz

Open WebUI Ollama üstüne chat UI.

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui --restart always \
  ghcr.io/open-webui/open-webui:main

Tarayıcıda http://localhost:3000 — ChatGPT benzeri arayüz.

llama.cpp — En Hafif

llama.cpp C++ ile yazılmış, çok hafif.

  • CPU optimizasyon
  • Quantization (4-bit, 5-bit, 8-bit)
  • Eski donanımda bile çalışır
  • Komut satırı

Quantization — Boyut Azaltma

LLM modeller orijinal hâlinde 16-bit float (FP16). Quantization ile küçültülür.

Quantization Seviyeleri

Tip Boyut Kalite KOBİ Uygunluğu
FP16 (orijinal) %100 %100 Üretim
Q8_0 %50 %99 Çok iyi
Q5_K_M %35 %97 Önerilen
Q4_K_M %25 %95 KOBİ standart
Q3_K_M %20 %90 Sınırlı kalite
Q2_K %15 %80 Sadece deneme

KOBİ tipik tercih: Q4_K_M — boyut/kalite dengesi mükemmel.

70B parametre modeli FP16'da 140 GB; Q4_K_M ile ~40 GB — RTX 4090 + sistem RAM kombinasyonuyla çalışabilir hale gelir.

KOBİ Kullanım Senaryoları

Yerel LLM ile KOBİ tipik faydalanma alanları:

1. Müşteri E-posta Yardımı

Müşteri sorularını analiz et, taslak yanıt üret. Veri kurum dışı çıkmaz.

2. Sözleşme Özeti

Yeni gelen sözleşmeyi LLM özetleyebilir, riskli maddeleri vurgular. Hassas içerik kurum içinde.

3. Doküman Arama (RAG)

Şirket dokümanlarını embedding'e dönüştür, LLM bağlamla yanıt versin (Retrieval-Augmented Generation). Müşteri verisi dışarı çıkmaz.

4. Kod Yardımı

Geliştiricilerin kod yazmasında yardım — Cursor, Continue gibi araçlar yerel LLM'i destekler.

5. İçerik Yazımı

Pazarlama metinleri, sosyal medya, blog taslakları. Marka/müşteri verisi içermesin.

6. Çağrı Merkezi Özeti

Müşteri konuşma transkriptlerinden özet. Hassas içerik korunur.

7. CV Tarama (İK)

Aday CV'lerini analiz, eşleşme skoru. KVKK uyumu sağlanmış olur.

RAG (Retrieval-Augmented Generation)

Yerel LLM'in tek başına bilmediği şirket verilerini kullanmak için.

RAG Mimarisi

[Şirket Dokümanları] → [Embedding Model] → [Vektör DB]
                                              ↓
                  [Kullanıcı sorusu] → [Vektör arama]
                                              ↓
                              [İlgili dokümanlar + soru] → [LLM]
                                              ↓
                                        [Bağlamla yanıt]

KOBİ RAG Yığını

  • Embedding model: all-MiniLM-L6-v2, mxbai-embed-large
  • Vektör DB: Qdrant, Chroma, Weaviate
  • Orchestration: LangChain, LlamaIndex
  • LLM: Llama 3.1 8B (Ollama)
  • UI: Open WebUI, custom

Bu yığın KOBİ ölçeğinde 1-2 hafta kurulabilir, dokümanlarınız üzerinde "ChatGPT" deneyimi sunar.

Performans Beklentileri

KOBİ ortamında tipik LLM performans:

Donanım 8B Q4 Token/s 70B Q4 Token/s
Apple M3 Max 64 GB 30-50 7-10
RTX 4090 24 GB 60-100 15-25 (off-loading)
A100 80 GB 80-150 60-100
Pure CPU (32 GB DDR5) 5-15 1-3

İnsan okuma hızı ~5 token/saniye olduğundan, KOBİ donanımı kabul edilebilir UX sunar.

Güvenlik Boyutu

Yerel LLM kurulumu güvenlik konuları:

LLM Güvenliği

  • Modelin kendisi nereden? (resmi Ollama, Hugging Face Verified)
  • Model imzalı mı, hash doğrulama yapıldı mı?
  • Eğitim seti zehirli olabilir mi (poisoned)?

API Güvenliği

  • Ollama 11434 portu varsayılan açık — sıkılaştır
  • API authentication (Open WebUI ekler)
  • Reverse proxy + HTTPS (Nginx, Caddy)

Prompt Injection

  • Kullanıcı modelden başkalarının verisini istemeye çalışabilir
  • Sistem prompt sıkılaştırma
  • Output filtering

Audit Log

  • Kim ne sorguladı, ne cevap aldı
  • KVKK denetiminde sorulabilir
  • Open WebUI yerleşik destekler

Yamanlar Bilişim Olarak Sunduğumuz Hizmetler

KOBİ ölçeğinde yerel LLM destek alanlarımız:

  • "Yerel LLM bize uygun mu?" değerlendirme
  • Donanım seçim danışmanlığı
  • Ollama / LM Studio / vLLM kurulum
  • Open WebUI veya custom UI dağıtımı
  • RAG mimarisi (vektör DB, embedding)
  • Türkçe model fine-tuning
  • KVKK uyum dokümantasyonu
  • Yıllık model performans gözden geçirme

Sıkça Sorulan Sorular

  • Düşük kullanım, hassas veri: Yerel LLM (donanım amorti)
  • Yoğun kullanım, hassas veri: Yerel LLM (kesin kazanç)
  • Düşük kullanım, hassas olmayan veri: Bulut LLM (basitlik)
  • Yoğun kullanım, hassas olmayan veri: Bulut + maliyet kontrol

KOBİ'de tipik ~150.000 TL donanım, 1-2 yılda bulut maliyetinin altına iner (yoğun kullanım senaryosunda).

  • Veri ofisten çıkmadığı için "yurt dışı aktarım" sorunu yok
  • Üçüncü taraf veri işleyen yok (sözleşme zincirleri kısalır)
  • Modelin eğitim setine veri girmiyor
  • Audit log kurum içinde

Yine de aydınlatma metni, açık rıza, erişim kontrolleri yapılmalı.

Sonuç

Yerel LLM dağıtımı; KOBİ'nin AI'dan faydalanmasını veri mahremiyeti pahasına sağlar. Ollama, LM Studio gibi modern araçlar kurulumu dakikalara indirdi; RTX 4090 + 64 GB RAM gibi makul donanım yatırımı ile 8B-13B modeller rahatlıkla çalışır. KVKK kapsamında müşteri verisi, sözleşme metni, finansal rapor gibi hassas içerikleri AI'a sokmak için yerel LLM en güvenli yoldur. RAG mimarisiyle şirket dokümanları üzerinde ChatGPT benzeri deneyim KOBİ ölçeğinde mümkün.

Yamanlar Bilişim olarak ölçeğinize uygun yerel LLM seçimi, donanım planlaması ve RAG mimarisi tasarımı hizmetleri sunuyor; AI yatırımınızı veri mahremiyetinizle uyumlu, KVKK dostu ve uzun vadeli ekonomik bir yola yönlendiriyoruz.

Sıkça Sorulan Sorular

Yerel LLM bulut LLM den ne kadar geride?

Frontier modellerden (GPT-4, Claude Sonnet 4) yerel açık kaynak modeller hâlâ geride. Ancak: KOBİ ihtiyaçları (özet, soru-cevap, taslak yazı) için Llama 3.1 8B veya Qwen 2.5 7B çoğu zaman yeterli. 70B modeller (Llama 3.3 70B) çoğu görevde GPT-3.5 seviyesi+ performans.

Hangi model Türkçe için en iyi?

KOBİ için pragmatik: Qwen 2.5 (Alibaba), Cohere Aya 23 , Mistral Large , Llama 3.3 70B . Cohere Aya özellikle 100+ dil destekli, Türkçe çıktı kalitesi yüksek. Aya 8B KOBİ donanımında rahat çalışır.

Donanım yatırımı mı yapsam, bulut mu?

Karar matrisi:

KVKK ile yerel LLM tartışmasız mı?

KVKK uyumu yerel LLM kullanımıyla otomatik sağlanmaz; ancak çok kolaylaşır:

Llama 3 ticari kullanıma açık mı?

Llama 3 ve 3.1: 700M aktif kullanıcı altındaki kuruluşlar ticari kullanabilir. KOBİ ölçeği için evet, ticari kullanım serbest . Ancak: Llama lisans şartları okunmalı (örnek Llama markasını uygulama isminde kullanma sınırlamaları). Mistral, Qwen daha esnek lisanslarla gelir.

Yerel LLM i nasıl güncel tutmalıyım?

Aylık-çeyrek dönem yeni model sürümleri çıkar (Llama 3 → 3.1 → 3.3). Ollama ile güncellemek tek komut: ollama pull llama3.1:8b (yeni tag çekilir). RAG için embedding model versiyonları daha kararlı, yıllık güncellenir. Plan: çeyrek dönem yeni model değerlendirme, üretime geçirme öncesi 1 hafta test.

Paylaş:
Son güncelleme: 10 Mayıs 2026
S

Yazar

Serdar

Yamanlar Bilişim Uzmanı

Yamanlar Bilişim bünyesinde IT altyapısı, siber güvenlik ve dijital dönüşüm konularında içerikler üretmektedir. Sorularınız için iletişime geçebilirsiniz.

Profesyonel Destek

Bu konuda destek alın

Kurumsal AI ve Veri Zekası alanında ihtiyaç duyduğunuz çözümü birlikte tasarlayalım. Uzman ekibimiz 1 iş günü içinde size geri döner.

support@yamanlarbilisim.com.tr · Yanıt süresi: 1 iş günü