Yerel LLM Deployment: KOBİ'de Veri Mahremiyetiyle AI

Özet: KOBİ ölçeğinde yerel (self-hosted) LLM kurulumu; Ollama, LM Studio, vLLM ile veri mahremiyeti odaklı AI dağıtımı.
Özet: Yerel LLM (Large Language Model) deployment, ChatGPT/Claude/Gemini gibi bulut tabanlı AI servislerine alternatif olarak kurum kendi sunucusunda açık kaynak modelleri (Llama 3, Mistral, Qwen, Phi) çalıştırmasıdır. KOBİ için ana motivasyon: veri mahremiyeti. Müşteri verisi, sözleşme metni, finansal rapor — bulut AI'a gönderildiğinde KVKK ve ticari gizlilik riski. Yerel LLM ile veri ofisten dışarı çıkmaz. Donanım gereksinimleri: 7B parametre modeller için 16 GB RAM yeterli (CPU'da yavaş, GPU'da makul); 70B+ modeller için kurumsal GPU sunucu. Ollama, LM Studio gibi araçlar kurulumu dakikalara indirdi; Open WebUI ile ChatGPT-benzeri arayüz dakikada hazır.
KOBİ'lerde "AI'dan faydalanmalıyız" iddiası giderek baskın; ama "müşteri verisini ChatGPT'ye yazmak güvenli mi?" sorusu da haklı endişe yaratıyor. Bulut LLM'ler sözleşme/sözleşme dışı veri kullanımı, eğitim setine dahil etme, üçüncü ülkeye aktarım gibi KVKK riskleri taşır. Yerel LLM bu riskleri ortadan kaldırır: model kurum sunucusunda, veri sunucudan dışarı çıkmıyor. Performans biraz daha düşük, ama gizlilik tartışmasız.
Bu yazıda KOBİ ölçeğinde yerel LLM kurulumunu, donanım/yazılım seçeneklerini ve pratik kullanım senaryolarını ele alıyoruz. Hedef kitlemiz IT yöneticileri, hassas veri işleyen KOBİ'ler ve "AI'a girişelim ama gizliliği koruyalım" karar vericileri.
Yerel LLM Neden?
Bulut LLM Endişeleri
- Veri kullanımı: OpenAI, Anthropic, Google verilerinizi nasıl kullanır? Sözleşmeyi okumak şart
- Eğitime dahil: Bazı modeller kullanıcı verisinden öğrenir
- Yurt dışı aktarım: KVKK 9. madde, açık rıza gerekli
- Üçüncü taraf uyum: AB-uyumlu sağlayıcı seçimi
- Maliyet: Yoğun kullanımda aylık fatura yüksek
- API erişimi: İnternet kesintisinde çalışmaz
Yerel LLM Avantajları
- Veri ofisten çıkmıyor (KVKK uyumlu)
- İnternet kesintisinde çalışır
- Sınırsız kullanım (donanım sınırına kadar)
- Özelleştirme (fine-tuning) mümkün
- Tek seferlik donanım yatırımı
Yerel LLM Sınırları
- Performans bulut "frontier" modellerinin altında
- Donanım yatırımı şart
- Operasyonel sorumluluk kurumda
- Yazılım güncellemeleri elle
Açık Kaynak Modelleri
KOBİ ölçeğinde yaygın kullanılan açık kaynak LLM'ler:
| Model | Parametre | Boyut | Türkçe Desteği |
|---|---|---|---|
| Llama 3.1 8B | 8 milyar | ~5 GB | Orta |
| Llama 3.3 70B | 70 milyar | ~40 GB | İyi |
| Mistral 7B | 7 milyar | ~4 GB | Orta |
| Mixtral 8x7B | 47 milyar (etkili 13B) | ~26 GB | İyi |
| Qwen 2.5 (Alibaba) | 7B-72B | Değişken | Çok iyi |
| Phi-3 (Microsoft) | 3.8B | ~2 GB | Orta |
| Gemma 2 (Google) | 9B-27B | Değişken | Orta |
| Cohere Aya | 8B-35B | Değişken | Çok iyi (multilingual) |
KOBİ için pragmatik başlangıç: Llama 3.1 8B veya Qwen 2.5 7B — Türkçe yeterli, donanım makul.
Donanım Gereksinimleri
LLM çalıştırmak için kaynak ihtiyacı.
Parametre Sayısı vs. RAM/VRAM
| Model Boyutu | Minimum RAM (CPU) | GPU VRAM (Hızlı) |
|---|---|---|
| 3B parametre (Phi-3) | 8 GB | 4-6 GB |
| 7B parametre (Llama 8B) | 16 GB | 10-12 GB |
| 13B parametre | 32 GB | 16-20 GB |
| 30B parametre | 64 GB | 32-40 GB |
| 70B parametre | 128 GB | 80+ GB (A100/H100) |
CPU vs GPU Karşılaştırma
- CPU only: Yavaş ama çalışır (örnek 8B model: 5-10 token/saniye)
- Apple M-serisi: Mükemmel (unified memory), MacBook Pro M3 Max ile 70B çalışabilir
- NVIDIA RTX 4090 (24 GB) — KOBİ konsumer çözüm, 13B modele kadar
- NVIDIA A100 (40-80 GB) — Kurumsal, 70B model rahat
- NVIDIA H100 — Premium, KOBİ ölçeği için aşırı
KOBİ Tipik Kurulum
| Senaryo | Donanım | Yaklaşık Maliyet |
|---|---|---|
| Bireysel test (CPU) | 32 GB RAM PC | ~30.000 TL |
| Küçük ekip (single GPU) | RTX 4090 + 64 GB RAM | ~150.000 TL |
| Üretim (single A100) | A100 80 GB sunucu | ~500.000 TL |
| Premium (multi-GPU) | 2x A100 sunucu | ~1.000.000+ TL |
KOBİ için RTX 4090 + 64 GB RAM yeterli başlangıç noktası.
Yazılım Yığını
Ollama — En Kolay Başlangıç
Ollama açık kaynak, çapraz platform LLM runtime.
Kurulum (Linux/Mac):
curl -fsSL https://ollama.ai/install.sh | sh
ollama pull llama3.1:8b
ollama run llama3.1:8b
Kurulum (Windows):
- Resmi installer indir, kur
- PowerShell:
ollama pull llama3.1:8b
Faydaları:
- Tek komutla model indir/çalıştır
- REST API (uygulama entegrasyonu)
- Otomatik GPU/CPU optimizasyon
- Çoklu model paralel
- Topluluk popüler
LM Studio — Görsel Arayüz
LM Studio Windows/Mac/Linux için GUI.
- Kullanıcı dostu, programlama bilgisi yok
- Hugging Face model arama/indirme
- Yerleşik chat arayüzü
- API server modu
- KOBİ kullanıcısı tarafında ideal
vLLM — Üretim Sınıfı
vLLM yüksek performans LLM serving.
- PagedAttention ile yüksek throughput
- Multi-GPU desteği
- Üretim ortamı için tasarlanmış
- KOBİ ölçeği yüksek talep ortamı
Open WebUI — ChatGPT Benzeri Arayüz
Open WebUI Ollama üstüne chat UI.
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui --restart always \
ghcr.io/open-webui/open-webui:main
Tarayıcıda http://localhost:3000 — ChatGPT benzeri arayüz.
llama.cpp — En Hafif
llama.cpp C++ ile yazılmış, çok hafif.
- CPU optimizasyon
- Quantization (4-bit, 5-bit, 8-bit)
- Eski donanımda bile çalışır
- Komut satırı
Quantization — Boyut Azaltma
LLM modeller orijinal hâlinde 16-bit float (FP16). Quantization ile küçültülür.
Quantization Seviyeleri
| Tip | Boyut | Kalite | KOBİ Uygunluğu |
|---|---|---|---|
| FP16 (orijinal) | %100 | %100 | Üretim |
| Q8_0 | %50 | %99 | Çok iyi |
| Q5_K_M | %35 | %97 | Önerilen |
| Q4_K_M | %25 | %95 | KOBİ standart |
| Q3_K_M | %20 | %90 | Sınırlı kalite |
| Q2_K | %15 | %80 | Sadece deneme |
KOBİ tipik tercih: Q4_K_M — boyut/kalite dengesi mükemmel.
70B parametre modeli FP16'da 140 GB; Q4_K_M ile ~40 GB — RTX 4090 + sistem RAM kombinasyonuyla çalışabilir hale gelir.
KOBİ Kullanım Senaryoları
Yerel LLM ile KOBİ tipik faydalanma alanları:
1. Müşteri E-posta Yardımı
Müşteri sorularını analiz et, taslak yanıt üret. Veri kurum dışı çıkmaz.
2. Sözleşme Özeti
Yeni gelen sözleşmeyi LLM özetleyebilir, riskli maddeleri vurgular. Hassas içerik kurum içinde.
3. Doküman Arama (RAG)
Şirket dokümanlarını embedding'e dönüştür, LLM bağlamla yanıt versin (Retrieval-Augmented Generation). Müşteri verisi dışarı çıkmaz.
4. Kod Yardımı
Geliştiricilerin kod yazmasında yardım — Cursor, Continue gibi araçlar yerel LLM'i destekler.
5. İçerik Yazımı
Pazarlama metinleri, sosyal medya, blog taslakları. Marka/müşteri verisi içermesin.
6. Çağrı Merkezi Özeti
Müşteri konuşma transkriptlerinden özet. Hassas içerik korunur.
7. CV Tarama (İK)
Aday CV'lerini analiz, eşleşme skoru. KVKK uyumu sağlanmış olur.
RAG (Retrieval-Augmented Generation)
Yerel LLM'in tek başına bilmediği şirket verilerini kullanmak için.
RAG Mimarisi
[Şirket Dokümanları] → [Embedding Model] → [Vektör DB]
↓
[Kullanıcı sorusu] → [Vektör arama]
↓
[İlgili dokümanlar + soru] → [LLM]
↓
[Bağlamla yanıt]
KOBİ RAG Yığını
- Embedding model: all-MiniLM-L6-v2, mxbai-embed-large
- Vektör DB: Qdrant, Chroma, Weaviate
- Orchestration: LangChain, LlamaIndex
- LLM: Llama 3.1 8B (Ollama)
- UI: Open WebUI, custom
Bu yığın KOBİ ölçeğinde 1-2 hafta kurulabilir, dokümanlarınız üzerinde "ChatGPT" deneyimi sunar.
Performans Beklentileri
KOBİ ortamında tipik LLM performans:
| Donanım | 8B Q4 Token/s | 70B Q4 Token/s |
|---|---|---|
| Apple M3 Max 64 GB | 30-50 | 7-10 |
| RTX 4090 24 GB | 60-100 | 15-25 (off-loading) |
| A100 80 GB | 80-150 | 60-100 |
| Pure CPU (32 GB DDR5) | 5-15 | 1-3 |
İnsan okuma hızı ~5 token/saniye olduğundan, KOBİ donanımı kabul edilebilir UX sunar.
Güvenlik Boyutu
Yerel LLM kurulumu güvenlik konuları:
LLM Güvenliği
- Modelin kendisi nereden? (resmi Ollama, Hugging Face Verified)
- Model imzalı mı, hash doğrulama yapıldı mı?
- Eğitim seti zehirli olabilir mi (poisoned)?
API Güvenliği
- Ollama 11434 portu varsayılan açık — sıkılaştır
- API authentication (Open WebUI ekler)
- Reverse proxy + HTTPS (Nginx, Caddy)
Prompt Injection
- Kullanıcı modelden başkalarının verisini istemeye çalışabilir
- Sistem prompt sıkılaştırma
- Output filtering
Audit Log
- Kim ne sorguladı, ne cevap aldı
- KVKK denetiminde sorulabilir
- Open WebUI yerleşik destekler
Yamanlar Bilişim Olarak Sunduğumuz Hizmetler
KOBİ ölçeğinde yerel LLM destek alanlarımız:
- "Yerel LLM bize uygun mu?" değerlendirme
- Donanım seçim danışmanlığı
- Ollama / LM Studio / vLLM kurulum
- Open WebUI veya custom UI dağıtımı
- RAG mimarisi (vektör DB, embedding)
- Türkçe model fine-tuning
- KVKK uyum dokümantasyonu
- Yıllık model performans gözden geçirme
Sıkça Sorulan Sorular
- Düşük kullanım, hassas veri: Yerel LLM (donanım amorti)
- Yoğun kullanım, hassas veri: Yerel LLM (kesin kazanç)
- Düşük kullanım, hassas olmayan veri: Bulut LLM (basitlik)
- Yoğun kullanım, hassas olmayan veri: Bulut + maliyet kontrol
KOBİ'de tipik ~150.000 TL donanım, 1-2 yılda bulut maliyetinin altına iner (yoğun kullanım senaryosunda).
- Veri ofisten çıkmadığı için "yurt dışı aktarım" sorunu yok
- Üçüncü taraf veri işleyen yok (sözleşme zincirleri kısalır)
- Modelin eğitim setine veri girmiyor
- Audit log kurum içinde
Yine de aydınlatma metni, açık rıza, erişim kontrolleri yapılmalı.
Sonuç
Yerel LLM dağıtımı; KOBİ'nin AI'dan faydalanmasını veri mahremiyeti pahasına sağlar. Ollama, LM Studio gibi modern araçlar kurulumu dakikalara indirdi; RTX 4090 + 64 GB RAM gibi makul donanım yatırımı ile 8B-13B modeller rahatlıkla çalışır. KVKK kapsamında müşteri verisi, sözleşme metni, finansal rapor gibi hassas içerikleri AI'a sokmak için yerel LLM en güvenli yoldur. RAG mimarisiyle şirket dokümanları üzerinde ChatGPT benzeri deneyim KOBİ ölçeğinde mümkün.
Yamanlar Bilişim olarak ölçeğinize uygun yerel LLM seçimi, donanım planlaması ve RAG mimarisi tasarımı hizmetleri sunuyor; AI yatırımınızı veri mahremiyetinizle uyumlu, KVKK dostu ve uzun vadeli ekonomik bir yola yönlendiriyoruz.
Sıkça Sorulan Sorular
Yerel LLM bulut LLM den ne kadar geride?
Frontier modellerden (GPT-4, Claude Sonnet 4) yerel açık kaynak modeller hâlâ geride. Ancak: KOBİ ihtiyaçları (özet, soru-cevap, taslak yazı) için Llama 3.1 8B veya Qwen 2.5 7B çoğu zaman yeterli. 70B modeller (Llama 3.3 70B) çoğu görevde GPT-3.5 seviyesi+ performans.
Hangi model Türkçe için en iyi?
KOBİ için pragmatik: Qwen 2.5 (Alibaba), Cohere Aya 23 , Mistral Large , Llama 3.3 70B . Cohere Aya özellikle 100+ dil destekli, Türkçe çıktı kalitesi yüksek. Aya 8B KOBİ donanımında rahat çalışır.
Donanım yatırımı mı yapsam, bulut mu?
Karar matrisi:
KVKK ile yerel LLM tartışmasız mı?
KVKK uyumu yerel LLM kullanımıyla otomatik sağlanmaz; ancak çok kolaylaşır:
Llama 3 ticari kullanıma açık mı?
Llama 3 ve 3.1: 700M aktif kullanıcı altındaki kuruluşlar ticari kullanabilir. KOBİ ölçeği için evet, ticari kullanım serbest . Ancak: Llama lisans şartları okunmalı (örnek Llama markasını uygulama isminde kullanma sınırlamaları). Mistral, Qwen daha esnek lisanslarla gelir.
Yerel LLM i nasıl güncel tutmalıyım?
Aylık-çeyrek dönem yeni model sürümleri çıkar (Llama 3 → 3.1 → 3.3). Ollama ile güncellemek tek komut: ollama pull llama3.1:8b (yeni tag çekilir). RAG için embedding model versiyonları daha kararlı, yıllık güncellenir. Plan: çeyrek dönem yeni model değerlendirme, üretime geçirme öncesi 1 hafta test.
Yazar
Serdar
Yamanlar Bilişim Uzmanı
Yamanlar Bilişim bünyesinde IT altyapısı, siber güvenlik ve dijital dönüşüm konularında içerikler üretmektedir. Sorularınız için iletişime geçebilirsiniz.
Profesyonel Destek
Bu konuda destek alın
Kurumsal AI ve Veri Zekası alanında ihtiyaç duyduğunuz çözümü birlikte tasarlayalım. Uzman ekibimiz 1 iş günü içinde size geri döner.
support@yamanlarbilisim.com.tr · Yanıt süresi: 1 iş günü
Devamını Oku
İlgili Makaleler

Embedding ve Vektör DB: KOBİ Doküman Aramasını Yenileme
Embedding ve vektör veritabanları; KOBİ doküman aramasını anlamsal aramaya taşıma, RAG mimarisi ve uygulama rehberi.

AI Politikası: KOBİ'lerde ChatGPT/Copilot Kullanım Kuralları
KOBİ için kurumsal AI politikası rehberi; ChatGPT, Microsoft Copilot, Claude kullanımı, KVKK uyumu ve çalışan kuralları.

Excel Otomasyonu: Power Automate ile Manuel İşleri Bitirme
Microsoft Power Automate ile Excel iş akışlarını otomatize etme; KOBİ pratik senaryolar, bağlayıcılar ve verim kazancı.