Homelab’da yerel LLM fizibilitesi
Fizibilite (donanım sınırlı)
Bu homelab donanımında yerel LLM çıkarımı CPU-only ve bellek bant genişliğiyle sınırlıdır (donanım: 2× Xeon E5-2630 v4, AVX2/FMA ama AVX-512 yok, ayrık GPU yok — bkz. genel-bakis § Donanım).
- Örnek model: llama.cpp + Gemma 3n E4B Q4_K_M (~4.5 GB).
- Beklenen başarım: ~6-10 tok/s decode, ~30-50 tok/s prefill. ^[çıkarım]
- Sonuç: arka plan otomasyonu/özetleme için ‘idare eder’; anlık akıcı sohbet veya eşzamanlı çoklu istek için yetersiz.
- Kritik ayar: NUMA pinning (tek sokete sabitle) + CT’ye 8-12 çekirdek cap.
Kullanım niyeti
Ahmet, homelab-agent (CT 207/209) ve n8n akışlarına ‘yerel beyin’ sağlamak için ayrı bir LXC’de llama-server (OpenAI-uyumlu endpoint) çalıştırmayı değerlendiriyor. Henüz kurulum onayı yok.
Provenance
Donanım ölçümü + başarım tahmini asistan analizinden ^[çıkarım]; kullanım niyeti kullanıcı sorusundan, karar açık.