Homelab’da yerel LLM fizibilitesi

Fizibilite (donanım sınırlı)

Bu homelab donanımında yerel LLM çıkarımı CPU-only ve bellek bant genişliğiyle sınırlıdır (donanım: 2× Xeon E5-2630 v4, AVX2/FMA ama AVX-512 yok, ayrık GPU yok — bkz. genel-bakis § Donanım).

  • Örnek model: llama.cpp + Gemma 3n E4B Q4_K_M (~4.5 GB).
  • Beklenen baÅŸarım: ~6-10 tok/s decode, ~30-50 tok/s prefill. ^[çıkarım]
  • Sonuç: arka plan otomasyonu/özetleme için ‘idare eder’; anlık akıcı sohbet veya eÅŸzamanlı çoklu istek için yetersiz.
  • Kritik ayar: NUMA pinning (tek sokete sabitle) + CT’ye 8-12 çekirdek cap.

Kullanım niyeti

Ahmet, homelab-agent (CT 207/209) ve n8n akışlarına ‘yerel beyin’ sağlamak için ayrı bir LXC’de llama-server (OpenAI-uyumlu endpoint) çalıştırmayı değerlendiriyor. Henüz kurulum onayı yok.

Provenance

Donanım ölçümü + başarım tahmini asistan analizinden ^[çıkarım]; kullanım niyeti kullanıcı sorusundan, karar açık.

İlgili