LLM Locale per l'Elaborazione Documenti Aziendali: Privacy, Performance e Costi

Il problema con l'AI cloud per i documenti aziendali

Servizi come AWS Textract, Google Document AI, Azure Form Recognizer e GPT-4V di OpenAI sono potenti e facili da usare. Ma hanno un problema fondamentale per le aziende che gestiscono documenti sensibili: i tuoi documenti viaggiano verso server di terzi.

Per le aziende italiane, questo crea problemi concreti:

GDPR Art. 28: Quando invii documenti con dati personali (anche solo nome e cognome di un dipendente nella nota spese) a un provider cloud, stai nominando quel provider come "Responsabile del Trattamento". Devi avere un DPA firmato e verificare dove vengono processati i dati.
Dati commerciali sensibili: Le fatture contengono i tuoi prezzi di acquisto, i tuoi fornitori, le tue condizioni commerciali. Inviandoli a un cloud service stai potenzialmente condividendo informazioni strategiche.
Settori regolamentati: Healthcare, legal, banking hanno spesso requisiti espliciti di data residency che impediscono l'uso di cloud AI pubblici.
Costi a scala: La tariffazione per pagina dei servizi cloud diventa costosa a volumi aziendali. 50.000 documenti/mese su AWS Textract: ~$750-1.500/mese. Con LLM locale: costo energetico marginale dopo l'acquisto hardware.

🔒 Architettura zero-egress

Con un LLM locale in Docker: il documento arriva al server aziendale, viene elaborato dalla GPU, il risultato JSON viene inviato al gestionale. Nessun dato esce mai dall'infrastruttura aziendale. Zero trasferimento verso internet. Compatibile con reti air-gap.

Come funzionano i Vision Language Model per i documenti

I modelli AI moderni per l'elaborazione documentale non sono semplici OCR. Sono Vision Language Model (VLM): modelli che vedono l'immagine del documento e la capiscono come farebbe un umano.

Il processo:

Il documento viene convertito in immagine (PDF → PNG a 200 DPI)
L'immagine viene codificata in token visivi
Il modello riceve l'immagine + un prompt strutturato che descrive cosa estrarre
Il modello risponde con un JSON strutturato con tutti i campi richiesti
Il sistema valida il JSON e lo invia alla destinazione

A differenza dell'OCR tradizionale, il VLM capisce che "150,00" accanto a "IVA 22%" è l'importo dell'IVA e non il totale. Capisce che "Banca IBAN IT60..." è il conto del fornitore. Capisce il significato dei campi in base alla posizione visiva e al contesto semantico.

Confronto modelli per documenti italiani

Modello	Acc. fatture digitali	Acc. scansioni	VRAM	Velocità	Licenza
Qwen 2.5-VL 7B	96%	93%	8 GB	~8s	Apache 2.0
Qwen 2.5-VL 72B	98%	95%	48 GB	~25s	Apache 2.0
LLaMA 3.2-Vision 11B	92%	88%	12 GB	~12s	LLAMA 3.2
Mistral Pixtral 12B	91%	87%	14 GB	~15s	Apache 2.0

La nostra raccomandazione: Qwen 2.5-VL 7B per PMI (ottimo rapporto qualità/costo hardware), Qwen 72B per enterprise con volumi elevati e requisiti di accuratezza massima.

Hardware sizing: quanto serve davvero?

Scenario	Volume	Hardware consigliato	Costo stimato
PMI piccola	<200 doc/mese	CPU Intel/AMD, 16GB RAM (no GPU)	Server esistente
PMI media	200-2.000 doc/mese	NVIDIA RTX 4080 16GB + 32GB RAM	~€1.500
PMI grande	2.000-10.000 doc/mese	NVIDIA RTX 4090 24GB + 64GB RAM	~€2.500
Enterprise	>10.000 doc/mese	NVIDIA A100/H100 + server dedicato	€15.000-50.000

⚠️ Nota per volumi bassi

Per meno di 200 documenti al mese, Qwen 7B può girare in modalità CPU (lenta: ~60-120 secondi per documento) su un server standard senza GPU. Non è ideale per uso real-time, ma funziona bene per elaborazione batch notturna. In questo scenario il costo hardware è zero se hai già un server.

Confronto costi: locale vs cloud a 5 anni

Voce di costo	LLM Locale (1.000 doc/mese)	Cloud AI (1.000 doc/mese)
Setup iniziale	€2.500 (hardware)	€0
Costo mensile	~€15 (energia)	€150-300
Costo anno 1	~€2.680	~€1.800-3.600
Costo anno 3	~€3.040	~€5.400-10.800
Costo anno 5	~€3.400	~€9.000-18.000

Conformità GDPR con LLM locale

Con un LLM locale, la conformità GDPR è strutturalmente più semplice:

Nessun trasferimento dati verso terzi: I dati personali contenuti nei documenti non lasciano mai l'infrastruttura aziendale. Non serve nominare nessun Responsabile del Trattamento aggiuntivo per l'elaborazione AI.
Data residency garantita: Puoi scegliere esattamente dove gira il server. On-premise nell'azienda, o in un datacenter italiano certificato.
Diritto alla cancellazione: I documenti elaborati possono essere cancellati senza dipendenze da retention policy di terzi cloud provider.
Audit log completo: Ogni elaborazione viene registrata localmente con timestamp, tipo documento, operatore. Tracciabilità completa per ispezioni del Garante Privacy.

Come scegliere: locale o cloud?

La risposta dipende dal tuo contesto specifico:

✅ Scegli LLM locale se: volume >500 doc/mese, settore regolamentato (healthcare, legal, banking), dati commerciali sensibili, budget IT per hardware, team tecnico interno
☁️ Valuta cloud se: volume <100 doc/mese, nessun team tecnico interno, esigenza di partire rapidamente senza investimento hardware, dati non sensibili
🔀 Ibrido: Documenti sensibili → locale. Documenti non sensibili → cloud per gestire i picchi.