LLM Locale per l'Elaborazione Documenti Aziendali: Privacy, Performance e Costi
Ogni fattura che carichi su un servizio AI cloud contiene dati sensibili: P.IVA del fornitore, importi, condizioni commerciali. Per molte aziende italiane, questo è un problema di compliance. L'alternativa è eseguire l'AI in locale.
Il problema con l'AI cloud per i documenti aziendali
Servizi come AWS Textract, Google Document AI, Azure Form Recognizer e GPT-4V di OpenAI sono potenti e facili da usare. Ma hanno un problema fondamentale per le aziende che gestiscono documenti sensibili: i tuoi documenti viaggiano verso server di terzi.
Per le aziende italiane, questo crea problemi concreti:
- GDPR Art. 28: Quando invii documenti con dati personali (anche solo nome e cognome di un dipendente nella nota spese) a un provider cloud, stai nominando quel provider come "Responsabile del Trattamento". Devi avere un DPA firmato e verificare dove vengono processati i dati.
- Dati commerciali sensibili: Le fatture contengono i tuoi prezzi di acquisto, i tuoi fornitori, le tue condizioni commerciali. Inviandoli a un cloud service stai potenzialmente condividendo informazioni strategiche.
- Settori regolamentati: Healthcare, legal, banking hanno spesso requisiti espliciti di data residency che impediscono l'uso di cloud AI pubblici.
- Costi a scala: La tariffazione per pagina dei servizi cloud diventa costosa a volumi aziendali. 50.000 documenti/mese su AWS Textract: ~$750-1.500/mese. Con LLM locale: costo energetico marginale dopo l'acquisto hardware.
🔒 Architettura zero-egress
Con un LLM locale in Docker: il documento arriva al server aziendale, viene elaborato dalla GPU, il risultato JSON viene inviato al gestionale. Nessun dato esce mai dall'infrastruttura aziendale. Zero trasferimento verso internet. Compatibile con reti air-gap.
Come funzionano i Vision Language Model per i documenti
I modelli AI moderni per l'elaborazione documentale non sono semplici OCR. Sono Vision Language Model (VLM): modelli che vedono l'immagine del documento e la capiscono come farebbe un umano.
Il processo:
- Il documento viene convertito in immagine (PDF → PNG a 200 DPI)
- L'immagine viene codificata in token visivi
- Il modello riceve l'immagine + un prompt strutturato che descrive cosa estrarre
- Il modello risponde con un JSON strutturato con tutti i campi richiesti
- Il sistema valida il JSON e lo invia alla destinazione
A differenza dell'OCR tradizionale, il VLM capisce che "150,00" accanto a "IVA 22%" è l'importo dell'IVA e non il totale. Capisce che "Banca IBAN IT60..." è il conto del fornitore. Capisce il significato dei campi in base alla posizione visiva e al contesto semantico.
Confronto modelli per documenti italiani
| Modello | Acc. fatture digitali | Acc. scansioni | VRAM | Velocità | Licenza |
|---|---|---|---|---|---|
| Qwen 2.5-VL 7B | 96% | 93% | 8 GB | ~8s | Apache 2.0 |
| Qwen 2.5-VL 72B | 98% | 95% | 48 GB | ~25s | Apache 2.0 |
| LLaMA 3.2-Vision 11B | 92% | 88% | 12 GB | ~12s | LLAMA 3.2 |
| Mistral Pixtral 12B | 91% | 87% | 14 GB | ~15s | Apache 2.0 |
La nostra raccomandazione: Qwen 2.5-VL 7B per PMI (ottimo rapporto qualità/costo hardware), Qwen 72B per enterprise con volumi elevati e requisiti di accuratezza massima.
Hardware sizing: quanto serve davvero?
| Scenario | Volume | Hardware consigliato | Costo stimato |
|---|---|---|---|
| PMI piccola | <200 doc/mese | CPU Intel/AMD, 16GB RAM (no GPU) | Server esistente |
| PMI media | 200-2.000 doc/mese | NVIDIA RTX 4080 16GB + 32GB RAM | ~€1.500 |
| PMI grande | 2.000-10.000 doc/mese | NVIDIA RTX 4090 24GB + 64GB RAM | ~€2.500 |
| Enterprise | >10.000 doc/mese | NVIDIA A100/H100 + server dedicato | €15.000-50.000 |
⚠️ Nota per volumi bassi
Per meno di 200 documenti al mese, Qwen 7B può girare in modalità CPU (lenta: ~60-120 secondi per documento) su un server standard senza GPU. Non è ideale per uso real-time, ma funziona bene per elaborazione batch notturna. In questo scenario il costo hardware è zero se hai già un server.
Confronto costi: locale vs cloud a 5 anni
| Voce di costo | LLM Locale (1.000 doc/mese) | Cloud AI (1.000 doc/mese) |
|---|---|---|
| Setup iniziale | €2.500 (hardware) | €0 |
| Costo mensile | ~€15 (energia) | €150-300 |
| Costo anno 1 | ~€2.680 | ~€1.800-3.600 |
| Costo anno 3 | ~€3.040 | ~€5.400-10.800 |
| Costo anno 5 | ~€3.400 | ~€9.000-18.000 |
Conformità GDPR con LLM locale
Con un LLM locale, la conformità GDPR è strutturalmente più semplice:
- Nessun trasferimento dati verso terzi: I dati personali contenuti nei documenti non lasciano mai l'infrastruttura aziendale. Non serve nominare nessun Responsabile del Trattamento aggiuntivo per l'elaborazione AI.
- Data residency garantita: Puoi scegliere esattamente dove gira il server. On-premise nell'azienda, o in un datacenter italiano certificato.
- Diritto alla cancellazione: I documenti elaborati possono essere cancellati senza dipendenze da retention policy di terzi cloud provider.
- Audit log completo: Ogni elaborazione viene registrata localmente con timestamp, tipo documento, operatore. Tracciabilità completa per ispezioni del Garante Privacy.
Come scegliere: locale o cloud?
La risposta dipende dal tuo contesto specifico:
- ✅ Scegli LLM locale se: volume >500 doc/mese, settore regolamentato (healthcare, legal, banking), dati commerciali sensibili, budget IT per hardware, team tecnico interno
- ☁️ Valuta cloud se: volume <100 doc/mese, nessun team tecnico interno, esigenza di partire rapidamente senza investimento hardware, dati non sensibili
- 🔀 Ibrido: Documenti sensibili → locale. Documenti non sensibili → cloud per gestire i picchi.
DataUnchain gira completamente on-premise. Nessun dato lascia la tua infrastruttura.
Scopri come funziona →