Lo Stack AI per Documenti Enterprise nel 2026: Architettura Completa
Non esiste un unico tool che risolve tutto. Un sistema AI per documenti enterprise è composto da 7 layer distinti, ognuno con le proprie scelte tecnologiche. Questa guida ti aiuta a capire ogni layer e a scegliere gli strumenti giusti.
I 7 layer dello stack
Layer 1: ACQUISIZIONE (Sources)
Email · API · Telegram · Scanner · FTP · SharePoint
Layer 2: PREPROCESSING (Document Preparation)
Conversione · Deskewing · Denoising · Split pagine
Layer 3: AI EXTRACTION (Vision AI)
Classificazione tipo · Estrazione campi · JSON output
Layer 4: VALIDAZIONE (Quality Gate)
Math check · Formato P.IVA/CF · Confidence scoring
Layer 5: ORCHESTRAZIONE (Workflow Engine)
Routing per tipo · Human review · Dead-letter queue
Layer 6: INTEGRAZIONE (Integration Layer)
ERP · CRM · Gestionali · Webhook · CSV
Layer 7: STORAGE & AUDIT (Persistence)
DB documenti · Archivio PDF · Audit log · Backup
Layer 1 — Acquisizione: dove entrano i documenti
Il primo layer definisce i canali attraverso cui i documenti entrano nel sistema. La scelta del canale giusto dipende da come i documenti arrivano nella tua azienda oggi:
| Canale | Quando usarlo | Implementazione |
|---|---|---|
| Email IMAP | Fatture passive via email (il caso più comune) | Monitor casella dedicata, IMAP IDLE |
| API REST | Integrazione con portali fornitori o sistemi esistenti | POST /extract con file multipart |
| Bot Telegram | Operatori mobili (magazzino, commerciali in trasferta) | Bot con download automatico allegati |
| Cartella watchdog | Scanner di rete, sistemi legacy che scrivono su file | watchdog Python su cartella condivisa |
| SDI passivo | FatturaPA passive dall'Agenzia delle Entrate | Download da portale o via intermediario |
Layer 2 — Preprocessing: preparare il documento per l'AI
Il preprocessing è il layer più sottovalutato. Un documento mal preprocessato riduce l'accuratezza dell'AI del 15-30%.
- PDF nativo → immagini: pdf2image + Poppler. DPI ottimale: 200-300 per testo normale, 300+ per documenti con elementi grafici complessi. Ogni pagina diventa un PNG separato.
- Scansioni: Deskewing (correzione rotazione), denoising (riduzione rumore), contrast enhancement. OpenCV è lo standard per queste operazioni.
- FatturaPA XML: I file XML SDI non richiedono preprocessing: vengono parsati direttamente senza passare per il VLM. Estrazione diretta dei campi dall'XML.
- Dimensione immagine: Il VLM ha un limite di token visivi. Immagini troppo grandi vengono ridimensionate mantenendo il rapporto. Tipicamente max 1920×2560 pixel per pagina.
Layer 3 — AI Extraction: il cuore del sistema
Questo layer usa un Vision Language Model per estrarre i dati strutturati dal documento. Le scelte tecnologiche principali:
| Tool | Ruolo | Note |
|---|---|---|
| Qwen 2.5-VL 7B/72B | Modello VLM principale | Migliore accuratezza su doc italiani, Apache 2.0 |
| Ollama | LLM server + GPU management | API OpenAI-compatible, gestione VRAM |
| LLaMA 3.2-Vision | Alternativa open Meta | Buono ma meno accurato di Qwen su IT docs |
| GPT-4V / Claude Vision | Cloud AI (alternativa) | Alta accuratezza ma dati escono dall'azienda |
Layer 4 — Validazione: il quality gate
La validazione è ciò che distingue un sistema "demo" da uno production-ready. Senza validazione, gli errori dell'AI entrano silenziosamente nel gestionale.
Le validazioni fondamentali per documenti italiani:
- ✅ Math check: imponibile + IVA = totale (±0.10€ tolleranza)
- ✅ P.IVA: 11 cifre, checksum algoritmo controllo
- ✅ Codice Fiscale: 16 caratteri alfanumerici, checksum
- ✅ Codice SDI: 7 caratteri alfanumerici (es. "0000000" per PEC)
- ✅ Date: formato ISO 8601, date coerenti (emissione prima di scadenza)
- ✅ IBAN: checksum internazionale
- ✅ Aliquote IVA: solo valori legali (0%, 4%, 5%, 10%, 22%)
Layer 5 — Orchestrazione: routing e human review
L'orchestratore decide cosa fare con ogni documento dopo la validazione:
- Confidence ≥ 85 + math OK: → dispatch automatico verso tutti gli adapter configurati
- Confidence 60-84 o math KO: → coda revisione umana con evidenza del problema
- Confidence < 60: → rejected, notifica operatore
- Tipo documento non riconosciuto: → revisione manuale con classificazione umana
Build vs Buy: la decisione critica
| Criterio | Build (custom) | Buy (DataUnchain) | Cloud SaaS |
|---|---|---|---|
| Time to deploy | 3-6 mesi | 1-2 giorni | Ore |
| Privacy dati | On-premise | On-premise | Cloud terzi |
| Costo anno 1 | €50.000+ | €2.000-5.000 | €3.000-15.000 |
| Personalizzazione | Totale | Alta | Limitata |
| Manutenzione | Team interno | Minima | Zero |
| Connettori gestionali IT | Da sviluppare | 18 inclusi | Pochi |
TCO a 3 anni per una PMI italiana (1.000 doc/mese)
Build custom
€160.000+
Dev + manutenzione
DataUnchain
€8.000
Hardware + energia
Cloud SaaS
€25.000
Abbonamento
DataUnchain implementa tutti e 7 i layer out-of-the-box. Open source, deployabile in un giorno.
Inizia con DataUnchain →