Lo Stack AI per Documenti Enterprise nel 2026: Architettura Completa

I 7 layer dello stack

Layer 1: ACQUISIZIONE (Sources)
         Email · API · Telegram · Scanner · FTP · SharePoint

Layer 2: PREPROCESSING (Document Preparation)
         Conversione · Deskewing · Denoising · Split pagine

Layer 3: AI EXTRACTION (Vision AI)
         Classificazione tipo · Estrazione campi · JSON output

Layer 4: VALIDAZIONE (Quality Gate)
         Math check · Formato P.IVA/CF · Confidence scoring

Layer 5: ORCHESTRAZIONE (Workflow Engine)
         Routing per tipo · Human review · Dead-letter queue

Layer 6: INTEGRAZIONE (Integration Layer)
         ERP · CRM · Gestionali · Webhook · CSV

Layer 7: STORAGE & AUDIT (Persistence)
         DB documenti · Archivio PDF · Audit log · Backup

Layer 1 — Acquisizione: dove entrano i documenti

Il primo layer definisce i canali attraverso cui i documenti entrano nel sistema. La scelta del canale giusto dipende da come i documenti arrivano nella tua azienda oggi:

Canale	Quando usarlo	Implementazione
Email IMAP	Fatture passive via email (il caso più comune)	Monitor casella dedicata, IMAP IDLE
API REST	Integrazione con portali fornitori o sistemi esistenti	POST /extract con file multipart
Bot Telegram	Operatori mobili (magazzino, commerciali in trasferta)	Bot con download automatico allegati
Cartella watchdog	Scanner di rete, sistemi legacy che scrivono su file	watchdog Python su cartella condivisa
SDI passivo	FatturaPA passive dall'Agenzia delle Entrate	Download da portale o via intermediario

Layer 2 — Preprocessing: preparare il documento per l'AI

Il preprocessing è il layer più sottovalutato. Un documento mal preprocessato riduce l'accuratezza dell'AI del 15-30%.

PDF nativo → immagini: pdf2image + Poppler. DPI ottimale: 200-300 per testo normale, 300+ per documenti con elementi grafici complessi. Ogni pagina diventa un PNG separato.
Scansioni: Deskewing (correzione rotazione), denoising (riduzione rumore), contrast enhancement. OpenCV è lo standard per queste operazioni.
FatturaPA XML: I file XML SDI non richiedono preprocessing: vengono parsati direttamente senza passare per il VLM. Estrazione diretta dei campi dall'XML.
Dimensione immagine: Il VLM ha un limite di token visivi. Immagini troppo grandi vengono ridimensionate mantenendo il rapporto. Tipicamente max 1920×2560 pixel per pagina.

Layer 3 — AI Extraction: il cuore del sistema

Questo layer usa un Vision Language Model per estrarre i dati strutturati dal documento. Le scelte tecnologiche principali:

Tool	Ruolo	Note
Qwen 2.5-VL 7B/72B	Modello VLM principale	Migliore accuratezza su doc italiani, Apache 2.0
Ollama	LLM server + GPU management	API OpenAI-compatible, gestione VRAM
LLaMA 3.2-Vision	Alternativa open Meta	Buono ma meno accurato di Qwen su IT docs
GPT-4V / Claude Vision	Cloud AI (alternativa)	Alta accuratezza ma dati escono dall'azienda

Layer 4 — Validazione: il quality gate

La validazione è ciò che distingue un sistema "demo" da uno production-ready. Senza validazione, gli errori dell'AI entrano silenziosamente nel gestionale.

Le validazioni fondamentali per documenti italiani:

✅ Math check: imponibile + IVA = totale (±0.10€ tolleranza)
✅ P.IVA: 11 cifre, checksum algoritmo controllo
✅ Codice Fiscale: 16 caratteri alfanumerici, checksum
✅ Codice SDI: 7 caratteri alfanumerici (es. "0000000" per PEC)
✅ Date: formato ISO 8601, date coerenti (emissione prima di scadenza)
✅ IBAN: checksum internazionale
✅ Aliquote IVA: solo valori legali (0%, 4%, 5%, 10%, 22%)

Layer 5 — Orchestrazione: routing e human review

L'orchestratore decide cosa fare con ogni documento dopo la validazione:

Confidence ≥ 85 + math OK: → dispatch automatico verso tutti gli adapter configurati
Confidence 60-84 o math KO: → coda revisione umana con evidenza del problema
Confidence < 60: → rejected, notifica operatore
Tipo documento non riconosciuto: → revisione manuale con classificazione umana

Build vs Buy: la decisione critica

Criterio	Build (custom)	Buy (DataUnchain)	Cloud SaaS
Time to deploy	3-6 mesi	1-2 giorni	Ore
Privacy dati	On-premise	On-premise	Cloud terzi
Costo anno 1	€50.000+	€2.000-5.000	€3.000-15.000
Personalizzazione	Totale	Alta	Limitata
Manutenzione	Team interno	Minima	Zero
Connettori gestionali IT	Da sviluppare	18 inclusi	Pochi

TCO a 3 anni per una PMI italiana (1.000 doc/mese)

Build custom

€160.000+

Dev + manutenzione

DataUnchain

€8.000

Hardware + energia

Cloud SaaS

€25.000

Abbonamento