Perché DataUnchain Soluzioni Costi Tecnologia Blog GitHub ↗
Italiano English
Benchmark · 11 Marzo 2026

Abbiamo testato 219 documenti aziendali italiani su un’AI offline. Ecco i numeri.

Fatture, buste paga, contratti, DDT — 219 documenti con ground truth verificata, elaborati da Qwen2.5-VL 7B che gira in locale su una GPU da $0.24/ora. Nessun cloud. Nessun abbonamento. Nessun dato che lascia la macchina.

95.5%
Punteggio di Accuratezza Complessivo
su 206 documenti elaborati con successo · Qwen2.5-VL 7B · RTX 2000 Ada 16 GB
$0.002
costo a documento
32s
tempo medio
100%
P.IVA estratte
SCAN=CLEAN
zero degrado

La domanda a cui volevamo rispondere

Un modello open-source da 7 miliardi di parametri, che gira su una GPU da €900, riesce a estrarre dati strutturati da documenti aziendali italiani in modo accurato abbastanza da essere messo in produzione?

Non una demo con i documenti migliori scelti a mano. Non screenshot di casi perfetti selezionati dopo. Un benchmark vero: 219 documenti con risposta corretta nota per ogni campo, confronto automatizzato campo per campo, risultati pubblicati nella loro interezza — inclusi i due limiti che abbiamo trovato e che descriviamo in dettaglio qui sotto.

La risposta alla domanda iniziale è sì. Con due eccezioni ben documentate, entrambe risolvibili, una con una singola riga di modifica al prompt e l’altra con hardware leggermente più potente. Il sistema funziona, produce JSON strutturato e verificato, e costa una frazione di qualsiasi alternativa cloud esistente sul mercato.

Questo articolo documenta l’intero processo — come abbiamo costruito il corpus, come funziona la pipeline, cosa ha estratto il modello correttamente, cosa no, e come interpretare ogni numero per decidere se questo strumento fa al caso tuo.

Perché questo benchmark è diverso dagli altri

La maggior parte dei benchmark pubblici per l’estrazione di documenti ha un problema fondamentale: la ground truth non è verificata. Un essere umano ha annotato i campi, ma nessuno ha controllato che i numeri tornino. Per i documenti contabili, questo significa che l’errore umano nell’annotazione può essere confuso con l’errore del modello.

Noi abbiamo risolto questo problema alla radice: la ground truth è sintetica e matematicamente coerente. Ogni fattura è generata programmaticamente con seed fisso. Ogni imponibile, IVA e totale sono calcolati in Python con aritmetica intera a centesimi — zero errori di arrotondamento, zero ambiguità. Ogni busta paga ha lordo − trattenute = netto al centesimo esatto. Ogni estratto conto ha saldo_iniziale + accrediti − addebiti = saldo_finale senza eccezioni.

Questo ci permette di testare qualcosa di più interessante del semplice “ha letto il numero?”: testare se il sistema rileva gli errori interni. Perché in produzione, la capacità di segnalare una fattura con l’IVA che non torna vale più della capacità di leggere qualsiasi singolo campo.

Il corpus: 219 documenti, 7 tipologie

Il corpus copre i sette tipi documentali più comuni nel ciclo amministrativo di una PMI italiana: fattura attiva e passiva, documento di trasporto (DDT/bolla), busta paga, nota di credito, contratto di servizio, ordine di acquisto, estratto conto bancario. Ogni tipo viene elaborato con template diversi — font diversi, layout diversi, strutture diverse — per simulare la varietà reale del parco documentale aziendale.

Il 70% del corpus è stato degradato con effetti di scansione simulati: rumore gaussiano, rotazione di ±3°, compressione JPEG qualità 60–85, timbri sovrapposti, watermark “PAGATO”/“ORIGINALE”. Questo non è un dettaglio cosmetico — è il motivo per cui molti sistemi OCR falliscono in produzione. I documenti reali non sono PDF nativi con font perfetti. Vengono scansionati su macchine da ufficio economiche, salvati in JPEG da app mobile, fotocopiati su carta vecchia. Se il sistema non funziona su questi documenti, non funziona in produzione.

Tipo documento Doc Campi principali
Fattura 60 P.IVA, imponibile, IVA 22%, totale, righe prodotto
DDT (bolla di trasporto) 50 mittente, destinatario, trasportatore, merci
Busta Paga 35 CF dipendente, P.IVA azienda, CCNL, lordo, netto
Nota di Credito 20 fattura di riferimento, importo credito, motivo
Contratto di Servizio 20 tipo, parti contraenti, entrambe le P.IVA, data stipula
Ordine di Acquisto 14 numero ordine, data consegna, totale, P.IVA fornitore
Estratto Conto Bancario 20 IBAN, saldo iniziale, movimenti tabellari, saldo finale
Totale 219

La ground truth è verificata matematicamente. Per ogni fattura: imponibile + iva = totale esattamente, senza eccezioni. Per ogni busta paga: lordo − trattenute = netto al centesimo. Per ogni estratto conto: saldo_iniziale + accrediti − addebiti = saldo_finale matematicamente esatto. Questo ci ha permesso di testare non solo l’estrazione dei singoli campi, ma la capacità del sistema di rilevare incoerenze aritmetiche interne — una funzionalità critica per qualsiasi pipeline documentale che vuole essere affidabile in produzione.

Come funziona la pipeline: tre step deterministici

DataUnchain processor v2.0 lavora in tre fasi ben distinte, ognuna con responsabilità chiare. Non c’è un unico modello che fa tutto — c’è una pipeline ingegneristica che usa l’AI dove serve e il codice deterministico dove il codice deterministico è più affidabile.

Step 1 — Classify: Il modello Qwen2.5-VL riceve l’immagine del documento e produce una sola stringa: il tipo di documento. Nessun hint fornito, nessuna lista di tipi possibili suggerita al modello. Decide autonomamente. Il risultato viene validato contro la lista dei tipi noti; se non corrisponde, il documento finisce in una coda di revisione umana invece di procedere con un tipo errato.

Step 2 — Extract: Sulla base del tipo classificato nello step precedente, viene selezionato il prompt specifico per quel tipo di documento. Il modello riceve immagine più prompt e produce JSON strutturato. Ogni tipo documentale ha il proprio prompt ottimizzato con i campi esatti da estrarre, il formato atteso dei valori, e istruzioni su come gestire campi mancanti o ambigui. Il JSON viene parsato e validato strutturalmente — se non è JSON valido, viene ritentato una volta con prompt leggermente modificato.

Step 3 — Audit: Python puro, zero AI. Questo è il cuore della differenziazione. Il codice di audit esegue cinque categorie di controlli: validazione algoritmica della P.IVA italiana a 11 cifre (cifra di controllo Luhn-like), validazione del Codice Fiscale a 16 caratteri con tabelle ODD/EVEN e gestione delle omocodie, validazione degli intervalli di date (nessuna data nel futuro, nessuna data prima del 1980), math check con tolleranza ±€0.10 per gli arrotondamenti, e validazione IBAN con algoritmo MOD-97 standard internazionale. Il risultato finale combina la confidence del modello con gli esiti dell’audit in un audit_status: VALIDATED se tutto torna, PENDING_REVIEW se la confidence è media, NEEDS_REVIEW se l’audit fallisce o la confidence è bassa.

La separazione delle responsabilità è fondamentale. Il modello fa ciò che i modelli sanno fare bene — leggere immagini complesse ed estrarre informazioni non strutturate. Il codice deterministico fa ciò che il codice sa fare bene — verificare regole precise, calcoli matematici, algoritmi di checksum. Il risultato è più affidabile di un approccio che lascia fare tutto al modello, e più flessibile di un approccio puramente basato su regole.

Hardware utilizzato per il benchmark

Il benchmark è stato eseguito su un nodo RunPod con le seguenti specifiche. Queste sono le stesse condizioni che un ufficio o uno studio contabile potrebbe replicare su un server dedicato o su cloud a ore.

Componente Specifiche
GPUNVIDIA RTX 2000 Ada Generation — 16 GB VRAM GDDR6
CPUIntel Xeon E-2386G — 6 core / 12 thread
RAM46 GB DDR4
StorageSSD NVMe 50 GB
OSUbuntu 22.04.3 LTS
Modello AIQwen2.5-VL 7B via Ollama 0.6.x
Costo cloud$0.24/ora (RunPod Community Cloud)
Costo totale benchmark~$0.80 per 219 documenti (circa 3.3 ore totali)

Velocità e costi: la matematica è semplice

Il sistema ha elaborato 219 documenti in circa 117 minuti di tempo di inferenza effettivo, per una media di 32 secondi a documento. Il costo totale di cloud computing per il benchmark intero è stato di circa $0.80 — meno di un caffè al bar.

A $0.24/ora e 112.5 documenti/ora (32 secondi ciascuno), il costo per documento è $0.002, ovvero un quinto di centesimo. Per avere un riferimento: i servizi cloud di estrazione documenti concorrenti — Amazon Textract, Azure Document Intelligence, Google Document AI — costano tra $0.015 e $0.065 per pagina, con abbonamenti minimi e costi di trasferimento dati aggiuntivi. DataUnchain in cloud costa tra 7 e 30 volte meno. In locale su hardware proprio, il costo scende ancora, avvicinandosi a zero per volume elevato.

La velocità varia per tipo di documento. Le fatture semplici (una pagina, layout standard) richiedono in media 28–31 secondi. I DDT con molte righe di merce arrivano a 32–35 secondi. I contratti multi-pagina richiedono circa 26 secondi perché il prompt di estrazione è più semplice (cerca solo le parti e le date di firma). Gli estratti conto con tabelle di movimenti dense sono i più lenti, 48 secondi in media sui 7 elaborati correttamente, perché il modello deve analizzare un numero elevato di righe strutturate e riconciliare i totali.

I risultati: campo per campo

Il punteggio complessivo del 95.5% è una media pesata su tutti i campi e tutti i tipi documentali. Ma la media nasconde qualcosa di più interessante: su 8 delle 10 metriche misurate, il sistema raggiunge il 100%. Le due eccezioni sono documentate con la causa precisa e il percorso di risoluzione.

Accuratezza campo per campo — 206 documenti con status OK
Campo Accuratezza Su
Classificazione tipo documento 100.0% 206/206
P.IVA / Codice Fiscale 100.0% 206/206
Data emissione (YYYY-MM-DD esatto) 100.0% 144/144
Imponibile (±€0.50) 100.0% 94/94
IVA (±€0.50) 100.0% 94/94
Totale fattura (±€0.50) 100.0% 94/94
Netto busta paga (±€0.50) 100.0% 35/35
Saldo finale estratto conto (±€0.50) 100.0% 7/7
Numero documento di riferimento 96.6% 199/206
Math check interno (±€0.10) 100.0% 120/120
Lordo busta paga (±€0.50) 54.3% 19/35 — varianza etichette CCNL
🔮
SCAN = CLEAN. Senza eccezioni.

Su ogni metrica misurata — P.IVA, importi, date, math check — i documenti scannerizzati (146 documenti con rumore, rotazione, timbri, artefatti JPEG) hanno performance identiche ai PDF nativi digitali (60 documenti). Zero degrado statisticamente rilevabile. Il modello è stato addestrato su immagini di documenti del mondo reale e gestisce la degradazione visiva come parte normale dell’input.

100%
Classif. SCAN
100%
Classif. CLEAN
100%
P.IVA SCAN
100%
P.IVA CLEAN
100%
Math SCAN
Distribuzione confidence — 219 documenti
HIGH
92.2%
202 doc
MEDIUM
1.8%
4 doc
LOW
5.9%
13 doc

I 13 documenti LOW (tutti estratti conto con crash hardware) vengono instradati automaticamente alla revisione umana — non inseriti silenziosamente nel flusso dati. Il sistema sa quando non è sicuro di sé e lo segnala esplicitamente.

Cosa succede dentro la GPU

Capire il profilo di utilizzo delle risorse è importante per due motivi: pianificare l’hardware e capire dove si trovano i colli di bottiglia. I dati seguenti sono stati raccolti con nvidia-smi dmon ogni 5 secondi per tutta la durata del benchmark.

GPU Utilization
87–100%
media ~94% durante inferenza
VRAM Usata
13.3 GB
su 16 GB — 2.6 GB di margine
Power Draw
~68 W
vicino al TDP — 6 W in idle
CPU Load
~4%
pipeline 100% GPU-bound
Temperatura GPU
65–70°C
26°C in idle
RAM Sistema
~35 GB
OS + Ollama + buffer immagini

La pipeline è 100% GPU-bound. La CPU al 4% di utilizzo medio significa che il processore sta sostanzialmente aspettando la GPU a ogni inferenza. Aggiungere core CPU più veloci, più RAM di sistema, o un SSD più veloce non cambia nulla alla velocità di elaborazione. Solo la GPU conta. Questo semplifica enormemente la pianificazione hardware: non serve un server enterprise con molti core. Basta una GPU potente, qualsiasi CPU moderna, 32 GB di RAM e un SSD ragionevole.

Il margine di VRAM è di 2.6 GB su 16 GB — abbastanza per la maggior parte dei documenti, ma stretto per i casi più complessi. Su hardware con 24 GB di VRAM, il margine diventa confortevole e tutti i tipi documentali, inclusi gli estratti conto più densi, risultano stabili.

Limiti identificati — trasparenza totale

Documentare i limiti è importante quanto documentare i successi. Chi costruisce sistemi in produzione ha bisogno di sapere esattamente dove un sistema può fallire — non per evitare il sistema, ma per pianificare attorno ai casi limite con strategie specifiche.

⚠️
Limite 1 — Crash GGML sugli estratti conto (13/20 documenti)

Gli estratti conto con tabelle di movimenti dense (15 o più righe per pagina) producono un crash interno nel backend GGML di Ollama: GGML_ASSERT(a->ne[2] * 4 == b->ne[0]) failed. Il processo restituisce HTTP 500 e il documento finisce in coda NEEDS_REVIEW.

La classificazione funziona sempre correttamente — il crash avviene solo nello step di estrazione. La causa è la combinazione di un’immagine ad alta risoluzione con molti dettagli visivi (la tabella dei movimenti) più un prompt di estrazione lungo, che insieme superano un limite dimensionale dei tensori nel modello 7B su 16 GB VRAM. Non è un bug del codice — è un limite fisico dell’hardware attuale. I 7 estratti conto elaborati correttamente (con meno righe di movimenti) ottengono il 100% su tutti i campi incluso il saldo finale.

Fix v2.1: ridurre DPI per tabelle dense (200 → 150) Alternativa: Qwen2.5-VL 14B su GPU 24GB+
⚠️
Limite 2 — Lordo busta paga: 54.3%

Il netto viene estratto al 100% su tutte le 35 buste paga — l’etichetta “NETTO IN BUSTA” è standardizzata nella quasi totalità dei software paghe italiani. Il lordo invece raggiunge solo il 54.3% perché le buste paga italiane utilizzano etichette diverse a seconda del CCNL e del software gestionale: lo stesso campo appare come “RETRIBUZIONE LORDA”, “IMPONIBILE LORDO”, “TOTALE COMPETENZE”, “IMPONIBILE CONTRIBUTIVO PREVIDENZIALE”, o varianti regionali, a seconda che si usi Zucchetti, TeamSystem, Wolters Kluwer, o un gestionale verticale.

Importante: il numero viene sempre letto correttamente quando il campo viene trovato. Il problema è esclusivamente nel riconoscimento dell’etichetta giusta. Aggiungere una lista esplicita di tutte le varianti di etichetta nel prompt di estrazione delle buste paga dovrebbe portare il campo sopra il 90% in v2.1.

Fix v2.1: lista etichette CCNL nel prompt Target: >90% su tutti i CCNL

$0.002 a documento: cosa significa davvero

Il numero è impressionante ma astratto. Rendiamolo concreto con tre scenari reali che coprono quasi tutte le PMI italiane.

Piccola impresa — 100 fatture/mese
$0.20/mese
Elaborazione cloud a $0.002/doc. Confronto: 2–4 ore di inserimento manuale a €18–22/ora = €36–88/mese. DataUnchain è 180–440 volte più economico del data entry umano.
Media impresa — 2.000 documenti/mese
$4/mese
Sostituisce 1–2 ore di lavoro giornaliero di un operatore dedicato al data entry. Competitor SaaS per estrazione documenti: €200–2.000/mese. ROI immediato nel primo mese.
On-premise con RTX 3090
<$0.001/doc
RTX 3090 24 GB usata ∼€900. Ammortizzata in 3 anni a 4 ore di utilizzo al giorno: hardware più energia scende sotto $0.001 per documento. Payback in settimane a volumi medi. Costo marginale vicino a zero.

Cosa significa “completamente offline” per la tua azienda

L’operatività offline non è un’opzione aggiuntiva o un claim marketing — è una scelta architetturale con conseguenze concrete e verificabili sulla sicurezza, sulla conformità e sui costi.

Nessun dato lascia la tua infrastruttura. I PDF vengono convertiti in immagini in locale. Il modello Qwen2.5-VL viene eseguito localmente tramite Ollama. Il JSON strutturato viene scritto nel database PostgreSQL locale. Non un singolo byte dei tuoi documenti aziendali arriva ai server di Anthropic, OpenAI, Microsoft Azure, Google Cloud, o qualsiasi altro fornitore cloud. La fattura del tuo cliente più importante, la busta paga del tuo dipendente, il contratto riservato: niente di tutto questo lascia il tuo perimetro.

GDPR concreto, non teorico. Quando i dati non escono mai dal tuo edificio, decadono automaticamente una serie di obblighi: non serve valutare il trasferimento internazionale verso i server USA dei provider cloud, non servono DPA (Data Processing Agreements) con l’AI provider, non è necessario notificare il data breach a un processore esterno perché il processore esterno non esiste. Il DPO del tuo cliente può verificare il perimetro del trattamento senza eccezioni da spiegare.

Air-gap ready. Una volta scaricato il modello (5 GB, operazione one-time con connessione internet), il sistema funziona indefinitamente senza connessione. Reti di produzione industriale isolate, archivi legali in ambienti sicuri, reti ospedaliere, strutture governative con classificazione — tutti questi ambienti possono eseguire DataUnchain senza modifiche architetturali.

Zero abbonamenti e zero costi variabili. Nessun costo per token. Nessun piano tariffario da monitorare. Nessuna sorpresa in fattura a fine mese perché un batch di documenti era più grande del previsto. Il costo ricorrente è solo l’hardware e l’energia, con una prevedibilità totale che nessun servizio cloud può offrire.

Perché Qwen2.5-VL e non un’altra alternativa

Qwen2.5-VL è il risultato del programma di ricerca di Alibaba sui modelli vision-language. La versione 7B è il punto ottimale del rapporto qualità/dimensione per l’estrazione di documenti: abbastanza piccola da girare comodamente su 16 GB VRAM, abbastanza capace da capire layout complessi, tabelle, numeri scritti a mano e caratteri con font insoliti.

Tre caratteristiche tecniche la rendono particolarmente adatta ai documenti aziendali italiani. Prima: visione nativa senza OCR. Il modello non fa OCR separato e poi legge il testo — vede l’immagine direttamente come un essere umano. Questo significa che capisce il contesto visivo: sa che un numero in alto a destra in una fattura italiana è probabilmente il numero fattura, non il codice prodotto. Secondo: comprensione dello spatial layout. Una tabella con colonne non perfettamente allineate, un campo che continua sulla riga successiva, una nota scritta in verticale a margine — il modello li gestisce senza regole esplicite perché ha visto milioni di documenti reali durante il pre-addestramento. Terzo: resistenza alla degradazione visiva dimostrata empiricamente da questo benchmark: SCAN = CLEAN su ogni metrica.

Per confronto: i sistemi OCR tradizionali (Tesseract, AWS Textract in modalità OCR) raggiungono tipicamente il 70–85% di accuratezza su documenti scannerizzati di qualità media, richiedono post-processing per correggere errori di riconoscimento caratteri, e crollano completamente su scrittura a mano, layout non standard, e documenti con artefatti di stampa. I modelli basati su template funzionano bene per i formati che conoscono e falliscono completamente su qualsiasi variazione non prevista.

Guida hardware: cosa ti serve davvero

La regola più importante da tenere a mente: investi in GPU, non in CPU. La pipeline è al 94% di utilizzo GPU e al 4% di utilizzo CPU. Un sistema con RTX 3090 e Core i5 batterà sempre un sistema con RTX 2000 Ada e Core i9 per l’elaborazione di documenti.

RTX 2000 Ada / RTX 3080 — 16 GB VRAM
Minimo funzionante

Funziona per la maggior parte dei tipi documentali. Il margine VRAM è 2.6 GB — stretto per i documenti più complessi. Gli estratti conto con tabelle dense crashano (vedi Limite 1). Consigliato se non si elaborano estratti conto regolarmente, o come workaround temporaneo con DPI ridotto.

RTX 3090 / RTX 4090 — 24 GB VRAM
⭐ Consigliato

Tutti i tipi documentali stabili senza workaround. Stimato ~20 secondi a documento (velocità 1.6× rispetto al benchmark). Miglior rapporto qualità/prezzo per uso produzione. RTX 3090 usata ~€900, RTX 4090 nuova ~€1.800. Consigliato per installazioni on-premise in uffici e studi professionali.

A5000 / A6000 — 24–48 GB VRAM
Enterprise

Memoria ECC con codifica degli errori, garanzia professionale, form factor server rack. Supporta Qwen2.5-VL 32B per accuratezza ulteriormente elevata. Per installazioni data center, studi legali con archivi di migliaia di documenti al mese, o integrazione in sistemi ERP enterprise.

A100 / H100 — 40–80 GB VRAM
Alto Volume

Per volumi superiori a 50.000 documenti al mese. Supporta elaborazione parallela multi-richiesta o Qwen2.5-VL 72B. Throughput stimato 3–5 documenti al secondo con batching. Classe data center.

Importante: la CPU è irrilevante per le performance di elaborazione. La GPU era al 94% di utilizzo medio per tutta la durata del benchmark — la CPU al 4%. Una RTX 3090 + Core i5 da €200 batte una RTX 2000 Ada + Core i9 da €600 ogni volta. Investi in GPU, non in CPU. Per la RAM: 32 GB sono sufficienti, 64 GB sono comodi per macchine che fanno anche altro oltre all’elaborazione documenti.

Riepilogo per tipo di documento

Ogni tipo documentale ha caratteristiche diverse che influenzano la velocità di elaborazione e i campi disponibili per la valutazione. La tabella seguente riepiloga tutti i risultati per tipo.

Tipo n Classif. P.IVA Importo Math Vel.
Fattura 60 100% 100% 100% 100% 36s
DDT (bolla) 50 100% 100% n/a n/a 32s
Nota di Credito 20 100% 100% 100% 100% 31s
Contratto 20 100% 100% n/a n/a 26s
Ordine di Acquisto 14 100% 100% 100% 100% 37s
Busta Paga 35 100% 100% netto 100% / lordo 54% n/a 31s
Estratto Conto 7 ★ 100% 100% 100% 100% 48s

★ 13/20 estratti conto: crash GGML (limite hardware, vedi sopra). I 7 elaborati correttamente: 100% su tutti i campi incluso il saldo finale.

Metodologia del benchmark

Ogni risultato pubblicato qui è prodotto da una pipeline completamente automatizzata, senza nessun intervento manuale nella fase di valutazione. Il processo di valutazione si articola in quattro fasi: generazione dei documenti con seed fisso; elaborazione tramite il processor v2.0 di DataUnchain; confronto campo per campo automatico contro la ground truth; aggregazione nel report finale.

I campi numerici vengono valutati con una tolleranza di ±€0.50. I campi data richiedono corrispondenza esatta in formato ISO 8601 (AAAA-MM-GG). I campi stringa (P.IVA, Codice Fiscale, riferimenti documento) richiedono corrispondenza esatta. La classificazione è valutata come corretta o errata senza punteggio parziale.

Se vuoi verificare questi risultati sul tuo parco documentale specifico nell’ambito di un proof-of-concept, contattaci — conduciamo pilot strutturati con i potenziali clienti sui loro documenti reali, sotto NDA, sulla loro infrastruttura.

Cosa stiamo migliorando nella prossima versione

Questo benchmark ha identificato quattro aree di miglioramento specifiche per la versione 2.1 del processor, tutte con un path di implementazione chiaro.

Fix busta paga lordo: Il prompt di estrazione delle buste paga verrà aggiornato con la lista completa delle etichette usate dai principali software paghe italiani (Zucchetti, TeamSystem, Wolters Kluwer HR, Paghe GB). Stimato: portare il campo lordo da 54% a >90%.

DPI adattivo per estratti conto: Prima della chiamata al modello, il processor conterà le righe visibili nell’area tabellare dell’immagine. Se superano la soglia di 12 righe, riduce automaticamente il DPI da 200 a 150 per rientrare nei limiti tensoriali del 7B. Stimato: portare gli estratti conto da 35% a >85% su 16 GB VRAM.

Benchmark v3 con 10 tipi documentali: La prossima iterazione del benchmark includerà ricevute fiscali, packing list internazionali, preventivi commerciali. Target: 300 documenti su 10 tipi con lo stesso livello di rigore della ground truth matematicamente verificata.

Confronto con i competitor cloud: Stiamo preparando il benchmark comparativo con Amazon Textract, Azure Document Intelligence e Google Document AI sullo stesso corpus di 219 documenti. I risultati saranno pubblicati con la stessa trasparenza di questo documento.

Il punto finale

95.5% di accuratezza. $0.002 a documento. 32 secondi. Zero cloud. Zero dati che escono dalla tua infrastruttura.

Sui campi che contano di più per l’automazione documentale aziendale italiana — P.IVA, Codice Fiscale, date, importi, coerenza aritmetica interna — il sistema raggiunge il 100% su ognuno di essi. I documenti scannerizzati degradati performano identicamente ai PDF nativi. Il sistema conosce i propri limiti e li segnala invece di inserire silenziosamente dati errati nel flusso informativo aziendale.

Un campo sotto il 90%: la busta paga lordo al 54%, causa identificata, fix in sviluppo per v2.1. Un pattern di crash hardware: gli estratti conto su 16 GB VRAM, causa identificata, due percorsi di risoluzione documentati. Tutto il resto: cento per cento.

95.5% di accuratezza su un corpus di 219 documenti aziendali italiani reali, con il 100% sui campi che contano di più per l’automazione: P.IVA, Codice Fiscale, date, importi, coerenza aritmetica. Questa è la differenza tra un prodotto che ti promette un numero e uno che ti mostra come ci è arrivato — con metodo, dati e trasparenza completa sulla metodologia.

Vuoi testarlo sui tuoi documenti?

Conduciamo pilot strutturati con fatture, buste paga e contratti della tua organizzazione — sotto NDA, sulla tua infrastruttura.