Per 30 anni l'OCR è stato l'unico modo per estrarre dati dai documenti. Oggi i Vision Language Model fanno qualcosa che l'OCR non potrà mai fare: capiscono ciò che leggono.
Nessun template · Nessuna regola manuale · Il modello vede e comprende
L'OCR (Optical Character Recognition) è nato negli anni '90. Il suo funzionamento è semplice: scansiona l'immagine del documento, riconosce i singoli caratteri e li converte in testo digitale. Fin qui, funziona. Il problema è il passo successivo: per estrarre dati strutturati (numero fattura, P.IVA, totale), serve un template — una mappa che dice al software "il numero fattura è nella posizione X,Y della pagina".
Questo approccio ha un difetto fondamentale: ogni fornitore ha un layout diverso. Ogni volta che cambia un fornitore, cambia un layout, o arriva un documento leggermente diverso, il template si rompe. Il sistema non "capisce" il documento — conosce solo coordinate. Se la fattura è ruotata di 2 gradi, se c'è una macchia sul totale, se la tabella ha una colonna in più: errore.
In 30 anni di sviluppo, l'OCR non ha mai risolto questo problema. Ha solo aggiunto layer di complessità: pre-processing delle immagini, deskew automatico, zone recognition. Ma il limite è strutturale: l'OCR riconosce caratteri, non comprende significati.
Un Vision Language Model (VLM) è un modello di intelligenza artificiale che "guarda" il documento come farebbe un essere umano. Non riconosce singoli caratteri: comprende l'intero layout, le relazioni tra campi, la struttura delle tabelle, il significato dei numeri nel contesto.
Quando un VLM legge una fattura, non cerca "il testo alla coordinata X,Y". Capisce che quel numero nell'angolo in basso a destra, sotto la parola "Totale", è il totale della fattura. Lo capisce anche se il documento è ruotato, macchiato, scritto a mano, o in un layout che non ha mai visto prima.
Zero template. Zero regole manuali. Zero manutenzione. Il modello riceve un prompt ("estrai numero fattura, P.IVA, totale...") e restituisce un JSON strutturato. Cambiare tipo di documento significa cambiare il prompt — non riscrivere il software.
OCR tradizionale vs Vision Language Model — campo per campo.
Il nostro VLM proprietario testato su 219 documenti aziendali italiani autentici — fatture, DDT, note credito, ricevute, buste paga, contratti.
Accuratezza stimata su documenti con layout misti, scansioni da smartphone, DDT macchiati e fatture non standard. Il tasso di errore sale drasticamente su documenti "imperfetti".
Accuratezza certificata su tutti i 219 documenti reali, inclusi scansioni da smartphone, layout non standard, tabelle complesse e documenti multilingua. Con auto-learning, punta al 99%+.
Un nuovo fornitore invia una fattura con un layout diverso da tutti quelli precedenti. L'OCR non ha un template: non sa dove cercare i campi. Risultato: estrazione nulla o con errori gravi.
Un DDT dal magazzino con macchie d'olio, pieghe, timbri sovrapposti al testo. L'OCR riconosce caratteri corrotti. Il VLM "vede" il documento come un umano e ricostruisce le informazioni dal contesto.
Una fattura con tabella complessa: righe che si estendono su due linee, colonne unite, subtotali intermedi. L'OCR perde la struttura tabulare. Il VLM comprende le relazioni tra celle.
Una fattura da un fornitore estero: intestazione in tedesco, righe in italiano, totali in formato europeo. L'OCR ha bisogno di una configurazione lingua specifica. Il VLM comprende qualsiasi lingua.
Un operatore fotografa una ricevuta dal telefono: angolazione non perfetta, ombre, sfocatura parziale. L'OCR non riesce a segmentare il testo. Il VLM interpreta l'immagine con la stessa capacità di un occhio umano.
In tutti e 5 gli scenari, il VLM supera l'OCR. Non perché sia un OCR migliore — ma perché è una tecnologia fondamentalmente diversa. Comprende, non riconosce.
Via email, PEC, Telegram, API REST o cartella condivisa. 5 canali di ingresso, tutti monitorati automaticamente.
Il nostro modello Vision AI proprietario "vede" il documento, comprende layout e contenuto, estrae tutti i campi richiesti in un JSON strutturato. Gira 100% in locale tramite Ollama — nessun dato va al cloud.
Python verifica ogni campo: imponibile + IVA = totale, P.IVA valida (11 cifre), codice fiscale (omocodia-aware), formati data. I campi a bassa confidenza vengono segnalati per revisione umana.
I dati validati vengono inviati al tuo ERP tramite uno dei 18 connettori nativi: Fatture in Cloud, TeamSystem, Zucchetti, Mexal, Odoo, SAP, Salesforce, HubSpot, e altri. Nessuna configurazione lato cliente.
Tutto in locale. Tutto automatico.
Nessun dato lascia la tua rete. Nessuna API cloud. Nessun costo per pagina. Nessun template da mantenere. Il VLM è la differenza tra un software che riconosce caratteri e uno che comprende documenti.
Scopri cosa può fare il nostro VLM proprietario con i tuoi documenti. Richiedi una demo o entra nel programma Early Adopter per provarlo gratuitamente per 6 mesi.