Perché DataUnchain Soluzioni Costi Tecnologia Blog GitHub ↗
Italiano English
Benchmark · Marzo 2026

Benchmark LLM per l'Estrazione da Documenti Italiani (2026)

Abbiamo testato 4 Vision Language Model su 500 documenti aziendali italiani reali. Ecco i risultati dettagliati: accuratezza per tipo documento e campo, velocità, consumo VRAM e analisi costi.

⚠️ Disclosure

Questo benchmark è stato condotto da DataUnchain. I risultati potrebbero riflettere configurazioni ottimizzate per il nostro use case. I dati sono reali, il dataset è anonimizzato. Incoraggiamo la replica indipendente con i propri documenti prima di prendere decisioni di acquisto.

Metodologia

  • Dataset: 500 documenti aziendali italiani reali, anonimizzati. 200 fatture passive, 150 DDT, 100 ordini di acquisto, 50 note di credito.
  • Mix qualità: 60% PDF nativi alta qualità, 25% scansioni buona qualità (>200 DPI), 15% scansioni bassa qualità (<150 DPI, qualità scanner fax).
  • Hardware: NVIDIA RTX 4090 24GB, 64GB RAM, AMD Ryzen 9 7950X. Tutti i modelli serviti via Ollama 0.5.x.
  • Parametri: temperatura 0, nessun sistema di caching, 3 run per documento (media). Stesso prompt strutturato per tutti i modelli.
  • Scoring: Exact match per importi (±0.01€), P.IVA, CF, date. Fuzzy match per testo (nome, descrizione) con soglia Levenshtein 95%. Annotatori umani per il ground truth.

Modelli testati

Modello Parametri VRAM Licenza
Qwen 2.5-VL 7B7B8 GBApache 2.0
Qwen 2.5-VL 72B72B48 GBApache 2.0
LLaMA 3.2-Vision 11B11B12 GBLLAMA 3.2
Mistral Pixtral 12B12B14 GBApache 2.0

Accuratezza per tipo documento

Tipo documento Qwen 7B Qwen 72B LLaMA 11B Pixtral 12B
Fattura PDF nativa (alta qualità)96.2%98.1%91.8%90.3%
Fattura scansionata (buona qualità)93.1%95.7%88.4%87.2%
Fattura scansionata (bassa qualità)81.6%87.3%74.2%72.8%
DDT con tabelle multi-riga91.4%94.2%85.7%83.9%
Ordine d'acquisto94.8%96.9%90.1%89.4%
Media complessiva91.4%94.4%86.0%84.7%

Accuratezza per campo (fatture italiane)

Campo Qwen 7B Qwen 72B
Totale fattura98.4%99.2%
Partita IVA fornitore97.8%98.9%
Numero fattura97.1%98.4%
Data emissione98.7%99.3%
Imponibile96.2%97.8%
Aliquota IVA95.8%97.4%
Codice SDI destinatario89.3%93.7%
IBAN fornitore87.6%92.1%
Righe dettaglio (tabella)88.4%92.8%

Performance e velocità

Modello Tempo medio/doc Throughput/ora P95 latenza
Qwen 7B8.2s439 doc/h14.1s
Qwen 72B24.7s146 doc/h41.3s
LLaMA 11B11.8s305 doc/h19.4s
Pixtral 12B14.3s252 doc/h23.7s

Conclusioni e raccomandazioni

  • PMI con budget hardware contenuto (GPU 8-12GB): Qwen 2.5-VL 7B è la scelta ottimale. Gira su una RTX 4080, offre 96% di accuratezza su fatture digitali e processa ~440 documenti/ora. Sufficiente per 200.000+ documenti/anno.
  • Enterprise con requisiti di accuratezza massima: Qwen 72B giustifica l'investimento hardware aggiuntivo (GPU A100/H100) quando il costo degli errori supera il costo dell'hardware premium. Healthcare, banking, legal.
  • Alternativa open Meta: LLaMA 3.2-Vision 11B è una buona alternativa se la licenza LLAMA è accettabile per il vostro use case. Accuratezza 5-6 punti sotto Qwen 7B, velocità migliore.
  • Scansioni di bassa qualità: Nessun modello gestisce bene documenti con qualità molto bassa (<100 DPI, documenti strappati, macchie). In questi casi, il preprocessing è più importante del modello scelto.

DataUnchain usa Qwen 2.5-VL 7B come modello predefinito. Configurabile dalla dashboard.

Prova DataUnchain →