Benchmark LLM per l'Estrazione da Documenti Italiani (2026)

Metodologia

Dataset: 500 documenti aziendali italiani reali, anonimizzati. 200 fatture passive, 150 DDT, 100 ordini di acquisto, 50 note di credito.
Mix qualità: 60% PDF nativi alta qualità, 25% scansioni buona qualità (>200 DPI), 15% scansioni bassa qualità (<150 DPI, qualità scanner fax).
Hardware: NVIDIA RTX 4090 24GB, 64GB RAM, AMD Ryzen 9 7950X. Tutti i modelli serviti via Ollama 0.5.x.
Parametri: temperatura 0, nessun sistema di caching, 3 run per documento (media). Stesso prompt strutturato per tutti i modelli.
Scoring: Exact match per importi (±0.01€), P.IVA, CF, date. Fuzzy match per testo (nome, descrizione) con soglia Levenshtein 95%. Annotatori umani per il ground truth.

Modello	Parametri	VRAM	Licenza
Qwen 2.5-VL 7B	7B	8 GB	Apache 2.0
Qwen 2.5-VL 72B	72B	48 GB	Apache 2.0
LLaMA 3.2-Vision 11B	11B	12 GB	LLAMA 3.2
Mistral Pixtral 12B	12B	14 GB	Apache 2.0

Tipo documento	Qwen 7B	Qwen 72B	LLaMA 11B	Pixtral 12B
Fattura PDF nativa (alta qualità)	96.2%	98.1%	91.8%	90.3%
Fattura scansionata (buona qualità)	93.1%	95.7%	88.4%	87.2%
Fattura scansionata (bassa qualità)	81.6%	87.3%	74.2%	72.8%
DDT con tabelle multi-riga	91.4%	94.2%	85.7%	83.9%
Ordine d'acquisto	94.8%	96.9%	90.1%	89.4%
Media complessiva	91.4%	94.4%	86.0%	84.7%

Modello	Tempo medio/doc	Throughput/ora	P95 latenza
Qwen 7B	8.2s	439 doc/h	14.1s
Qwen 72B	24.7s	146 doc/h	41.3s
LLaMA 11B	11.8s	305 doc/h	19.4s
Pixtral 12B	14.3s	252 doc/h	23.7s

PMI con budget hardware contenuto (GPU 8-12GB): Qwen 2.5-VL 7B è la scelta ottimale. Gira su una RTX 4080, offre 96% di accuratezza su fatture digitali e processa ~440 documenti/ora. Sufficiente per 200.000+ documenti/anno.
Enterprise con requisiti di accuratezza massima: Qwen 72B giustifica l'investimento hardware aggiuntivo (GPU A100/H100) quando il costo degli errori supera il costo dell'hardware premium. Healthcare, banking, legal.
Alternativa open Meta: LLaMA 3.2-Vision 11B è una buona alternativa se la licenza LLAMA è accettabile per il vostro use case. Accuratezza 5-6 punti sotto Qwen 7B, velocità migliore.
Scansioni di bassa qualità: Nessun modello gestisce bene documenti con qualità molto bassa (<100 DPI, documenti strappati, macchie). In questi casi, il preprocessing è più importante del modello scelto.