Abbiamo testato 4 Vision Language Model su 500 documenti aziendali italiani reali. Ecco i risultati dettagliati: accuratezza per tipo documento e campo, velocità, consumo VRAM e analisi costi.
⚠️ Disclosure
Questo benchmark è stato condotto da DataUnchain. I risultati potrebbero riflettere configurazioni ottimizzate per il nostro use case. I dati sono reali, il dataset è anonimizzato. Incoraggiamo la replica indipendente con i propri documenti prima di prendere decisioni di acquisto.
| Modello | Parametri | VRAM | Licenza |
|---|---|---|---|
| Qwen 2.5-VL 7B | 7B | 8 GB | Apache 2.0 |
| Qwen 2.5-VL 72B | 72B | 48 GB | Apache 2.0 |
| LLaMA 3.2-Vision 11B | 11B | 12 GB | LLAMA 3.2 |
| Mistral Pixtral 12B | 12B | 14 GB | Apache 2.0 |
| Tipo documento | Qwen 7B | Qwen 72B | LLaMA 11B | Pixtral 12B |
|---|---|---|---|---|
| Fattura PDF nativa (alta qualità) | 96.2% | 98.1% | 91.8% | 90.3% |
| Fattura scansionata (buona qualità) | 93.1% | 95.7% | 88.4% | 87.2% |
| Fattura scansionata (bassa qualità) | 81.6% | 87.3% | 74.2% | 72.8% |
| DDT con tabelle multi-riga | 91.4% | 94.2% | 85.7% | 83.9% |
| Ordine d'acquisto | 94.8% | 96.9% | 90.1% | 89.4% |
| Media complessiva | 91.4% | 94.4% | 86.0% | 84.7% |
| Campo | Qwen 7B | Qwen 72B |
|---|---|---|
| Totale fattura | 98.4% | 99.2% |
| Partita IVA fornitore | 97.8% | 98.9% |
| Numero fattura | 97.1% | 98.4% |
| Data emissione | 98.7% | 99.3% |
| Imponibile | 96.2% | 97.8% |
| Aliquota IVA | 95.8% | 97.4% |
| Codice SDI destinatario | 89.3% | 93.7% |
| IBAN fornitore | 87.6% | 92.1% |
| Righe dettaglio (tabella) | 88.4% | 92.8% |
| Modello | Tempo medio/doc | Throughput/ora | P95 latenza |
|---|---|---|---|
| Qwen 7B | 8.2s | 439 doc/h | 14.1s |
| Qwen 72B | 24.7s | 146 doc/h | 41.3s |
| LLaMA 11B | 11.8s | 305 doc/h | 19.4s |
| Pixtral 12B | 14.3s | 252 doc/h | 23.7s |
DataUnchain usa Qwen 2.5-VL 7B come modello predefinito. Configurabile dalla dashboard.
Prova DataUnchain →