CharXiv Reasoning
Kan het model complexe wetenschappelijke grafieken uit onderzoekspapers correct interpreteren en er logisch over redeneren?
Wat meet het?
CharXiv Reasoning test of multimodale AI-modellen wetenschappelijke grafieken uit arXiv-papers begrijpen. De benchmark bevat 2.323 echte grafieken met twee soorten vragen: beschrijvende vragen over basiselementen en redeneervragen die het combineren van informatie uit meerdere visuele elementen vereisen. CharXiv-R focust specifiek op de moeilijke redeneervragen.
Hoe je de score leest
Percentage correcte antwoorden op de redeneervragen. Menselijke prestatie is 80,5 procent, wat aangeeft dat de vragen ook voor mensen uitdagend zijn.
Voorbeeld-opgave
Bekijk deze grafiek uit een klimaatpaper. Welk decennium toont de grootste afwijking tussen de twee datasets, en wat verklaart dat verschil op basis van de legenda?
Waar je op moet letten
CharXiv bevat uitsluitend Engelstalige wetenschappelijke grafieken uit arXiv. Grafieken uit bedrijfspresentaties, dashboards of Nederlandse bronnen worden niet getest. De benchmark is statisch en wordt niet aangevuld met nieuwe papers.