Clear Sky Science · nl

Visuele waarneming-gebaseerde deep learning-transformers voor het classificeren van schilderijen en foto9s via kenmerkextractie

· Terug naar het overzicht

Waarom het ertoe doet voor alledaagse afbeeldingen

In een tijd waarin iedereen met een paar klikken een levensecht beeld kan genereren, wordt het steeds moeilijker te bepalen of een afbeelding een echte foto, een traditioneel schilderij of iets volledig door algoritmes vervaardigd is. Deze studie onderzoekt hoe moderne kunstmatige intelligentie automatisch menselijke schilderijen kan onderscheiden van camera-foto9s en zelfs van AI-gegenereerde beelden, en zo kan helpen kunstmarkten, archieven en online gebruikers te beschermen tegen verwarring en vervalsing.

Kunst, foto9s en de opkomst van machinegemaakte afbeeldingen

Schilderijen en foto9s kunnen op het eerste gezicht op een scherm vergelijkbaar lijken, maar ze dragen zeer verschillende visuele vingerafdrukken. Schilderijen tonen vaak zichtbare penseelstreken, gestileerde kleuren en meer abstracte composities, terwijl foto9s gewoonlijk scherpere details en natuurlijk licht bevatten. Tegelijkertijd produceren nieuwe beeldgeneratoren werken die beide media steeds beter imiteren. Musea, galerijen, verzamelaars en digitale platforms hebben steeds vaker behoefte aan hulpmiddelen die snel en betrouwbaar kunnen bepalen met welk soort afbeelding ze te maken hebben, zowel om kunstwerken te authenticeren als om de toevloed aan synthetische inhoud te beheren.

Een nieuwe pijplijn om machines te leren zien

De onderzoekers bouwden een complete beeldanalysepijplijn gebaseerd op een Vision Transformer, een recent deep learning-model dat oorspronkelijk voor taalverwerking is ontwikkeld en nu is aangepast voor beelden. Ze trainden dit systeem op een openbare Kaggle-dataset met 1.361 schilderijen en 3.747 foto9s, die een grote verscheidenheid aan scènes en stijlen vertegenwoordigen. Elke afbeelding wordt eerst gestandaardiseerd: hij wordt van formaat veranderd, licht bijgesneden en vervolgens geaugmenteerd via spiegelen, kleine rotaties, helderheidswijzigingen en ruisverwijdering, zodat het model veel realistische variaties te zien krijgt. Na deze voorbereiding verdeelt de Vision Transformer elke afbeelding in kleine patches en leert hij hoe verschillende delen van het beeld zich tot elkaar verhouden over het gehele kader.

Figure 1
Figuur 1.

Hoe het model zich op de juiste details concentreert

In tegenstelling tot eerdere neurale netwerken die vooral naar lokale patronen keken, gebruikt de Vision Transformer een "attention"-mechanisme om te bepalen welke delen van een afbeelding het meest relevant zijn voor de taak. Het vraagt zich effectief voor elke patch af hoe sterk het op elke andere patch moet letten. Dit maakt het beter in het opmerken van globale structuur: de manier waarop kleuren over een doek vloeien, hoe licht over een scène valt of hoe texturen zich herhalen. Om te controleren dat het model niet blindelings raadt, passen de auteurs ook een visualisatiemethode toe genaamd Grad-CAM, die de specifieke regio's benadrukt die elke beslissing beïnvloedden. Voor schilderijen vallen deze markeringen vaak op penseeltexturen en gestileerde gebieden; voor foto9s concentreren ze zich rond fijne randen, realistische oppervlakken en lichtovergangen.

Figure 2
Figuur 2.

Beter dan eerdere beeldherkenningsmethoden

Om te zien of deze benadering echt meerwaarde biedt, vergelijkt de studie de Vision Transformer met drie veelgebruikte deep learning-architecturen: een standaard convolutioneel neuraal netwerk (CNN), het VGG-19-netwerk en DenseNet. Alle modellen worden op dezelfde dataset getraind en getest en geëvalueerd met gangbare maatstaven zoals nauwkeurigheid, precisie, recall en F1-score, die correcte detecties en fouten voor beide klassen in balans brengen. Terwijl de basismodellen accuraatheden bereiken in het bereik van midden 70% tot midden 80%, behaalt de Vision Transformer 95% nauwkeurigheid voor zowel schilderijen als foto9s, met vergelijkbaar hoge precisie en recall. De auteurs voeren daarnaast meerdere statistische tests uit om te bevestigen dat deze verbetering geen toeval is, en tonen aan dat het transformer-gebaseerde model consequent beter presteert over herhaalde proefnemingen en verschillende evaluatiecriteria.

Wat dit betekent voor kunst, vertrouwen en technologie

De bevindingen suggereren dat moderne transformer-modellen kunnen dienen als krachtige en uitlegbare hulpmiddelen om schilderijen te scheiden van foto9s en om AI-gegenereerde beelden te signaleren die een van beide media nabootsen. Voor niet-specialisten is de kernboodschap dat computers nu subtiele aanwijzingen kunnen detecteren—zoals penseelvoering, soepelheid of lichtgradienten—die zelfs zorgvuldige menselijke waarnemers mogelijk missen, en dat op schaal. Dergelijke systemen zouden galerijen en verzamelaars kunnen helpen bij het verifi7ceren van werken, curatoren en archivarissen ondersteunen bij het organiseren van omvangrijke digitale collecties en online platforms bijstaan bij het labelen of filteren van synthetische content. Nu beeldgeneratoren de grens tussen realiteit en verbeelding blijven vervagen, bieden methoden zoals deze een praktische manier om het vertrouwen in wat we zien te behouden.

Bronvermelding: Yu, L. Visual perception based deep learning transformers for classifying paintings and photographs through feature extraction. Sci Rep 16, 5326 (2026). https://doi.org/10.1038/s41598-026-36298-4

Trefwoorden: AI-gegenereerde beelden, kunstauthenticatie, beeldclassificatie, vision transformer, digitale kunstanalyse