Clear Sky Science · sv

Datasettet Minimal Semantisk Innehåll (MSC): En stor, balanserad resurs för forskning inom beräkningsestetik

· Tillbaka till index

Varför skönhet i bilder är svårare att mäta än det verkar

Varför uppfattas vissa fotografier som vackra medan andra känns tråkiga eller till och med fula? Man kanske tror att forskare kan besvara det genom att mäta färger, kontrast eller mönster i en bild. Men det finns ett problem: våra reaktioner är sammanflätade med vad bilden föreställer—människor, platser, symboler och minnen. Den här artikeln presenterar en ny, noggrant utformad bildsamling som försöker ta bort de störande elementen så att forskare kan fokusera på hur ögat och hjärnan reagerar på bildens rena utseende i sig.

Ta bort berättelsen ur bilden

De flesta populära bilddatabaser som används i forskning bygger på foton från nätbaserade delningssajter och tävlingar. Dessa källor kommer med titlar, teman och kulturella referenser som subtilt påverkar hur folk bedömer dem. Ett fyndigt skämt som passar ett tävlingstema kan få en medioker bild att vinna. Starka symboler, som flaggor, kan få höga poäng av kulturella skäl snarare än visuella. Dessutom laddar folk sällan upp verkligt dåliga foton, så befintliga databaser är ofta fyllda med bilder som är dugliga eller bättre. Tillsammans gör detta det mycket svårt att avgöra om ett högt betyg beror på hur en bild är byggd—dess färger, texturer och former—eller på vad den betyder.

Figure 1
Figure 1.

Bygga en värld av tysta scener

För att hantera detta skapade författarna databasen Minimum Semantic Content (MSC): över tio tusen bilder utvalda för att vara visuellt rika men så låg i "berättelse" som möjligt. De började med foton i public domain och privata samlingar, och tog sedan bort alla bilder med människor, djur, byggnader, text eller starka symboliska föremål. De undvek också vykortsliknande vyer som troligen väcker starka minnen eller känslor. Det som återstår är mestadels naturfragment—blad, bark, klippor, moln, vattenytor och skogsbottnar. Dessa scener är inte helt meningslösa, men de är betydligt mer enhetliga i ämnesval. Det gör att skillnader i människors bedömningar mer sannolikt beror på visuella egenskaper som färg, ljus och struktur snarare än vem eller vad som avbildas.

Uppfinna ett verktyg för att skapa skönhet och fulhet på begäran

Även med denna noggranna filtrering lutade startmaterialet fortfarande mot behagliga bilder. För att få ett vetenskapligt grepp om skönhet behöver forskare många exempel jämnt fördelade från mycket fula till mycket vackra. Gruppen byggde därför ett enkelt redigeringsprogram smeknamnat "Uglifier." Fyrtio volontärer använde det för att föra utvalda bilder i två riktningar: göra dem så vackra som möjligt, eller så fula som möjligt, genom att justera reglage för ljusstyrka, kontrast, färgblandning, skärpa, brus, beskärning och några mer avancerade transformationer. Forskarna spelade också in en del av dessa redigeringsrecept och applicerade dem automatiskt på andra bilder, vilket tillförde en stor mängd extra "fula" varianter. Detta gav en bred blandning av original, förskönade, förfulade och automatiskt förfulade scener.

Få tusentals människor att rösta med ögonen

Nästa steg var att vända sig till en crowdsourcingplattform inbyggd i ett online-spel och rekrytera fler än tio tusen spelare runt om i världen. Varje bild i MSC-setet visades för hundra olika icke-expertbesökare, som betygsatte dess skönhet på en enkel femgradig skala från mycket ful till mycket vacker. Träningsexempel i extremändarna hjälpte deltagarna att använda hela skalans utbud. Noga kvalitetskontroller tog bort spelare som verkade klicka slumpmässigt. Slutresultatet är en bildsamling där varje scen stöds av en rik betyghistorik, och där fula, genomsnittliga och vackra bilder alla är väl representerade istället för hopklumpade i mitten.

Vad detta avslöjar om skönhet och visuell struktur

Med denna balanserade dataset i handen undersökte teamet hur dussintals grundläggande bildegenskaper—såsom kontrast, färgvariabilitet, kantdensitet, symmetri och fraktal-liknande textur—relaterar till skönhetsbetyg. De fann att när poängen är jämnt utspridda över ful–vacker-spektrat blir sambanden mellan dessa låg-nivåegenskaper och människors omdömen tydligare och ofta starkare. I vissa fall vändes till och med riktningen på relationen jämfört med vad som ses i äldre, partiska databaser. De kontrollerade också om Uglifier skapade en snäv, konstlad typ av fulhet; i stället visade sig de redigerade bilderna dela liknande grundläggande statistik med naturligt lågt värderade original, vilket tyder på att manipulationerna fångade verkliga visuella tendenser snarare än tecknade extremer.

Figure 2
Figure 2.

Varför detta är viktigt för att förstå smak

För en lekmannaläsare är slutsatsen att forskare nu kan studera visuell smak på ett renare sätt. MSC-databasen erbjuder en värld av tysta, mestadels naturliga scener där skönhet och fulhet främst beror på hur saker ser ut, inte på vem eller vad de representerar. Detta gör den till en kraftfull testbädd för psykologi, neurovetenskap och artificiell intelligens-forskning som syftar till att förutsäga estetiska preferenser utifrån bilders struktur ensam. Senare kan mer komplex betydelse och kulturellt sammanhang läggas tillbaka. Genom att börja med bilder som säger väldigt lite och ser mycket olika ut hjälper MSC-projektet att klargöra hur mycket av vår känsla för skönhet som uppstår i ögat innan sinnet lägger till sina berättelser.

Citering: Penacchio, O., Javed, A., Raducanu, B. et al. The Minimum Semantic Content (MSC) Dataset: A Large, Balanced Resource for Computational Aesthetics Research. Sci Data 13, 470 (2026). https://doi.org/10.1038/s41597-026-06816-0

Nyckelord: visuell estetik, bilddatabas, crowdsourcade betyg, beräkningsmässig skönhet, naturliga texturer