Clear Sky Science · sv

Övervakning av jordbruksomgivning och objektigenkänning baserat på optimerade YOLO och SSD-upplägg med kombinerade visuella och termiska bilder

· Tillbaka till index

Smartare ögon för säkrare lantbruksmaskiner

Moderna traktorer och skördemaskiner blir större, snabbare och mer automatiserade, vilket väcker en enkel men allvarlig fråga: hur säkerställer man att de inte träffar människor, djur eller andra maskiner som döljs i damm, dimma eller mörker? Denna artikel beskriver ett praktiskt säkerhetssystem som ger lantbruksmaskiner en sorts ”superseende” genom att kombinera vanliga videokameror och värmekameror, och jämför sedan olika artificiella intelligensupplägg för att avgöra vilka som kan upptäcka risker mest precist och snabbt.

Varför lantbruksarbete behöver bättre syn

Jordbruket är idag starkt beroende av stora, kraftfulla maskiner som arbetar långa pass, ofta på natten eller i dåligt väder. En enkel videokamera kan hjälpa föraren att se runt en traktor, men vanliga bilder sviker när det är dimma, regn, starkt bländande ljus eller mörker. Termiska kameror, som ser värme snarare än ljus, fungerar väl i dessa svåra förhållanden och gör varma kroppar—människor och djur—tydligt synliga mot bakgrunden. Författarna menar att en kombination av båda bildtyperna är det bästa sättet att bygga ett prisvärt varningssystem som kan eftermonteras på befintlig utrustning och integreras med standardpaneler i traktorer.

Hur de dubbla och enade systemen fungerar

Forskarteamet monterade en kombinerad RGB-(färg) och termisk kamerakombination på en traktortak och skickade båda bildströmarna till en lågkostnadsprocesssenhet i hytten. De undersökte två huvudsakliga sätt att använda artificiell intelligens för att upptäcka objekt i dessa bilder. I det första, ”dubbelnätverks”-angreppet, tränades ett neuralt nätverk endast på normala bilder och ett annat endast på termiska bilder; deras resultat slogs sedan samman. I det andra, ”enade”-angreppet, justerades de två bilderna noggrant, staplades ihop och fördes in i ett enda nätverk som lärde sig från båda samtidigt. Båda designen implementerades med en familj snabba objektidentifieringsmodeller kända som YOLOv8 och med en alternativ design kallad SSD, anpassad för små inbyggda datorer.

Figure 1
Figure 1.

Att bygga och träna maskinens fältseende

För att lära nätverken vad de skulle leta efter satte forskarna ihop en stor datamängd från offentliga bildbibliotek och egna kamerainspelningar. Bilderna täckte människor, vilda och tama djur, traktorer, skördemaskiner, lastbilar, bussar och andra lantbruksmaskiner, i både synligt och termiskt utförande. Varje objekt omgärdades av en handritad ruta och fick en etikett, och bilderna förstärktes därefter—speglades, roterades eller lätt suddades—för att efterlikna den variation som ses på fältet. Datan delades upp i tränings-, validerings- och testuppsättningar så att nätverken kunde lära på en del och bedömas rättvist på bilder de aldrig sett tidigare. Särskild omsorg ägnades åt att mäta inte bara ren noggrannhet utan också hur många beräkningsoperationer och hur många bildrutor per sekund varje modell krävde, eftersom varje verkligt traktorsystem måste köras snabbt och pålitligt i fält.

Vilka digitala ögon presterade bäst?

Över tusentals testbilder upptäckte alla YOLOv8-upplägg de flesta mål mycket väl, särskilt stora lantbruksmaskiner och varmblodiga djur. Den enade modellen som tog in både RGB- och termiska data i en enda ström nådde ett totalt resultat (mean average precision) på cirka 0,90, något före dubbelnätverkslösningen på 0,88. Med andra ord gav fusionen av båda syntyperna i ett enda nätverk en liten men verklig prestandaförbättring utan att göra systemet mer komplicerat att använda. De största vinsterna från termisk avbildning syntes för människor och djur i dåligt ljus, medan vanliga bilder fortfarande var bättre för detaljrika former som traktorer. När teamet bytte ut YOLOv8 mot sin strömlinjeformade SSD-modell sjönk prestandan märkbart för de flesta klasser, även om SSD tränade mycket snabbare. YOLOv8, särskilt dess minsta ”Nano”-version, levererade högre noggrannhet samtidigt som den uppnådde realtidshastigheter på omkring 27 bildrutor per sekund på modest hårdvara.

Figure 2
Figure 2.

Att göra AI-upptäckter till enkla varningar

I stället för att överväldiga föraren med videoströmmar omvandlar systemet upptäckter till en enkel instrumentvyn som följer en vanlig traktor-kommunikationsstandard (ISOBUS). På en enkel grön panel visar ikoner om en människa, ett djur eller ett fordon befinner sig framför maskinen, tillsammans med avstånd, riktning och hur säker systemet är. Detta avskalade gränssnitt kan köras på befintliga operatörsterminaler och är utformat för tuffa lantbruksförhållanden, med skyddade kameror, stabiliserade fästen samt planerad damm- och temperaturkontroll i framtida versioner.

Vad detta betyder för vardagligt jordbruk

För en icke-specialist är slutsatsen att ge traktorer ”två sorters ögon” och en välvald AI-hjärna kan avsevärt förbättra säkerheten utan att kräva exotisk hårdvara. Ett enda, noggrant justerat YOLOv8-nätverk som blandar normala och termiska vyer erbjuder den bästa kombinationen av noggrannhet, hastighet och enkelhet bland de testade alternativen och överträffade tydligt SSD-designen. Även om systemet fortfarande har svårigheter att känna igen människor i alla situationer—delvis för att det fanns färre exempel på dem i träningsdatan—visar studien att praktiska, kamerabaserade varningssystem för lantbruksmaskiner både är genomförbara och nära att vara fältklara. Med mer balanserad data och förfinade fusionsmetoder skulle framtida versioner kunna hjälpa till att förebygga olyckor, skydda djurlivet och göra storskaligt jordbruk säkrare för alla i och runt fältet.

Citering: Tarasiuk, K., Mystkowski, A., Ostaszewski, M. et al. Agriculture surrounding monitoring and object identification based on optimized you only look once and single shot multibox detector setups using combined vision and thermal images. Sci Rep 16, 5129 (2026). https://doi.org/10.1038/s41598-026-36181-2

Nyckelord: jordbrukssäkerhet, termisk avbildning, datorseende, objektigenkänning, YOLOv8