Clear Sky Science · sv

Hallucination-aware learning and latency optimization transformer (HALL-OPT) för realtids intelligens i periferin

· Tillbaka till index

Varför snabbare, mer pålitlig AI spelar roll

Vardagliga enheter blir tyst allt smartare, från fabriksensorer och sjukhusmonitorer till bilar och hushållsapparater. Många av dessa system förlitar sig på språkmodeller – samma typ av AI som ligger bakom moderna chattbottar – för att tolka instruktioner, svara på frågor eller sammanfatta rapporter. Men två problem ställer till det: dessa modeller är långsamma och energikrävande, och de kan ibland "hallucinera" övertygande men falska påståenden. Denna artikel introducerar HALL-OPT, en omdesign av transformer‑baserade språkmodeller som syftar till att göra dem både snabbare och mer tillförlitliga så att de säkert kan köras på små, strömsnåla enheter i periferin istället för i avlägsna datacenter.

Figure 1
Figure 1.

Utmaningen med smarta enheter i periferin

De mest högpresterande språkmodellerna finns i molnet, där de kan utnyttja stora mängder beräkningskraft. Det gör dem svåra att använda där snabba beslut är avgörande och nätverksuppkopplingar är opålitliga eller kostsamma, till exempel i självkörande fordon, industrirobotar eller medicinsk utrustning vid sängen. När sådana system skickar data till molnet och väntar på svar kan fördröjningar på bara några hundra millisekunder vara oacceptabla. Samtidigt reagerar lättare modeller som får plats på enheter i periferin ofta snabbare men är mer benägna att hitta på fakta eller misstolka information. Studien visar att detta skapar en avvägning: låg hallucinationsfrekvens följer ofta med hög fördröjning, medan låg fördröjning ofta innebär fler hallucinationer, vilket lämnar ett gap för verkligt pålitlig, realtidsintelligens i periferin.

En enhetlig design istället för separata lösningar

Existerande forskning behandlar vanligen tillförlitlighet och effektivitet som två skilda mål. Vissa metoder fokuserar på att upptäcka hallucinationer genom att kontrollera svar mot externa databaser eller köra flera genomgångar av modellen, vilket ökar både tid och energianvändning. Andra metoder krymper modeller genom beskärning, kvantisering eller kunskapsdestillering, vilket gör dem snabbare men ibland mindre exakta och mindre pålitliga. HALL-OPT går en annan väg: den väver in hallucinationsmedvetenhet direkt i modellens inre mekanismer och använder samma information för att avgöra vad som ska beräknas och vad som kan hoppas över. Istället för att lägga till extra kontroller eller blint trimma nätverket samordnar den både tillförlitlighet och hastighet i ett enda ramverk anpassat för perifer hårdvara.

Hur systemet filtrerar bort riskfyllt innehåll

I hjärtat av HALL-OPT finns en hallucinationsmedveten attention‑modul som övervakar hur modellen sprider sitt fokus över ord och hur säker den är i sina förutsägelser. När attention är spridd, säkerheten låg eller ett tokens betydelse kolliderar med omgivande kontext, ges tokenet en högre "risk"‑poäng. En tvåströmsdetektor flaggar sedan dessa riskfyllda delar som potentiella hallucinationer. Modellen använder dessa signaler för att driva en dynamisk beskärningsfas: tokens som både har låg nytta och hög risk tas bort, medan viktiga, pålitliga tokens behålls. Detta minskar antalet element modellen måste bearbeta i varje lager och skär ner den tunga, kvadratiska kostnaden för attention utan att förlora textens kärnmening.

Packa en stor modell i en liten, effektiv en

För att få kraftfullt beteende i ett mindre paket använder HALL-OPT kunskapsdestillering, där en stor "lärare"‑modell tränar en kompakt "student"‑modell. Till skillnad från standarddestillering lär sig studenten inte bara att efterlikna lärarens svar utan också att efterlikna dess känsla för när utsagor sannolikt är felaktiga. Ytterligare träning uppmuntrar studenten att undvika överdrivet självsäkra, hallucinationsbenägna förutsägelser. Slutligen förbereder ett periferoptimeringslager modellen för aritmetik med låg precision genom att omvandla vikterna till 8‑bitars värden och omstrukturera beräkningar för att passa riktiga periferienheter som NVIDIA Jetson‑kort och Googles Coral TPU. Denna kombination bevarar större delen av ursprunglig noggrannhet samtidigt som minnesanvändning, energiförbrukning och svarstid minskas kraftigt.

Figure 2
Figure 2.

Verklig påverkan på hastighet, energi och säkerhet

Tester på två krävande benchmarks – en för frågesvar med luriga, obesvarbara frågor och en annan för nyhetssammanfattning – visar att HALL-OPT upptäcker hallucinationer med ungefär 94 % noggrannhet och behåller uppgiftsresultat nära en standard BERT‑modell. Samtidigt minskar den inferenstiden med ungefär två tredjedelar och reducerar energianvändningen med cirka 40 % eller mer i genomsnitt över realistiska arbetsbelastningar. På periferienheter svarar den ofta på under 50 millisekunder och använder avsevärt mindre minne. Belastningstester över många plattformar och industriliknande scenarier, från smarta fabriker till vårdmonitorer, bekräftar att systemet håller förutsägbar timing och en fördelaktig "inferences per watt"‑nivå, vilket gör det lämpligt för kontinuerlig, realtidsanvändning.

Vad detta betyder för vardaglig AI

För icke‑specialister är huvudbudskapet att vi inte behöver välja mellan snabb AI och pålitlig AI på små enheter. Genom att lära modellen att känna igen sina egna svaga punkter och låta den medvetenheten styra hur mycket den beräknar levererar HALL-OPT svar som både är snabba och mindre benägna att vara fabricerade. Det gör den till en lovande stomme för framtida periferapplikationer där felaktiga svar eller långsamma reaktioner kan få allvarliga konsekvenser, såsom att styra ett fordon, kontrollera industriell utrustning eller flagga kritiska förändringar i en patients tillstånd.

Citering: Algawiaz, D. Hallucination-aware learning and latency optimization transformer (HALL-OPT) for real-time edge intelligence. Sci Rep 16, 12245 (2026). https://doi.org/10.1038/s41598-026-42981-3

Nyckelord: edge AI, hallucination detection, transformer models, real-time inference, energy-efficient computing