Clear Sky Science · de
DIVE: Ein Multi-Label-Datensatz zu Schwachstellen in Smart Contracts
Warum sichere digitale Verträge wichtig sind
Jeden Tag fließen Milliarden von Dollar durch „Smart Contracts“ – Codeabschnitte, die auf Blockchains wie Ethereum automatisch Vereinbarungen ausführen. Wenn diese digitalen Vereinbarungen versteckte Fehler enthalten, können die Folgen gravierend sein: eingefrorene Gelder, gestohlene Vermögenswerte und ein Vertrauensverlust in neue Finanzsysteme. Dieser Artikel stellt DIVE vor, einen großen, sorgfältig erstellten Datensatz, der Forschern dabei hilft, Schwachstellen in Smart Contracts zuverlässiger zu finden und zu verstehen, sodass die digitalen Vereinbarungen, die Kryptowährungen und dezentrale Anwendungen stützen, für alle sicherer werden können.

Wie digitale Verträge entstehen und sich verändern
Smart Contracts durchlaufen in ihrem Lebenszyklus mehrere Stadien. Sie beginnen als lesbarer Quellcode, den Entwickler schreiben, werden dann in maschinenfreundliche Anweisungen kompiliert und in einer Bereitstellungs-Transaktion an die Blockchain gesendet. Nach der Bestätigung erhält ein Contract eine dauerhafte Adresse und sein Code wird unveränderlich, doch sein interner Zustand kann sich weiterhin ändern, wenn Nutzer mit ihm interagieren. Während dieses Prozesses treten verschiedene Arten von Daten auf – Quellcode, Bytecode, Einstellungen und Transaktionsaufzeichnungen –, die alle Hinweise auf mögliche Fehler enthalten. DIVE ist um diese Sicht auf den Lebenszyklus herum aufgebaut und sammelt Merkmale sowohl vor der Bereitstellung (Code und Konfiguration) als auch danach (On-Chain-Verhalten), um ein umfassenderes Bild jedes Vertrags zu liefern.
Warum ältere Datensätze nicht ausreichten
Frühere Sammlungen von Smart Contracts haben Machine-Learning-Ansätze zur Erkennung von Schwachstellen angestoßen, wiesen aber erhebliche Einschränkungen auf. Viele enthielten nur kleine Vertragsmengen, konzentrierten sich auf ein enges Zeitfenster oder bestimmte Compiler-Versionen oder erfassten nur eine Art von Daten, etwa Quellcode oder Bytecode, aber nicht beides. Manche gingen davon aus, dass pro Vertrag nur ein Schwachstellentyp auftreten könne, obwohl reale Contracts häufig mehrere Probleme gleichzeitig enthalten. Labels waren nicht immer konsistent, weil verschiedene Studien unterschiedliche Benennungsschemata verwendeten und sich auf ein oder zwei Tools ohne gemeinsamen Standard stützten. All dies erschwerte den Vergleich von Ergebnissen zwischen Publikationen und das Entwickeln von Detektoren, die über eine einzelne Studie hinaus verallgemeinerbar sind.
Woraus der DIVE-Datensatz besteht
DIVE vereint 22.330 echte Ethereum-Contracts, die zwischen 2016 und 2024 bereitgestellt wurden und die wichtigsten Versionen der Programmiersprache Solidity abdecken. Jeder Vertrag wird durch Hunderte von Merkmalen beschrieben. Vor der Bereitstellung erfasst DIVE Angaben wie Compiler-Version, Optimierungs-Einstellungen, Nutzung externer Bibliotheken, die Struktur der öffentlichen Schnittstelle (Funktionen und Events), Messwerte zur Code-Komplexität und Muster in den niedrigstufigen Anweisungen, mit denen der Contract erstellt wurde. Nach der Bereitstellung ergänzt es Informationen aus der Launch-Transaktion – Gasverbrauch, gesendeter Wert, Zeitpunkt und Position innerhalb des Blocks – sowie Anweisungspatterns aus dem Laufzeitcode des Contracts. Diese doppelte Perspektive ermöglicht es Forschern, zu untersuchen, wie Codierentscheidungen und On-Chain-Verhalten beide mit der Sicherheit zusammenhängen.
Wie Schwachstellen identifiziert werden
Um zu entscheiden, welche Contracts verwundbar sind, verlässt sich DIVE nicht auf ein einzelnes Tool oder eine einfache Mehrheitsabstimmung. Stattdessen werden sechs verschiedene Analysetools ausgeführt, jeweils mit eigenen Stärken, und ihre Ergebnisse durch ein standardisiertes Framework geführt. Die Tool-Ausgaben werden auf acht bekannte Kategorien aus der DASP-Top-10-Liste abgebildet, etwa Reentrancy-Fehler, defekte Zugriffssteuerung, arithmetische Fehler, Denial-of-Service-Risiken, schlechte Zufallsquellen, Front-Running, Zeitmanipulation und ungeprüfte Low-Level-Aufrufe. Ein „power-basiertes“ Abstimmungsverfahren entscheidet dann, kategorieweise, wie sehr jedem Tool vertraut werden soll. Darüber hinaus prüft ein zweiter Validierungsschritt, ob das gemeldete Problem tatsächlich durch den Code des Vertrags gestützt wird – etwa indem bestätigt wird, dass ein angeblicher arithmetischer Fehler nicht bereits durch moderne Compiler-Prüfungen oder Sicherheitsbibliotheken abgesichert ist. Diese zusätzliche Überprüfung entfernt viele Fehlalarme, insbesondere bei Denial-of-Service- und zeitbezogenen Warnungen.

Wozu diese Ressource genutzt werden kann
Da DIVE Multi-Label-Informationen bietet, kann ein einzelner Contract mit mehreren Schwachstellentypen gekennzeichnet werden, was widerspiegelt, wie Fehler in der Praxis gehäuft auftreten und miteinander interagieren. Der Datensatz unterstützt ein breites Spektrum an Studien: binäre und mehrklassige Klassifikation, Multi-Label- und Multi-Task-Learning, Transfer-Learning über Compiler-Versionen oder Jahre hinweg sowie Experimente, die den Wert von Vor-Deployment- gegenüber Nach-Deployment-Informationen vergleichen. Er dokumentiert auch, wie häufig verschiedene Schwachstellen zusammen auftreten und zeigt, dass einige, wie Reentrancy- und Zugriffssteuerungsprobleme, tendenziell gemeinsam vorkommen, während andere seltener und isolierter sind. Diese Muster fördern fortgeschrittene Lernmethoden, die Beziehungen zwischen Fehlertypen modellieren, statt jeden einzeln zu behandeln.
Was das für Alltagsnutzer bedeutet
Für die meisten Menschen sind Smart Contracts unsichtbare Infrastruktur hinter Handels-Apps, Spielen, Kreditplattformen und anderen Blockchain-Diensten. Der DIVE-Datensatz behebt Schwachstellen nicht direkt, bietet aber die detaillierten, gut gelabelten Daten, die nötig sind, um leistungsfähigere Erkennungswerkzeuge zu trainieren und fair zu testen. Diese Werkzeuge können Entwicklern helfen, Probleme früher zu entdecken, und Auditoren dabei unterstützen, ihre Prüfungen zu priorisieren. Da das Framework offen ist und für neue Contracts im Laufe der Zeit erneut ausgeführt werden kann, bietet DIVE eine lebendige Grundlage zur Verbesserung der Sicherheit digitaler Vereinbarungen – wodurch das Risiko verringert wird, dass Alltagsnutzer durch versteckte Fehler im Code geschädigt werden, auf den sie angewiesen sind.
Zitation: Alsunaidi, S.J., Aljamaan, H. & Hammoudeh, M. DIVE: A Multi-Label Smart Contract Vulnerability Dataset. Sci Data 13, 664 (2026). https://doi.org/10.1038/s41597-026-07025-5
Schlüsselwörter: Sicherheit von Smart Contracts, Ethereum, Blockchain-Schwachstellen, Machine-Learning-Datensatz, DASP Top 10