Limburger Zeitung

Deutsche und europäische Nachrichten, Analysen, Meinungen und aktuelle Nachrichten des deutschen internationalen Senders.

IngridKG: Ein fairer Graffiti-Wissensgraph

IngridKG: Ein fairer Graffiti-Wissensgraph

unser Wissensgraph, IngridKG, verfügbar im Open Science Portal Zenodo3. Derzeit ist ZenodoDas Repository spiegelt die im SPARQL-Endpunkt enthaltenen Daten wider (https://graffiti.data.dice-research.org/sparql/) und in unserem Datendump (https://hobbitdata.informatik.uni-leipzig.de/INGRID). Insbesondere schließen wir die öffentliche Version von ein IngridKG mit Graffiti-Ressourcen und zugehörigen Linkinformationen, Dateiontologie, Metadatensatzdaten, ausgedrückt in einheitlichen VoID-Vokabularen, Ähnlichkeitswerten zwischen verschiedenen Graffiti-Ressourcen in Form einheitlicher Daten und öffentlich verfügbaren Graffiti-Bildern. Darüber hinaus stellen wir eine README-Datei mit einer kurzen Beschreibung jeder Datei im Repository zur Verfügung. In Tabelle 2 listen wir die auf Z verfügbaren Dateien aufenodo3 zusammen mit seinen Beschreibungen. In diesem Abschnitt beginnen wir mit einer Beschreibung Gebäude In unserer Ontologie stellen wir jede ihrer Klassen, Namensräume und Datenmodelle vor. Anschließend führen wir Verfahren zur Verknüpfung von Wissensgraphen ein. Abschließend erläutern wir detailliert, wie wir den Prozess zur Erstellung von Wissensgraphen automatisieren können.

Tabelle 2 ist eine Liste der Dateien auf unserer Z-Websiteenodo Speichern.

Unser Knowledge Graph-Erstellungsprozess ist in implementiert Python 3,6 mit RDFLib 5.0.0 (https://github.com/RDFLib/rdflib). Wir machen unseren Quellcode öffentlich zugänglich (https://github.com/dice-group/Ingrid) garantieren Reproduzierbarkeit Aus unseren Erkenntnissen und der schnellen Konvertierung neuer Versionen von Graffiti-Datenbanken. Wir stellen einige Statistiken zur wachsenden Größe von zur Verfügung IngridDie Kindergartenressourcen im Zeitverlauf sind in Tabelle 4 dargestellt.

Technische Details finden Sie in Tabelle 3 Ingridkg.
Tabelle 4 IngridKG-Statistiken.

Ontologie-Design

Die Ontologie hinter dem Knowledge Graph wurde aus der Quelle abgeleitet, aus der es stammt, nämlich der Graffiti-Bildanmerkungsdatenbank. Die Ontologie soll Suche, Beantwortung von Fragen und maschinelles Lernen ermöglichen.

Im Rahmen unseres laufenden Geschäfts Verfeinern Sie die Ontologie Arbeit, wir haben Fälle gerochen Besatzung Klasse in Spray-Crew-KlasseEs ist der Grund für das Verschwinden Besatzung Trennungsfälle und steigende Instanzenzahlen Spritztrupp Klasse ab Version 05.07.22. Darüber hinaus haben wir hinzugefügt Gruppe Klasse in der gleichen Version Abb. 2.

Foto 2

RDF-Namespaces

Um die Wiederverwendung unseres Knowledge Graph zu erleichtern, stellen wir unsere Daten in Vokabularien und weit verbreiteten Namensräumen dar, wie in Abbildung 3 dargestellt.

Feige. 3
Figur 3

Liste aller in einer Sprache verwendeten Vokabeln Ingridkg.

RDF-Datenmodell

Abbildung 4 zeigt die wichtigen Kategorien (z. B. Graffiti, Crew, Crew, Person, Bilddatei, Stadt) sowie die Prädikate (z. B. Graffiti-Standort, Bildunterschrift und Text im Graffiti).

Figur 4
Figur 4

UML-Klassendiagramm einer Datei IngridKG-Ontologie.

Graffiti

Wir repräsentieren Graffiti als Beispiel für Klasse grfo: Graffiti. Jedes Graffiti-Beispiel enthält Informationen über die Quelle, den Inhalt, den Ersteller und den Kommentator des Graffiti. Wichtige Attribute im Zusammenhang mit Graffiti-Inhalten sind Text, Zeichentyp, Sprache, Farbe, Thema, Textrichtung, Trägermedium und Kontext. Für jede Zeichnung speichern wir sie Quellenangaben. Insbesondere die Verwendung des Prädikats Grfo: auf Lagererwähnen wir ausdrücklich den Originalbestand, aus dem die Graffiti-Rohbilddatei stammt. IngridKG ermöglicht auch Verweise auf die ursprünglichen Bildmetadateien sowie auf den Ort und die Zeit, wo/wann das Bild aufgenommen wurde. Darüber hinaus speichern wir den Zeitpunkt, zu dem wir die Ressource kommentieren. Unsere generierten URIs Graffiti Ressourcen folgen dem Format https://graffiti.data.dice-research.org/resource/graffitiId Dabei ist graffitiId die eindeutige Kennung für jedes darin enthaltene Graffiti Ingridkg. Das Originalbild der in Abbildung 5 dargestellten Graffiti-Ressource wurde beispielsweise am 19.08.2017 um 13:42:16 Uhr aus einer Bestandsaufnahme erstellt Stadtarchiv München, Sammlung Kreuzer Und die letzte Fotoillustrationsarbeit fand am 2022-06 von 14:00 bis 15:32:327 Uhr morgens statt.

Abbildung 5
Abbildung 5

Beispiel einer Graffiti-Ressource.

Gruppe

Alle Schriften in IngridKG ist mit der Gruppe verbunden, aus der es stammt. Es gibt fünf verschiedene Gruppentypen: (1) die Polizeidirektion Mannheim, (2) die Polizeidirektion München, (3) die Polizeidirektion Köln, (4) die Dirk Krickel-Gruppe und (5) die Peter-Kreuzer-Gruppe .

Siehe auch  Wiederholung eines seltenen Gendefekts in einem Fischmodell

Fußnote

Unsere Anmerkungen sind in dargestellt FOAF (http://xmlns.com/foaf/spec/ http://xmlns.com/foaf/spec/) Wortschatz. Insbesondere geben wir den Vor-, Mittel- und Nachnamen jedes Demo-Hosts sowie die Postanschrift und das Institut an. Jede Graffiti-Instanz ist mit einer eigenen Erläuterung versehen grfo: hasAnnotator Das Prädikat (wie in Abbildung 4 dargestellt). Aus Datenschutzgründen können wir keine Beispiele für Anmerkungsressourcen bereitstellen. (Beachten Sie, dass dies der einzige Teil unseres Knowledge Graph ist, der aus Datenschutzgründen nicht öffentlich zugänglich ist.)

Besatzung

Jedes Graffiti ist mit den Crews verknüpft, die Sie angetroffen haben grfo: hasGraffitiSprayerCrew Prädikate. Jede Besatzungsinstanz enthält Informationen zum Besatzungsnamen in Kurz- und Langform, zu den Mitgliedern und etwaigen räumlichen Notizen. Jede Crew ist außerdem über mit ihrem eigenen Demo-Host verbunden grfo: hasAnnotator aktiv. In Abbildung 6 geben wir ein Beispiel für eine Crew-Ressource.

Abbildung 6
Abbildung 6

Ein Beispiel für eine Besatzungsdarstellung.

Mannschaftsmitglieder

Jede Besatzung besteht aus einem oder mehreren Besatzungsmitgliedern. Daher speichern wir die den Besatzungsmitgliedern entsprechenden Informationen als Beispielklasse grfo: Besatzungsmitglied. Insbesondere speichern wir für jedes Besatzungsmitglied seinen Namen, Namensvarianten, Abkürzungen und Notizen. In Abbildung 7 finden Sie ein Beispiel für eine Rook-Mitgliedsressource.

Abbildung 7
Abbildung 7

Beispiel eines Besatzungsmitglieds.

Bilddateien.

Zu jedem Graffiti hinterlegen wir Original-Bilddateien in verschiedenen Qualitäten und Größen. alle grfo: Bilddatei Das Beispiel umfasst die Höhe, Breite, das Seitenverhältnis, die Erweiterung und den URI der Bilddatei.

Verknüpfung

Wir verknüpfen unseren Datensatz mit anderen Datenquellen, um die Wiederverwendbarkeit und Integrität sicherzustellen und seine Verwendung für Suche, Beantwortung von Fragen und strukturiertes maschinelles Lernen zu verbessern. Wir erstellen Links von unseren Graffiti-Ressourcen zu relevanten öffentlich zugänglichen Wissensdatenbanken. Bei unserem Verlinkungsprozess setzen wir auf Limes4 Da es sich um ein modernes Framework zur Metalink-Erkennung mit einer Open-Source-Anwendung handelt, das einfach übernommen und konfiguriert werden kann. Wir haben für jede Bindungsaufgabe manuell eine Limes-Konfigurationsdatei erstellt. Alle Limes Konfigurationsaufgaben sind auf der Projektwebsite verfügbar (https://github.com/dice-group/Ingrid).

Siehe auch  Das SOFIA Flying Telescope der NASA wird jährlich gewartet

Graffiti-Haken

Wir verbinden IngridKG-Ressourcen vom Typ grfo: Graffiti ZueingefärbtGeoDRan einer Geben Sie Ressourcen ein lgdo: bauen. Insbesondere konfigurieren wir Limes einen Link deklarieren (z. B. sbeo: befindet sich unter), wenn der Stadtname und der Straßenname grfo: Graffiti und das lgdo: bauen verwenden Jacquard Mindestens 90 % Ähnlichkeit. Nach der gleichen Methode binden wir auch unsere Typressourcen grfo: Graffiti ZueingefärbtGeoDRan einer Geben Sie Ressourcen ein lgdo: HighwayThing.

Städte verbinden

Jede Graffiti-Ressource in unserem Datensatz (z. B. vom Typ grfo: Graffiti), die mit einer Stadtressource (beliebiger Typ) verknüpft ist grfo: Stadt) unter Verwendung des Prädikats sbeo: befindet sich unter Wie in Abbildung 4 dargestellt. Wir verbinden grfo: Stadt Ressourcen aus IngridKG bis LeingefärbtGeoDRan einer Knowledge Graph verwenden Eule: gleich Prädikate. Insbesondere verknüpfen wir Ressourcentypen grfo: Stadt Von unserem Knowledge Graph bis hin zu Typquellen lgdo: Stadt aus Linkedeo-Daten Datensatz. Insbesondere konfigurieren wir Limes so, dass eine Übereinstimmung angekündigt wird, sobald sie erscheint Levinstein Ähnlichkeiten zwischen RDFS-Dateien: Dateibenennung grfo: Stadt Ressource von IngridKG und LGDO: die Stadtressource von L.eingefärbtGeoDRan einer über 90 %. Auf ähnliche Weise verknüpfen wir eine Datei IngridKG Resources a grfo: Stadt für DBpedia Geben Sie Ressourcen ein dbo: Standort. Wir konfigurieren Limes so, dass ein Link einmalig angekündigt wird Jacquard Ähnlichkeiten zwischen rdfs: Etikett Zu grfo: Stadt Ressourcen und a dbo: Standort Die Ressource liegt über 60 %. Schließlich haben wir unsere grfo:City-Ressource mit der Ressource in W verknüpft.ikiDRan einer von einer Art wd: Q183. Zum Beispiel Limes Entdecken Sie 208.942 sbeo: befindet sich unter Verbindungen zwischen IngridKG und Linkedeo-Datenund 65 Eule: gleich Verbindungen zwischen IngridKG und WikiData.

Siehe auch  "Wir müssen den geimpften Menschen ihre individuellen Freiheiten zurückgeben."

Postleitzahlen verbinden

Wir verbinden beide Graffiti mit der Postleitzahl, die als bekannt ist Linkedeo-Daten Exakt passende Websites lgdo: zip Via Prädikat sbeo: gelegen bei. Da Graffiti in Deutschland zu finden sind und Postleitzahlen weltweit nicht eindeutig sind, haben wir Limes so konfiguriert, dass Postleitzahlen auf die in Deutschland beschränkt sind (d. h. Postleitzahlen, die von verwaltet werden). Verbreiten Sie den Beitrag).

Verknüpfen Sie doppelte und nahezu doppelte Bilder

Wir haben jede Graffiti-Ressource in unserem Knowledge Graph mit allen ihren Duplikaten und Beinahe-Duplikaten verknüpft. Nahezu doppelte Bilder von Graffiti werden im Allgemeinen dadurch gefunden, dass man seine Graffiti aus unterschiedlichen Perspektiven, Entfernungen und Lichtverhältnissen mit unterschiedlichen Auflösungen aufnimmt. Insbesondere haben wir das Prädikat verwendet grfo:nearDuplicate Um jede Graffiti-Ressource mit ihren doppelten und nahezu doppelten Ressourcen zu verknüpfen. Zum Beispiel können wir Abbildung 8 sehen, die die Quelle des Graffiti angibt grfr: 64681 Hat nahezu doppelte Ressourcen Grfr: 51855. Technisch gesehen haben wir zuerst a verwendet Python Vertreibung imagededup5 Um alle Bilder zu kodieren. Dann verwendeten wir die DHash-Bildkopiertechnologie (https://github.com/idealo/imagedup), um unsere Experimente zur Beinahe-Duplikation durchzuführen.

Abbildung 8
Abbildung 8

Beispiel für doppelte Ressourcen in der Nähe grfr: 64681.