Spengler

Digitale Publikationsprozesse

  
  

Semantic Web & Content Enrichment

Der Trend im Web ist angesichts der zunehmenden Informationsflut die Anreicherung der Inhalte, damit Suchergebnisse qualifizierter und besser werden. Dies geschieht durch das Hinzufügen von Metadaten und durch Gewichtung, Filterung, Strukturierung, Kategorisierung, Verknüpfung von Dokumenten. Dabei spielen eine Reihe von XML-basierten Standards wie z.B. RDF eine Rolle sowie die Nutzung von Taxonomien / Ontologien / Topic Maps etc. Content Enrichment ist aber nicht nur nützlich für Webanwendungen, sondern auch für die Verbesserungen aller möglichen Publikationen und Informationsdienste.
 
Hat man Inhalte bereits mit Hilfe von XML oder SGML strukturiert, ist es natürlich wesentlich einfacher, Auswertungen und Anreicherungen vorzunehmen. Aber auch andere Formate (HTML, Text, etc.) können unter Anwendung der richtigen Methoden und Tools effizient angereichert werden.
 
Beispiele aus einigen Projekten:
  • Automatische Verschlagwortung, Worthäufigkeitbestimmung unter Berücksichtigung der Dokumentstruktur (Worte in Titeln sind wichtiger, bestimmte Elemente werden ausgeklammert)
  • Analyse: Was wird am häufigsten zitiert (z.B. Literatur, Gesetze, etc.). Entscheidungsgrundlage für Zukauf von Inhalten und Kooperationen
  • Bestehende Verknüpfungen zwischen Dokumenten nutzen, um automatisiert andere Dokumentbestände zu verlinken, z.B. gilt die redaktionell durchgeführte Verschlagwortung eines Dokuments unter bestimmten Bedinungen auch für die damit verknüpften Dokumente
  • Automatisierte Anreicherung von "flachen" Texten mit Semantik mit anschliessender Konvertierung nach XML/SGML
  • Bestimmte Bezeichnungen normieren wie Gerichtsnamen, Gesetzesnamen, etc. zur Optimierung der Suche (siehe auch: Qualitätssicherung)
  • Fundstellen, Zitierungen analysieren für automatische Verlinkung (siehe auch:Querverweisprogramm)
  • Verzeichnisse generieren oder aus mehreren Produkten zusammenführen, z.B. Stichwortverzeichnisse, Abkürzungsverzeichnisse
 
Marion Spengler hat insbesondere während ihres Studiums der Information und Dokumentation (FH Darmstadt) und bei ihrer Arbeit in der Forschungseinrichtung Fraunhofer-Institut IPSI (damals noch GMD) umfangreiche Kenntnisse der Methoden zur Textanalyse, Anreicherung, automatischen Verschlagwortung, Datenmanagement, Klassifikation, Wissensnetze, etc. erworben und ausgebaut. In diversen Kunden-Projekten wurden je nach Anforderung unterschiedliche Tools entwickelt oder genutzt. Auch einfache Mittel können dabei hilfreich sein: Selbst Microsoft Excel ist beispielsweise gut geeignet, um XML Daten direkt zu importieren und Übersichten zu erstellen.
 
>Beratung, was sinnvoll und machbar ist, Analyse der Datenbasis
>Entwicklung von einfachen, aber wirkungsvollen Tools bzw. Verwendung und Anpassung bereits entwickelter Tools
>Unterstützung bei Systemanalyse und -auswahl
>Aufzeigen von Maßnahmen zur semantischen Anreicherung von Webapplikationen
>Anreicherung von Daten nach beliebigen Vorgaben mit beliebigen Formaten
>Unterstützung beim Aufbau von Wissensnetzen/Taxonomien
>Entwicklung von Konzepten und Tools für Rubrizierung und Verschlagwortung
 
 
Wikipedia: Semantisches Web
Analysis 2009: Semantics continues to not be RDF, but enrichment, classification and taxonomy
W3C Semantic Web Activity
Youtube: Tim Berners Lee on the Semantic Web
 
 
 
 
"Sometimes the only thing more dangerous than the question is an answer" (Ferengi Erwerbsregel #208)