Inhaltsähnlichkeit

Die "Heat Map" identifiziert die "hot spots"

Das neuronale Netzwerk bietet ein gut fundiertes Ähnlichkeitsmass, das auf Informations-theoretischen Prinzipien basiert und den inhaltlichen Vergleich von Dokumenten ermöglicht.

Die Nähe der Dokumente im Inhaltsraum impliziert einen hohen Grad an Ähnlichkeit (und umgekehrt). Mathematisch ist das Ähnlichkeitsmass das gewichtete Skalarprodukt der beiden Dokument-Vektoren im Inhaltsraum, korrigiert mit der Kullback-Leibler Distanz von den Hauptthemas, und ergänzt mit der gewichteten Score-Summe aus den übereinstimmenden Schlüsselbegriffen und ihren Knotenpunkten in der Taxonomiestruktur.

Das patentierte Ähnlichkeitsmass ist unabhängig von der Sprache des Textes und hängt nur schwach vom genauen Wortlaut der Texte ab. Dies erlaubt es InfoCodex, Dokumentenfamilien zu erkennen, sprich: inhaltsähnliche Dokumente, die praktisch den gleichen Inhalt haben, jedoch nicht unbedingt dieselben Wörter/Begriffe verwenden. Dies umschreibt auch den grundlegenden Prozess, mit dem automatisch Übersichten erstellt werden.

Das Ähnlichkeitsmass ist eine solide Grundlage für




Semantische- und Ähnlichkeitssuche
Abstract-Generierung
Visualisierung
Datenschutz/Sicherheit
Semantic Web
Kundennutzen
Semantische Maschine
Verteilte Datenquellen
Sprachübergreifende Textanalyse
Inhaltserkennung und Kategorisierung
Inhalts-Ähnlichkeit