Das neuronale Netzwerk bietet ein gut
fundiertes Ähnlichkeitsmass, das auf Informations-theoretischen
Prinzipien basiert und den inhaltlichen Vergleich von Dokumenten ermöglicht.
Die Nähe der Dokumente im Inhaltsraum impliziert einen hohen
Grad an Ähnlichkeit (und umgekehrt). Mathematisch ist das Ähnlichkeitsmass
das gewichtete Skalarprodukt der beiden Dokument-Vektoren im Inhaltsraum,
korrigiert mit der Kullback-Leibler Distanz von den Hauptthemas, und
ergänzt mit der gewichteten Score-Summe aus den übereinstimmenden Schlüsselbegriffen
und ihren Knotenpunkten in der Taxonomiestruktur.
Das patentierte Ähnlichkeitsmass ist unabhängig von der Sprache
des Textes und hängt nur schwach vom genauen Wortlaut der Texte ab.
Dies erlaubt es InfoCodex, Dokumentenfamilien zu erkennen, sprich: inhaltsähnliche
Dokumente, die praktisch den gleichen Inhalt haben, jedoch nicht unbedingt
dieselben Wörter/Begriffe verwenden. Dies umschreibt auch den grundlegenden
Prozess, mit dem automatisch Übersichten
erstellt werden.
Das Ähnlichkeitsmass ist eine solide Grundlage für