Die linguistische Datenbank von InfoCodex enthält mehr als drei
Millionen klassifizierter Wörter/Phrasen, die mit einer umfassenden Taxonomie
(Ontologie) verknüpft sind. Dies bildet die Grundlage für sprachübergreifende
Inhaltserkennung ("den Inhalt eines Dokuments verstehen") und für automatische
Kategorisierung der Dokumente durch eine selbst-organisierende neuronale
Netzwerktechnologie ("Einordnen der Dokumente in logisch aufgebaute Bücherregale").
Vor allem die linguistische Datenbank ermöglicht es InfoCodex,
Dokumentinhalte zu verstehen und die Dokumente ohne aufwendiges Training
zu kategorisieren.
Wie wird die linguistische Datenbank aktualisiert?
Die linguistische Datenbank von InfoCodex basiert auf etwa hundert
wichtigen Quellen wie dem WordNet der Princeton University, dem EuroVoc der
Europäischen Union oder dem AgriVoc der Vereinten Nationen. Aus diesen Quellen
wird es ständig aktualisiert. Ebenso wird die linguistische Datenbank laufend
mit Namen neuer Prominenter und neue Markennamen erweitert.
Können Nutzer ihre individuellen Begriffe und ihren Thesaurus hinzufügen?
Ja, dies funktioniert sehr gut. Ein deutscher Hersteller von elektronischen
Komponenten integriert beispielsweise eine strukturierte Stückliste mit 50.000
Artikeln als vorgelagerte linguistische Datenbank. Diese vorgelagerte Datenbank
hat Vorrang gegenüber der Standarddatenbank von InfoCodex.
Dennoch ist in den meisten Fällen weder ein spezielles Vokabular noch
ein Thesaurus erforderlich. Eine Ergänzung mit einem Thesaurus mit 8.000 Wörten
ist bei InfoCodex keine Verbesserung von Null auf 8.000 Begriffe, sondern nur eine
Steigerung von den bereits vorliegenden 3.100.000 Wörten/Phrasen auf 3.108.000,
was einer Zunahme von weniger als 0,3 % entspricht.