Session abstract:
Die Analyse ist eine der zentralen Stellen in Solr, damit eine Suche erfolgreich wird. Wie Texte gesplittet und weiterverarbeitet werden, hat direkten Einfluss auf
die Qualität und die Menge der gefundenen Dokumente. In vielen Projekten sind wir an die Grenzen der bestehenden Implementierungen der Tokenizer und TokenFilter gestoßen, so dass wir für unsere Kunden eigene Komponenten implementiert haben. Hierfür hat uns JFlex oft wertvolle Dienste geleistet. JFlex ist ein Framework, das die Möglichkeit bietet, aus einer formalen Beschreibung, einen Text in seine Einzelteile zu zerlegen, eine Grammatik zu erstellen. Diese kann dann in einer Solr Analyseketteeingebunden werden. In dieser Präsentation werden wir live einen Tokenizer entwickeln. Hierzu werden wir das Grundgerüst für JFlex vorstellen und eine eigene Grammatik spezifizieren. Iterativ wird dieser Tokenizer bzw. die Grammatik verfeinert bis das gewünschte Ergebnis erzielt wird.
Am Ende der Präsentation wird der fertige Tokenizer live demonstriert.