|
Alternativen
zu Soundex
Q -gram basiertes Algorithmus
Q-gram in diesem Kontext bedeutet die
q-Länge, die Sequenz der Buchstaben vom Wort. Beispiel: das
Wort Nelson, wenn q = 2, hat die folgende q-grams: NE EL LS SO ON
Für den Vergleich wird das Wort Neilsen
in folgende q-grams geteilt:
NE EI IL LS SE EN
Es ist klar, dass Nelson und Neilsen die gleichen
q-grams haben: NE und LS
Es gibt verschiedene Verfahren, die in q-gram geteilten Wörter
zu vergleichen. Z.B. kann es auf der Zahl des q-grams basieren, die
zwei Wörter gemeinsam haben. Je höher die Zahl des
q-grams desto stärker der Matsch.
Der auf q-gram basierte Algorithmus bringt keine strenge phonetische
Entsprechung. Unter q-grams kann man die Distanz oder die Anzahl der
Unterschiede zwischen Wörtern verstehen.
Da die phonetisch gleiche Wörter die gleiche
Rechtsschreibenprüfung haben, kann man mit diesem Verfahren
gute Ergebnisse für Wörter mit orthographischen
Fehler bekommen.
|
|
Metaphone
Double
Metaphone
Caverphone
Q-Gram
NYSIIS
|