| 

.NET C# Java Javascript Exception

3
Für die Suche nach PDF-Dokumenten verwende ich Lucene.

Gelegentlich fehlen bei neu indizierten PDF-Dokumente Leerzeichen zwischen Wörtern (z.B. "dasThema" oder "konkreterWerkzeugeundTechnologien"). Diese Wörter sind nicht auswertbar und der Index enthält viele ungültige Einträge.

Um die betroffenen Dokumente automatisiert von der Indizierung auszunehmen, möchte ich diese anhand eines einfachen Algorithmus erkennen. Ein PDF-Dokument welches zu viele ungültige Einträge enthält (z.B. aaZa - 2-x Zeichen klein, danach 1-x großes, danach 1-x kleine) soll nicht indiziert werden.

Mit welchem Regex-Ausdruck o.ä. kann ich diese Einträge erkennnen und wann ist das am performantesten: nach dem Parsen oder während der Indizierung, bei der sowieso mehrere Analyzer/Tokenizer ausgeführt werden?
News:
28.11.2011
philipp 167 1 7
philipp 167 1 7
1 Antwort
1
Moin Philipp,

ist vielleicht dieses Pattern was für dich?

[a-z]{2,}[A-Z]{1}[a-z]*

Gruß Karl
28.11.2011
Karl 958 1 8
Ja, danke.
philipp 28.11.2011

Stelle deine Pdf-Frage jetzt!