| 

.NET C# Java Javascript Exception

4
Hi,
ich soll ein Programm entwickeln welches Bilder(gescannte Dokumente im Tiff Format) in ein searchable pdf-Dokument umwandelt. Zusätzlich soll es auch bereits existierende pdf-Dateien searchable (also ocr) machen.

Leider kann ich dafür keine passenden opensource (Codebeispiele oder SDKs finden). Wichtig ist jedoch das es NICHTS kosten darf und ich es in mein C# Programm benutzen kann.

Alle Bibliotheken die ich bisher gefunden hatte, hatten entweder nicht die Funktionalität die ich brauche oder kosteten was.

Habt ihr da ne Idee/Links oder so?
News:
14.06.2013
Todeshügel 11 2
1 Antwort
0
OCR
Wenn Du sowieso schon TIF's vorliegen hast, kann ich Dir wärmstens Tesseract-OCR von Google ans Herz legen.

Bzw. gibt es einen funktionsfähigen .NET-Port davon, auf Github

Wenn Du nach Tesseract .NET googlest, findest Du weitere Projekte, aber ich war nicht in der Lage die DLL zuverlässig anzusprechen. Das Github-Projekt scheint auch noch gepflegt zu werden. Der Zugriff über DOS-Befehle auf das Original von Google funktioniert aber so oder so zuverlässig.

Ein TIF direkt in eine suchbare PDF umzuwandeln halte ich für schwer möglich, zumindest mit Open-Source-Programmen. Falls Du das mal etwas finden solltest, wäre das nett, wenn Du es hier posten könntest. Aber Tesseract gibt Dir immerhin nach 2-6 Sekunden den Klartext zurück, und unterstützt auch mehrere Sprachen. Nur leider musst Du die Sprache vor dem Scan selbst angeben, sonst kommt da kryptisches Zeug bei raus.

PDF-Volltextsuche
Bereits existierende PDF kannst Du mit entweder per IFilter-Interface parsen, oder evtl über diesen Link hier. Letzterer ist ungetestet, gerade gefunden.

IFilter, das wird übrigens auch von der Windows-Explorer-Volltextsuche benutzt, funktioniert bei etlichen Dateitypen, wie z.B. auch Word, Excel etc. Bei PDF kann das recht zickig sein insbesondere bei Konflikten mit x32 x64, aber da würde eine Detailsuche in Google helfen.

Using IFilter in C#
Implementing a TextReader to extract various files contents using IFilter

Da ich mal davon ausgehe, dass Dir alle Links helfen, zumal ich mich damit selbst einige Wochen beschäftigt habe, wäre es schön, wenn Du die Antwort nach Prüfung mit dem Haken bestätigen würdest. (Natürlich nur, falls sie Dir geholfen hat) ;-)
14.06.2013
Jens Duczmal 2,6k 1 3 9
Ich habe es versucht mit dem Tesseract bin aber irgendwie gescheitert.
Aber der erste Teil wird auch nicht mehr benötigt - die Vorgaben haben sich geändert.

Aber ich glaube du hast nicht ganz verstanden was ich brauche. Diese Programme von deinen Links [u]extrahieren[/u] den Text. Das ist aber nicht das was ich möchte. Ich bekomme irgendwoher PDFs. Diese enthalten Bilder und Text. Da der Ursprung eine gescannte Datei war kann man in der PDF nicht einfach STRG+F drücken, z.b. das Wort "Einleitung" suchen und er markiert mir jetzt die Suchergebnisse zu diesem Wort - Also eine searchable PDF
Todeshügel 18.06.2013

Stelle deine .net-Frage jetzt!