Die Datei habe ich zuvor aus Word als Html gespeichert. Irgendwie werden aber Sonderzeichen nicht korrekt eingelesen. So wird z.B. „ (Anführungszeichen unten) in der Html Datei noch korrekt angezeigt. In dem String nach dem Einlesen leider nicht.
Kann mir jemand sagen, wie ich das korrekt einlesen kann?
Ich habe keine Ahnung, in welcher Kodierung Word das HTML speichert. .NET verwendet standardmäßig UTF-8. Vielleicht geht es, wenn Du beim Einlesen eine andere (z.B. die Ansi-Kodierung) verwendest?
@Matthias: Ich habe probeweise mit Word 2010 mal ein HTML-Dok. erzeugt. Der Zeichensatz war nirgends erwähnt. Oder habe ich ihn einfach übersehen? Ich bin kein HTML-Spezialist ;-)
Also ist das Encoding Windows-1252, zu erhalten über
System.Text.Encoding.GetEncoding("Windows-1252");
oder auch (jedenfalls mit meinem Setup) über
Encoding.Default;
Möglicherweise (ich spekuliere jetzt) verwendet Office sogar immer den Zeichensatz, den Encoding.Default zurückgibt - dann ergäbe das sogar eine windows-sprach-unabhängige Lösung, solange die HTML-Datei auf dem gleichen Rechner erzeugt wurde.