Extraktion von Tabellen aus htm-Dateien

Wer im Internet recherchiert, wird früher oder später Tabellen finden, die er gerne in seine Recherche-Ergebnisse aufnehmen will. Das Übernehmen solcher Bestandteile einer Internetseite geschieht im Allgemeinen über die Zwischenablage (Clipboard) und einem Schreibprogramm oder dem Textsammler-Programm das von dieser Homepage (www.angersoft.de) runtergeladen werden kann.

Die eben beschriebenen Methoden eignen sich für fortlaufende Texte einer Internetseite. Dabei ist das Textsammler-Programm genau zu diesem Zweck erstellt worden, es arbeitet im Hintergrund und erspart das Aktivieren und Einfügen. Das Ergebnis des Textsammlerprogramms ist eine Ansi-Datei.

Bei der Anwendung des Textsammler-Programms hat sich herausgestellt, dass die Aufbereitung von Tabellen einer Internetseite zu unübersichtlichen Darstellungen führt.

Aus diesem Grund habe ich für die Aufbereitung von Tabellen ein weiteres Programm erstellt, das die Bedürfnisse der Tabellenaufbereitung besser berücksichtigt: Die Tabellenzeilen bleiben erhalten, ein Zeilenumbruch wird erst am Ende einer neuen Tabellenzeile eingeleitet.

Dieses Programm heißt htmtab_a, es bereitet die angwählte Internetseite in diesem Sinne auf und stellt die Tabellen der Internetseite in die Ausgabedatei "tab.txt"

Weitere Einzelheiten befinden sich in der Datei "htmtab_a.zip". Diese Datei enthält die Programmbeschreibung "htmtabdok_a.txt" und das Programm "htmtab_a.exe"

Hier     Programm htmtab_a

Eine Weiterentwicklung ist das Programm htmtab_c. In diesem Programm werden überflüssige Blanks bei der Aufbereitung entfernt, und die Zeilen einer Tabellen sind in der Ausgabe durch Bindestrichzeilen voneinander getrennt. Die Datei "htmtab_c.zip" enthält die Programmbeschreibung "htmtabdok_c.txt" und das Programm "htmtab_c.exe"

Hier     Programm htmtab_c