Warum das Digitalisieren der »Bunte Bilder« ewig dauerte Andreas Romeyke <[email protected]> 21.3.2015 . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 1 / 32 . Worum geht es? Wie scannen? Wie OCR? Wie nachkorrigieren? . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 2 / 32 . hilfreiche Kenntnisse Scriptsprache der Wahl Grundwissen reguläre Ausdrücke Von imagemagick schon was gehört haben XML, HTML oder LaTeX . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 3 / 32 . So lange? . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 4 / 32 . bevor es losgeht Nutzt Versionsverwaltungen! . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 5 / 32 . bevor es losgeht Nutzt Versionsverwaltungen! Welches Ziel soll verfolgt werden? . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 5 / 32 . bevor es losgeht Nutzt Versionsverwaltungen! Welches Ziel soll verfolgt werden? Rechte . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 5 / 32 . bevor es losgeht Nutzt Versionsverwaltungen! Welches Ziel soll verfolgt werden? Rechte Speicher . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 5 / 32 . Scanauflösung 300dpi? . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 6 / 32 . Scanauflösung 300dpi? kommt auf Buch an . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 6 / 32 . Scanauflösung 300dpi? kommt auf Buch an durchschnittliche Schrift . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 6 / 32 . Scanauflösung 300dpi? kommt auf Buch an durchschnittliche Schrift Fraktur empfindlicher, da kaum unterscheidbare Zeichen . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 6 / 32 . Scanqualität = OCR-Qualität Liegt Buch auf Scanner plan?! Sind Seiten ordentlich ausgerichtet?! . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 7 / 32 . Monochrome oder? Monochrome spart Platz, aber: . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 8 / 32 . Monochrome oder? Monochrome spart Platz, aber: lieber Graustufen . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 8 / 32 . Monochrome oder? Monochrome spart Platz, aber: lieber Graustufen Farbe manchmal . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 8 / 32 . Scans speichern als… nicht JPEG! PNG oder TIFF okay . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 9 / 32 . Entdrehen, entwellen, beschneiden! Preprocessing… ist aufwändig! spart Ärger . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 10 / 32 . Entdrehen, entwellen, beschneiden! Preprocessing… ist aufwändig! spart Ärger ABER: nichts schlägt sauberes Scannen! . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 10 / 32 . Entdrehen, entwellen, beschneiden! Werkzeuge sind… unpaper scantailor http://scantailor.org/ . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 11 / 32 . Binarisierung Empfehlenswert: Sauvola1 Original Scan 1 http://art1pirat.blogspot.de/2013/06/binarisierung.html . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 12 / 32 . Binarisierung Empfehlenswert: Sauvola1 Sauvola global 1 http://art1pirat.blogspot.de/2013/06/binarisierung.html . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 12 / 32 . Binarisierung Empfehlenswert: Sauvola1 Sauvola local 1 http://art1pirat.blogspot.de/2013/06/binarisierung.html . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 12 / 32 . OCR von Text Welche Software? tesseract . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 13 / 32 . OCR von Text Welche Software? tesseract unbrauchbar: gocr, ocropus . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 13 / 32 . OCR von Text Welche Software? tesseract unbrauchbar: gocr, ocropus im Notfall: cuneiform oder kommerzielle . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 13 / 32 . OCR von Text Welche Software? tesseract OCR mit Tesseract #!/bin/bash # calls tesseract foreach PNG-image # and writes into txt/$file.txt for file in *.png; do txt=$(basename $file ".png") tesseract $file txt/$txt -l deu-frak done . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 13 / 32 . OCR-Fehler finden (1) DPCustomMono22 Distributed Proofreader’s Project3 2 3 http://www.pgdp.net/c/faq/DPCustomMono2.ttf . . . . http://www.pgdp.net/c/ . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 14 / 32 . OCR-Fehler finden (2) Scan - Dreierhop eine Seite OCRen . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 15 / 32 . OCR-Fehler finden (2) Scan - Dreierhop eine Seite OCRen diese Seite korrigieren . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 15 / 32 . OCR-Fehler finden (2) Auszug Wörterbuch … Brotbänken Scan - Dreierhop eine Seite OCRen Brote Broten Brotlaib brotloſen diese Seite korrigieren eigenes Wörterbuch ergänzen Brotrechnung Brotſack Brotſchnitte Brotſchätzer Broſchen bruch … . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 15 / 32 . OCR-Fehler finden (3) Script mit RegEx für eigene Fehlerarten, zB.: #!/bin/bash # call it with "script filename" # found wrong word-hyphens at EOL grep "[a-zſß][–—]$" $1 && \ echo -e "#### found '–' as '-' in $1\n" . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 16 / 32 . OCR-Fehler finden (3) Script mit RegEx für eigene Fehlerarten, zB.: #!/bin/bash # call it with "script filename" # found wrong word-hyphens at EOL grep "[a-zſß][–—]$" $1 && \ echo -e "#### found '–' as '-' in $1\n" Wörterbuch Trennmusterprojekt nutzen http://projekte.dante.de/Trennmuster . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 16 / 32 . OCR Ergebnisse verbessern Seite komplett korrigieren, mit verschiedenen Parametern OCRen, vergleichen! . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 17 / 32 . OCR Ergebnisse verbessern Seite komplett korrigieren, mit verschiedenen Parametern OCRen, vergleichen! Debug-Ausgaben nutzen! https://code.google.com/p/ tesseract-ocr/wiki/ViewerDebugging . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 17 / 32 . OCR Ergebnisse verbessern Seite komplett korrigieren, mit verschiedenen Parametern OCRen, vergleichen! Debug-Ausgaben nutzen! https://code.google.com/p/ tesseract-ocr/wiki/ViewerDebugging Wortlisten bereitstellen . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 17 / 32 . OCR Ergebnisse verbessern Seite komplett korrigieren, mit verschiedenen Parametern OCRen, vergleichen! Debug-Ausgaben nutzen! https://code.google.com/p/ tesseract-ocr/wiki/ViewerDebugging Wortlisten bereitstellen Checkliste Gerade gescannt? Auflösung korrekt? verlustfrei gespeichert? Bilder? Ligaturen erkannt? . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 17 / 32 . eigene Fonts trainieren (1) ca. 5-10 Seiten als TIFF scannen 4 http: . . . . . . . . . . . . . . //sourceforge.net/projects/vietocr/files/jTessBoxEditor/ . . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . 21.3.2015 18 / 32 . eigene Fonts trainieren (1) ca. 5-10 Seiten als TIFF scannen #!/bin/bash TESSDATA_PREFIX=./ tesseract -psm 6 -l deu-frak deu-frak.frak2.exp0.tif \ deu-frak.frak2.exp0 batch.nochop makebox 4 http: . . . . . . . . . . . . . . //sourceforge.net/projects/vietocr/files/jTessBoxEditor/ . . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . 21.3.2015 18 / 32 . eigene Fonts trainieren (1) ca. 5-10 Seiten als TIFF scannen #!/bin/bash TESSDATA_PREFIX=./ tesseract -psm 6 -l deu-frak deu-frak.frak2.exp0.tif \ deu-frak.frak2.exp0 batch.nochop makebox mit JTessBoxEditor4 Boxen Zeichen zuweisen 4 http: . . . . . . . . . . . . . . //sourceforge.net/projects/vietocr/files/jTessBoxEditor/ . . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . 21.3.2015 18 / 32 . eigene Fonts trainieren (2) #!/bin/bash TRAINCONFIG=box.train rm -f *.tr *.txt deu-frak.inttemp deu-frak.normproto deu-frak.pffmtable \ deu-frak.shapetable deu-frak.traineddata deu-frak.unicharset pffmtable unicharset for i in $(seq 0 14); do # train standard font tesseract deu-frak.frak2.exp$i.tif deu-frak.frak2.exp$i deu-frak.config $TRAINCONFIG done for i in $(seq 0 0); do # train bold font tesseract deu-frak.frak2bold.exp$i.tif deu-frak.frak2bold.exp$i deu-frak.config $TRAINCONFIG done for i in $(seq 0 0); do # train latin font tesseract deu-frak.frak2latin.exp$i.tif deu-frak.frak2latin.exp$i deu-frak.config $TRAINCONFIG done unicharset_extractor deu-frak.frak2.exp*.box deu-frak.frak2bold.exp*.box \ deu-frak.frak2latin.exp*.box cat unicharset | sed -e "s/^\([æøåäöüâêàèéçßſ][a-z]*\) 0/\1 3/" \ -e "s/^\([ÆØÅÄÖÜÂÊÀÈÉÇ][a-z]*\) 0/\1 5/" \ -e "s/^\([“„„“·§—�]\) 0/\1 10/" -e "s/^� 3 /� 10 /" -e "s/^½ 0/½ 8/" | \ sed -e "s/^\([æøåäöüâêàèéçßa-zÆØÅÄÖÜÂÊÀÈÉÇA-Zſ].*\) NULL /\1 Latin /" \ -e "s/^\([“„„“·§—�–[:punct:][:digit:]].*\) NULL /\1 Common /" \ -e "s/^\(&c .*\) Common /\1 Latin /" > unicharset.edited echo MFTRAINING mftraining -F font_properties -U unicharset.edited -X xheight -O deu-frak.unicharset \ deu-frak.frak2.exp*.tr deu-frak.frak2bold.exp*.tr deu-frak.frak2latin.exp*.tr echo CNTRAINING cntraining deu-frak.frak2.exp*.tr deu-frak.frak2bold.exp*.tr deu-frak.frak2latin.exp*.tr wordlist2dawg ogerman deu-frak.word-dawg deu-frak.unicharset wordlist2dawg ogerman_freqs deu-frak.freq-dawg deu-frak.unicharset wordlist2dawg number deu-frak.number-dawg deu-frak.unicharset wordlist2dawg punc deu-frak.punc-dawg deu-frak.unicharset wordlist2dawg ogerman_bigrams deu-frak.bigram-dawg deu-frak.unicharset mv inttemp deu-frak.inttemp; mv normproto deu-frak.normproto mv shapetable deu-frak.shapetable; mv pffmtable deu-frak.pffmtable combine_tessdata deu-frak. . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 19 / 32 . eigene Fonts nutzen #!/bin/bash # Pfad zu eigenen Trainingsdaten # calls tesseract foreach PPM-image # and writes into txt/$file.txt export TESSDATA_PREFIX=/tmp/Bunte_Bilder_aus_dem_Sachsenlande/ for file in *.png; do txt=$(basename $file ".png") tesseract $file txt/$txt -l deu-frak done Ausführliche Infos zum Training http://art1pirat.blogspot.de/2012/11/selbstversuch-ebook-befreiung-am_22.html http://art1pirat.blogspot.de/2012/12/selbstversuch-ebook-befreiung-am.html http://art1pirat.blogspot.de/2012/12/selbstversuch-ebook-befreiung-am_13.html . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 20 / 32 . semantische Auszeichnung (1) Verschiedene Möglichkeiten: direkte Strukturierung als Ebook in Calibre oder Sigil für Druck als LaTeX für Online als HTML . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 21 / 32 . semantische Auszeichnung (1) Verschiedene Möglichkeiten: direkte Strukturierung als Ebook in Calibre oder Sigil für Druck als LaTeX für Online als HTML oder über Zwischenformat asciidoc docbook XML . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 21 / 32 . semantische Auszeichnung (2) bei Verwendung von Zwischenformaten Basis bleibt korrigierter Volltext . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 22 / 32 . semantische Auszeichnung (2) bei Verwendung von Zwischenformaten Basis bleibt korrigierter Volltext Automatisierung der Erstellung von Ebook, HTML und PDF . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 22 / 32 . semantische Auszeichnung (2) bei Verwendung von Zwischenformaten Basis bleibt korrigierter Volltext Automatisierung der Erstellung von Ebook, HTML und PDF Hinterlegung von Rezepten, die bestimmte Teile automatisch auszeichnen . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 22 / 32 . Zusatznutzen Automation Erstellung von Wortlisten . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 23 / 32 . Zusatznutzen Automation Erstellung von Wortlisten Silbentrennung für Ebooks ( Shy“ über Unicode U+00AD) ” . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 23 / 32 . Zusatznutzen Automation Erstellung von Wortlisten Silbentrennung für Ebooks ( Shy“ über Unicode U+00AD) ” Statistiken . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 23 / 32 . Zusatznutzen Automation Erstellung von Wortlisten Silbentrennung für Ebooks ( Shy“ über Unicode U+00AD) ” Statistiken Volltextsuche . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 23 / 32 . Zusatznutzen Automation Erstellung von Wortlisten Silbentrennung für Ebooks ( Shy“ über Unicode U+00AD) ” Statistiken Volltextsuche Rezepte wiederverwendbar . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 23 / 32 . Umgang mit Bildern Bilder explizit sauber nachscannen wenn nötig nachbearbeiten (Gimp) als PNG speichern, ggf. vektorisieren . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 24 / 32 . Bilder vektorisieren? Idee klang gut, aber: sehr große Dateien Ebook-Reader kommen oft nicht zurecht . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 25 / 32 . Bilder vektorisieren? Bild säubern potrace http://potrace.sourceforge.net/ ist gute Wahl (via EPS) mit inkscape https://inkscape.org/de/ nach SVG 1.1 konvertieren mit SVG-Cleaner https://github.com/RazrFalcon/SVGCleaner verkleinern . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 25 / 32 . Was ich gelernt habe… historische Texte sind mit freier Software digitalisierbar . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 26 / 32 . Was ich gelernt habe… historische Texte sind mit freier Software digitalisierbar der größte Zeitaufwand ist es OCR-Fehler zu finden der zweitgrößte Strukturen auszuzeichnen . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 26 / 32 . Was ich gelernt habe… historische Texte sind mit freier Software digitalisierbar der größte Zeitaufwand ist es OCR-Fehler zu finden der zweitgrößte Strukturen auszuzeichnen mit Tesseract kann man arbeiten . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 26 / 32 . Was ich gelernt habe… historische Texte sind mit freier Software digitalisierbar der größte Zeitaufwand ist es OCR-Fehler zu finden der zweitgrößte Strukturen auszuzeichnen mit Tesseract kann man arbeiten es gibt keinen guten und freien XML-Editor . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 26 / 32 . Was ich gelernt habe… historische Texte sind mit freier Software digitalisierbar der größte Zeitaufwand ist es OCR-Fehler zu finden der zweitgrößte Strukturen auszuzeichnen mit Tesseract kann man arbeiten es gibt keinen guten und freien XML-Editor Ocropus war vielversprechend, aber eine Enttäuschung . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 26 / 32 . Was ich gelernt habe… historische Texte sind mit freier Software digitalisierbar der größte Zeitaufwand ist es OCR-Fehler zu finden der zweitgrößte Strukturen auszuzeichnen mit Tesseract kann man arbeiten es gibt keinen guten und freien XML-Editor Ocropus war vielversprechend, aber eine Enttäuschung EBook-Reader sind beschränkt . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 26 / 32 . Was ich gelernt habe… historische Texte sind mit freier Software digitalisierbar der größte Zeitaufwand ist es OCR-Fehler zu finden der zweitgrößte Strukturen auszuzeichnen mit Tesseract kann man arbeiten es gibt keinen guten und freien XML-Editor Ocropus war vielversprechend, aber eine Enttäuschung EBook-Reader sind beschränkt Vektorizer nicht optimiert für Kupferstiche . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 26 / 32 . Wie sieht es denn nun aus? EBook . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 27 / 32 . Wie sieht es denn nun aus? EBook PDF . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 27 / 32 . Weitere Infos Meine Erfahrungen http://art1pirat.blogspot.de http://andreas-romeyke.de https://github.com/art1pirat Tesseract https://code.google.com/p/tesseract-ocr [noch auf Google] . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 28 / 32 . Weitere Infos Meine Erfahrungen http://art1pirat.blogspot.de http://andreas-romeyke.de https://github.com/art1pirat Tesseract https://code.google.com/p/tesseract-ocr [noch auf Google] Impact OCR http://www.impact-project.eu/ . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 28 / 32 . Weitere Infos Meine Erfahrungen http://art1pirat.blogspot.de http://andreas-romeyke.de https://github.com/art1pirat Tesseract https://code.google.com/p/tesseract-ocr [noch auf Google] Impact OCR http://www.impact-project.eu/ Gutenberg-Project http://www.gutenberg.org/ . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 28 / 32 . Weitere Infos Meine Erfahrungen http://art1pirat.blogspot.de http://andreas-romeyke.de https://github.com/art1pirat Tesseract https://code.google.com/p/tesseract-ocr [noch auf Google] Impact OCR http://www.impact-project.eu/ Gutenberg-Project http://www.gutenberg.org/ Distributed Proofreader’s Project http://www.pgdp.net/c/ . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 28 / 32 . Weitere Infos Meine Erfahrungen http://art1pirat.blogspot.de http://andreas-romeyke.de https://github.com/art1pirat Tesseract https://code.google.com/p/tesseract-ocr [noch auf Google] Impact OCR http://www.impact-project.eu/ Gutenberg-Project http://www.gutenberg.org/ Distributed Proofreader’s Project http://www.pgdp.net/c/ Tesseract als REST-Service https://github.com/tleyden/open-ocr . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 28 / 32 . Zusatz: Verwendete Software SimpleScan https://launchpad.net/simple-scan . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 29 / 32 . Zusatz: Verwendete Software SimpleScan https://launchpad.net/simple-scan scantailor http://scantailor.org/ . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 29 / 32 . Zusatz: Verwendete Software SimpleScan https://launchpad.net/simple-scan scantailor http://scantailor.org/ unpaper https://www.flameeyes.eu/projects/unpaper . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 29 / 32 . Zusatz: Verwendete Software SimpleScan https://launchpad.net/simple-scan scantailor http://scantailor.org/ unpaper https://www.flameeyes.eu/projects/unpaper GIMP und ImageMagick . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 29 / 32 . Zusatz: Verwendete Software SimpleScan https://launchpad.net/simple-scan scantailor http://scantailor.org/ unpaper https://www.flameeyes.eu/projects/unpaper GIMP und ImageMagick Gedit/Gvim mit DPCustomMono2 font http://www.pgdp.net/c/faq/DPCustomMono2.ttf . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 29 / 32 . Zusatz: Verwendete Software SimpleScan https://launchpad.net/simple-scan scantailor http://scantailor.org/ unpaper https://www.flameeyes.eu/projects/unpaper GIMP und ImageMagick Gedit/Gvim mit DPCustomMono2 font http://www.pgdp.net/c/faq/DPCustomMono2.ttf Tesseract https://code.google.com/p/tesseract-ocr . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 29 / 32 . Zusatz: Verwendete Software SimpleScan https://launchpad.net/simple-scan scantailor http://scantailor.org/ unpaper https://www.flameeyes.eu/projects/unpaper GIMP und ImageMagick Gedit/Gvim mit DPCustomMono2 font http://www.pgdp.net/c/faq/DPCustomMono2.ttf Tesseract https://code.google.com/p/tesseract-ocr Perl, Bash, Grep, Sed, … . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 29 / 32 . Zusatz: Verwendete Software SimpleScan https://launchpad.net/simple-scan scantailor http://scantailor.org/ unpaper https://www.flameeyes.eu/projects/unpaper GIMP und ImageMagick Gedit/Gvim mit DPCustomMono2 font http://www.pgdp.net/c/faq/DPCustomMono2.ttf Tesseract https://code.google.com/p/tesseract-ocr Perl, Bash, Grep, Sed, … SVN / GIT . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 29 / 32 . Zusatz: Verwendete Software SimpleScan https://launchpad.net/simple-scan scantailor http://scantailor.org/ unpaper https://www.flameeyes.eu/projects/unpaper GIMP und ImageMagick Gedit/Gvim mit DPCustomMono2 font http://www.pgdp.net/c/faq/DPCustomMono2.ttf Tesseract https://code.google.com/p/tesseract-ocr Perl, Bash, Grep, Sed, … SVN / GIT JTessBoxEditor http://sourceforge.net/projects/vietocr/files/jTessBoxEditor/ . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 29 / 32 . Zusatz: Verwendete Software SimpleScan https://launchpad.net/simple-scan scantailor http://scantailor.org/ unpaper https://www.flameeyes.eu/projects/unpaper GIMP und ImageMagick Gedit/Gvim mit DPCustomMono2 font http://www.pgdp.net/c/faq/DPCustomMono2.ttf Tesseract https://code.google.com/p/tesseract-ocr Perl, Bash, Grep, Sed, … SVN / GIT JTessBoxEditor http://sourceforge.net/projects/vietocr/files/jTessBoxEditor/ potrace http://potrace.sourceforge.net/ . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 29 / 32 . Zusatz: Verwendete Software SimpleScan https://launchpad.net/simple-scan scantailor http://scantailor.org/ unpaper https://www.flameeyes.eu/projects/unpaper GIMP und ImageMagick Gedit/Gvim mit DPCustomMono2 font http://www.pgdp.net/c/faq/DPCustomMono2.ttf Tesseract https://code.google.com/p/tesseract-ocr Perl, Bash, Grep, Sed, … SVN / GIT JTessBoxEditor http://sourceforge.net/projects/vietocr/files/jTessBoxEditor/ potrace http://potrace.sourceforge.net/ inkscape https://inkscape.org/de/ . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 29 / 32 . Zusatz: Verwendete Software SimpleScan https://launchpad.net/simple-scan scantailor http://scantailor.org/ unpaper https://www.flameeyes.eu/projects/unpaper GIMP und ImageMagick Gedit/Gvim mit DPCustomMono2 font http://www.pgdp.net/c/faq/DPCustomMono2.ttf Tesseract https://code.google.com/p/tesseract-ocr Perl, Bash, Grep, Sed, … SVN / GIT JTessBoxEditor http://sourceforge.net/projects/vietocr/files/jTessBoxEditor/ potrace http://potrace.sourceforge.net/ inkscape https://inkscape.org/de/ Asciidoc http://www.methods.co.nz/asciidoc/ . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 29 / 32 . Zusatz: Verwendete Software SimpleScan https://launchpad.net/simple-scan scantailor http://scantailor.org/ unpaper https://www.flameeyes.eu/projects/unpaper GIMP und ImageMagick Gedit/Gvim mit DPCustomMono2 font http://www.pgdp.net/c/faq/DPCustomMono2.ttf Tesseract https://code.google.com/p/tesseract-ocr Perl, Bash, Grep, Sed, … SVN / GIT JTessBoxEditor http://sourceforge.net/projects/vietocr/files/jTessBoxEditor/ potrace http://potrace.sourceforge.net/ inkscape https://inkscape.org/de/ Asciidoc http://www.methods.co.nz/asciidoc/ DocBook http://www.docbook.org/ . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 29 / 32 . Zusatz: Verwendete Software SimpleScan https://launchpad.net/simple-scan scantailor http://scantailor.org/ unpaper https://www.flameeyes.eu/projects/unpaper GIMP und ImageMagick Gedit/Gvim mit DPCustomMono2 font http://www.pgdp.net/c/faq/DPCustomMono2.ttf Tesseract https://code.google.com/p/tesseract-ocr Perl, Bash, Grep, Sed, … SVN / GIT JTessBoxEditor http://sourceforge.net/projects/vietocr/files/jTessBoxEditor/ potrace http://potrace.sourceforge.net/ inkscape https://inkscape.org/de/ Asciidoc http://www.methods.co.nz/asciidoc/ DocBook http://www.docbook.org/ LATEXvia TEXlive https://www.tug.org/texlive/ . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 29 / 32 . Zusatz: Verwendete Software SimpleScan https://launchpad.net/simple-scan scantailor http://scantailor.org/ unpaper https://www.flameeyes.eu/projects/unpaper GIMP und ImageMagick Gedit/Gvim mit DPCustomMono2 font http://www.pgdp.net/c/faq/DPCustomMono2.ttf Tesseract https://code.google.com/p/tesseract-ocr Perl, Bash, Grep, Sed, … SVN / GIT JTessBoxEditor http://sourceforge.net/projects/vietocr/files/jTessBoxEditor/ potrace http://potrace.sourceforge.net/ inkscape https://inkscape.org/de/ Asciidoc http://www.methods.co.nz/asciidoc/ DocBook http://www.docbook.org/ LATEXvia TEXlive https://www.tug.org/texlive/ epubcheck https://github.com/idpf/epubcheck . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 29 / 32 . Zusatz: Verwendete Software SimpleScan https://launchpad.net/simple-scan scantailor http://scantailor.org/ unpaper https://www.flameeyes.eu/projects/unpaper GIMP und ImageMagick Gedit/Gvim mit DPCustomMono2 font http://www.pgdp.net/c/faq/DPCustomMono2.ttf Tesseract https://code.google.com/p/tesseract-ocr Perl, Bash, Grep, Sed, … SVN / GIT JTessBoxEditor http://sourceforge.net/projects/vietocr/files/jTessBoxEditor/ potrace http://potrace.sourceforge.net/ inkscape https://inkscape.org/de/ Asciidoc http://www.methods.co.nz/asciidoc/ DocBook http://www.docbook.org/ LATEXvia TEXlive https://www.tug.org/texlive/ epubcheck https://github.com/idpf/epubcheck calibre http://calibre-ebook.com/ . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 29 / 32 . Zusatz: RegEx für römische Ziffern #!/bin/perl -w # find roman numbers # ex: "Konrad I.", "Hadrian IV." "Johann Georgs III." # a roman number only if follows a string and a space, and is followed # not by a string # my $roman_regex="(?<=[a-zſ] )((I{1,3})|(I{0,2}[VX]I{0,3}))(?![A-Za-zäöÜÄÖÜßſ])"; my $rstring = reverse $_; # 'foobar' =~ /(?<!fo+)bar/ # 'raboof' =~ /rab(?!o+f)/ # thanks to http://oylenshpeegul.typepad.com/blog/2011/12/ # variable-length-look-behind-in-regular-expressions.html my $roman_revregex=qr{ (?<![IVXa-zſßäöü])( #lookbehind (I{1,3})| # I ... III (I{1,3}V)| # VI ... VIII (VI{0,1})| # IV ... V (XI{0,1})| # IX .. X (I{1,3}X)| # XI .. XIII (VI{0,1}X)| # XIV ... XV (I{1,3}VX)| # XVI ... XVIII (XX) # XX )(?=\ )(?![^\[\]]*\[) # lookahead }x; $rstring=~s#$roman_revregex#\]$1\[rebmun::namor#mgx; $_ = reverse $rstring; . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 30 / 32 . Zusatz: unpaper zum Auftrennen Doppelseiten #!/bin/bash unpaper --layout double -op 2 -mw 30,30 -dn left,right,top,bottom \ -dr 5 ppm/img%03d.ppm ppm_single/img%03d.ppm . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 31 / 32 . Zusatz: Bilder vektorisieren #!/bin/sh cd img for i in *.png; do out=$(basename $i ".png").svg; echo $i; ~/projects/monochrome_filter_for_copper_engraving/copper_filter $i test.png nice convert test.png -monochrome test.bmp nice potrace -o test.eps -b eps -r 600 -t 0 --progress test.bmp nice inkscape -z -l=test.svg test.eps nice ~/Downloads/svg-cleaner/bin/svgcleaner-cli test.svg $out rm -f test.bmp; rm -f test.png; rm -f test.eps; rm -f test.svg gzip -9 $out; done cd .. . . . . . . . . . . . . . . Andreas Romeyke <[email protected]> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte . . . . . . . . . . . . . . . . . . . . . . . . . 21.3.2015 32 / 32 .
© Copyright 2024