- Project Runeberg -  About Project Runeberg /
Så scannar vi

Table of Contents / Innehåll | << Previous | Next >>
  Project Runeberg | Like | Catalog | Recent Changes | Donate | Comments? |   

Så scannar vi

De här bilderna visar hur vi gör när vi scannar böcker i Projekt Runeberg. Ibland när vi har en väldigt sällsynt bok, är vi lite mer försiktiga, men för det mesta är vi så här rationella och osentimentala. Vi vill varna för att bilderna kan vara upprörande för känsliga bokälskare!

De här tio bilderna visar inscanningen av en förstautgåva av August Strindbergs drama Till Damaskus från 1898. För mer information om verket, se Projekt Runebergs färdiga faksimilutgåva.

Klicka på bilderna för att se förstoringar.

Den här boken hittade vi på Rönnells Antikvariat på Birger Jarlsgatan 32 i Stockholm. Den är på 336 sidor och kostade bara 125 kronor, trots att det är ett mycket välbevarat exemplar. Att scanna den och göra en elektronisk faksimilutgåva tar cirka två timmar, vilket skulle kosta mellan 2 och 10 kronor per sida (672 till 3360 kronor för hela boken) om arbetet vore avlönat. Själva inköpet av boken är alltså en liten del av kostnadsbilden.

Det här exemplaret är utgivet av C. & E. Gernandts förlag och tryckåret är 1898. Libris anger att förstautgåvan kommer från Beijer, vilket är lite märkligt, men vi gör så gott vi har förstånd och scannar det vi har.

För att kunna scanna rationellt, skär vi sönder boken och gör den till en bunt lösblad. Först lossas bokblocket från ryggen.

Sedan tas bandet isär. Eftersom det här är en bok i oktavformat, är varje häfte 16 sidor (8 blad).

Den vikta ryggen klipps bort i en skärmaskin. Den har ett stöd som ser till att alla sidorna klipps till lika bredd. I det här fallet 5,75 tum (146 mm).

Resultatet är en snygg bunt lösblad, som vi tar till scannern.

Scannern som används här är en Fujitsu ScanPartner 600 C, som kan scanna i svartvitt, gråskala eller färg upp till 600 dpi (dots per inch, punkter per tum) äkta upplösning (ej interpolerat). Den är några år gammal, men tjänar väl sitt syfte. Den räknas till mellanklassen och kostade cirka 12.000 kronor. Seriösa produktionsscanners kostar ofta 50.000 kronor eller mer. Internetrevolutionen de senaste åren har skapat en ny marknad för hemmascanners som kostar runt tusenlappen, men de har sällan matare eller tillräckligt hög upplösning. I den här mellanklassen gör Fujitsu de bästa scannrarna, men tyvärr har de ingen bra importör i Sverige, så det är bättre att köpa på postorder direkt från USA.

För faksimilutgåvorna scannar vi alltid i svartvitt 600 dpi. Programmet som styr scannern finns tyvärr bara för Microsoft Windows, så vi tvingas köra detta operativsystem för just den här uppgiften.

Programmet sparar varje bild i en egen fil i formatet TIFF-G4, och ser till att filerna namnges automatiskt. Först scannas alla högersidor med udda sidnummer: 0001.tif, 0003.tif, 0005.tif, o.s.v. Sedan vänder man på bunten och scannar vänstersidorna med jämna nummer i omvänd ordning: 0336.tif, 0334.tif, 0332.tif, ... ända ner till 0002.tif.

Alla 336 bildfilerna blev tillsammans 9,6 megabyte. Det betyder att det ryms tio sådana här böcker på en Iomega ZIP-diskett (100 megabyte) eller 65 böcker på en CDROM (650 megabyte).

De 336 bildfilerna kan nu matas till ett program för maskinell teckentolkning (OCR - Optical Character Recognition), men i just det här fallet hade Projekt Runeberg redan en textversion av Till Damaskus. OCR-programmet kan arbeta ostört på en hel bunt bildfiler och skapa en ny textfil för varje sida. Resultatet görs sedan till en färdig webbpresentation med Projekt Runebergs egna program. Hela förfarandet beskrivs i uppsatsen Project Runeberg's Electronic Facsimile Editions of Nordic Literature.

Läs den färdiga texten ur Till Damaskus.


Project Runeberg, Thu Dec 20 03:34:57 2012 (aronsson) (diff) (history) (download) << Previous Next >>
http://runeberg.org/admin/snuff.html

Valid HTML 4.0! All our files are DRM-free