Kan du hjälpa Projekt Runeberg med scanning av böcker? Det är inte så svårt som det låter. Du behöver:
- en bok (helst flera) och
- en scanner (bildläsare) kopplad till din dator.
Ungefär de här stegen beskriver hur det går till:
Valet av bok
Valet av bok kan vara nog så krångligt. Där gäller det främst att ta hänsyn till upphovsrätt?en, men också till valet av förlaga, både vad gäller utgåva och exemplar. Se sidan förlaga.
Valet av scanner
För att kunna scanna en bok måste du naturligtvis ha tillgång till en scanner. Vilken scanner man ska välja är till stor del en fråga om hur effektivt man vill kunna arbeta och hur mycket man är beredd att betala. Se sidan scanner.
Hur man scannar
Projekt Runeberg vill numera göra en [digital faksimilutgåva]? av varje bok, vilket betyder att man scannar och sparar bilder i hög upplösning av varje boksida. Så länge det handlar om svartvita textsidor föredrar vi formatet svartvit TIFF G4 i upplösningen 600 dpi (600 bildpunkter per tum). Det låter som en hög upplösning, men tack vare att den inlästa bilden bara innehåller svarta och vita punkter (inga grå, inga färgade), blir filen effektivt komprimerad och inte speciellt stor. Bildformatet TIFF är egentligen flera olika format, men G4 är en specialvariant för just sådana här svartvita bilder av textsidor. Fördelen med den höga upplösningen är att det går att göra utskrifter med full detaljrikedom. Om boksidorna innehåller fotografier eller illustrationer i färg eller gråton, så vill vi dessutom ha en färgbild av dessa boksidor. Då brukar vi använda formatet JPEG i 300 dpi (inte TIFF).
TIFF-formatet erbjuder möjligheten att spara flera bilder i samma fil ("multipage file"), men vi brukar inte använda detta eftersom de resulterande filerna blir ohanterligt stora.
Det är viktigt att fånga varje sida i boken, även titelsidan, försättssidor, planscher och blanka sidor. Vanligen namnges filerna med löpnummer, t.ex. 0001.tif, 0002.tif, 0003.tif, och så vidare. Om boken består av flera band, görs en ny filkatalog för varje band. Löpnumren är helt fristående från sidnumreringen. Sidnumreringen kan ju variera, ibland vara helt ologisk eller rentav saknas. Som regel är alla udda löpnummer (0001, 0003, 0005) högersidor (recto) och alla jämna nummer vänstersidor (verso).
När bildfilerna är inscannade, är det svåra jobbet avklarat. Nu gäller det att ladda upp filerna till Projekt Runebergs webbplats, och för detta använder man http://runeberg.org/upload.pl (vid problem, kontakta redaktionen på adressen redaktion@runeberg.org). Resten av arbetet kan därefter göras av någon på andra sidan jordklotet, så länge de har tillgång till Internet.
Efter scanning
När faksimilbilderna finns hos Projekt Runeberg återstår några viktiga steg i arbetet. Där kan vi också behöva hjälp, men det behöver inte vara samma person som har scannat boken.
- Paginering?, att kartlägga vilken inscannad fil (0001, 0002, 0003) som motsvarar vilken sidnumrering (i, ii, iii, blank, 1, 2, 3, 4).
- Indexering, att kartlägga vilket kapitel, avsnitt eller artikel i boken som omfattar vilka sidor (Förord, 1-5; Inledning 5-8).
- Texttolkning som på maskinell väg framställer en redigerbar textfil ur varje faksimilsida.
- Korrekturläsning av den maskinellt tolkade texten. Detta görs över webben och är öppet för alla. Här ligger den största arbetsbördan.
- Uppmärkning? och sammanslagning av korrekturlästa sidor till kapitel, försedda med kursiveringar, rubrikstilar o.s.v.
Möjliga problem vid inscanningen
Följande inscannade sidor eller verk är för ljusa och måste scannas om
- Hela verket - bemadikt
- Hela verket - Samlade dikter (1867-1869) av Frans Michaël Franzén
- Två helt trasiga faksimilbilder mellan sid 146 och 147 (en plansch?) i 6:e bandet av Sveriges historia: [artikeln] i sverhist (6)
- Visas ej: [artikeln] i sverhist (6)
- Konstigt veck: [artikeln] i sverhist (8)
- Väldigt vridna och deformerade: [artikeln] i sverhist (9), [artikeln] i sverhist (9)
- Väldigt vridna och deformerade: [artikeln] i sverhist (9) och omgivande
Följande sidor har illustrationer som syns dåligt i den inscannade bilden.
Följande verk lider av att den sidmatande scannern slirar, vilket får till effekt att enstaka horisontella linjer dubbleras:
Se även