[Start]   Projekt Runebergs Wiki - vi hjälps åt att reda ut begreppen!
Indexering
Wiki | Senaste nytt | Inställningar | Sök: | NE | Susning.nu | Wikipedia | Google
Indexering är ett steg i Projekt Runebergs process för digitalisering av litteratur. Indexering innebär att man upprättar en innehållsförteckning för ett verk (eller en volym), det vill säga en tabell som kopplar kapitel- eller artikelnamn till inscannade sidor. Det finns några olika sätt att indexera och några olika saker att tänka på.

Ända sedan Projekt Runeberg 1994 lade fast strukturen för sina webbsidor, har varje verk och volym haft en egen filkatalog och startsidan inom verket har haft en innehållsförteckning som länkar till de olika kapitlen. Startsidan heter index.html men detta filnamn syns inte alltid i URL:en, eftersom det räcker att avsluta med snedstreck (/) efter filkatalogens namn. Ett tydligt exempel är Nils Holgerssons underbara resa, vars startsida nås på http://runeberg.org/nilsholg/ men som också kan nås som http://runeberg.org/nilsholg/index.html

Att varje kapitel görs till en egen webbsida underlättar läsningen av ett kapitel i taget och gör det också möjligt för andra webbplatser att länka direkt till ett enskilt kapitel. Denna struktur är dock ingen naturlag. Flera e-textprojekt på nätet publicerar hela boken som en enda lång webbsida. Inom en så lång sida får man söka och scrolla sig fram. Inom Projekt Runeberg gjorde vi dock bedömningen att ett kapitel är en lagom enhet att göra en webbsida av. Detta kräver att man vet var gränserna mellan kapitlen går och att verkets startsida innehåller en innehållsförteckning.

Nästa steg togs 1998 när de digitala faksimilutgåvorna infördes i Projekt Runeberg. Faksimilbilderna är såpass stora (cirka 50 -- 200 kilobyte) att det blir ohanterligt med dagens teknik att ha mer än en boksida per webbsida. I stället blir det naturligt att göra en webbsida för varje boksida. Sekvensen (ordningsföljden) av boksidor är en struktur, som kan existera sida vid sida om sekvensen av kapitel. Men att skapa en webbsida med den färdigredigerade och uppmärkta texten för ett helt kapitel är meningsfullt först när hela texten är korrekturläst. Och vi publicerar ju faksimilutgåvan innan texten är fullt korrekturläst.

                          Sekvensen (följden) av kapitel
 +-------------+      +---------------+      +---------------+      +---------------+
 |             |------|   Kapitel 1   |------|   Kapitel 2   |------|   Kapitel 3   |
 |             |      +---------------+      +---------------+      +---------------+
 |  Verkets    |         |           |       /       |       \       |        |
 |  startsida  |         |           |      /        |        \      |        |
 |             |      +--------+   +--------+   +---------+   +--------+   +--------+
 |             |------| Sida 1 |---| Sida 2 |---| Plansch |---| Sida 3 |---| Sida 4 |
 +-------------+      +--------+   +--------+   +---------+   +--------+   +--------+
                          Sekvensen (följden) av faksimilsidor

                       << Föregående << Previous -- Next >> Nästa >>

Avvägningarna och principerna för de digitala faksimilutgåvorna redovisas i uppsatsen [Project Runeberg's Electronic Facsimile Editions of Nordic Literature], från maj 1999. Grundläggande i den metod vi använder är skapandet av de två textfilerna Pages.lst och Articles.lst. Pages.lst kopplar de inscannade sidornas filnamn (löpnummer från scannern) till pagineringen (som kan vara oregelbunden). Articles.lst kopplar de inscannade sidorna (ej pagineringen) till kapitelrubriker och i förekommande fall även till filnamn för kapitelfiler.

  Pages.lst :   0001 | Sida 1         Articles.lst:    k1 | Kapitel 1 | 0001-0002
                0002 | Sida 2                          k2 | Kapitel 2 | 0002-0004
                0003 | Plansch                         k3 | Kapitel 3 | 0004-0005
                0004 | Sida 3
                0005 | Sida 4

Articles.lst är ett format med vissa brister, som säkert behöver förbättras någon gång i framtiden. Exempelvis anges bara rubriken för varje kapitel, och om man vill indikera författare, språk och datum för varje artikel så finns det inga separat fält för detta, utan allting får lov att rymmas i rubrikfältet. Syftet har varit att med begränsad ansträngning få ett användbart resultat. I ett längre (hundraårigt) perspektiv kanske hela Projekt Runeberg bara är en prototyp. De principer som skapades 1998 har fungerat bra i fem år och kommer kanske att göra det i fem år till.

Något år in i det nya millenniet påbörjades på allvar inscanningen av Nordisk familjebok, det hittills största verket som Projekt Runeberg digitaliserat. Dess båda första utgåvor omfattar inte bara 45.000 sidor, utan dessa sidor innehåller också i medeltal 7 uppslagsord per sida. Att upprätta en fullständig innehållsförteckning över de uppskattningsvis 300.000 artiklarna är ett enormt åtagande. I november 2004 finns 153.000 artiklar indexerade och indexeringen omfattar mer än hälften av alla sidor som ingår. Det är emellertid många "jobbiga" sidor med många små artiklar som återstår att indexera. Vi fokuserar på indexering av uggleupplagan (38 band, 1904-1926) och denna aktivitet har fått en egen wiki-sida. Indexeringen har underlättats genom införandet av ett mellanformat, som i det här fallet kopplar spaltnummer (inte sidnummer) till uppslagsord. Från detta mellanformat skapas Articles.lst, men om Articles.lst i framtiden ersätts med något bättre, kan mellanformatet i stället användas för att skapa detta.

Korrekturläsning av faksimilutgåvorna utfördes ursprungligen via e-post, men 2002-2003 infördes ett wiki-inspirerat webbformulär för detta, vilket avlastade redaktionen och ökade produktiviteten. För varje faksimilsida finns en markering som anger om sidan är fullständigt korrekturläst, och givet att det finns en Articles.lst så kan ett program se om alla sidor som hör till ett visst kapitel har hunnit bli korrekturlästa. I så fall är det läge för redaktionen att slå ihop texten från dessa sidor och förse den med HTML-markeringar och göra en webbsida för kapitlet. Detta arbete är till hälften automatiserat, men det är fortfarande (2004) till stor del ett manuellt arbete för redaktionen att "slå ihop" korrekturläst text till kapitel.

Många verk (t.ex. tidskrifter) har dock ett stort antal kapitel och det tar tid att upprätta en fullständig Articles.lst. Därför vore det bekvämt att avlasta redaktionen från denna börda, och i stället låta korrekturläsarna göra arbetet. För detta syfte har så kallade <chapter>-taggar införts. Dessa är HTML-liknande markeringar som införs i den korrekturlästa sidan på de ställen där kapitel eller artiklar börjar och slutar. För sidor där Articles.lst är ofullständig, kan ett program söka igenom de korrekturlästa faksimilsidorna och utifrån förekomsten av sådana "taggar" (markeringar, tags) producera de rader som bör införas i Articles.lst för att göra denna fullständig. Genomsökningen görs automatiskt i slutet av varje dag och redaktionen får ett brev som upplyser om vilket manuellt arbete som väntar på att bli utfört. Men som vanligt är det redaktionsmedlemmarna som är projektets flaskhals. Lösningen bör uppenbarligen vara att ytterligare automatisera arbetet.

Chapter-taggen är en XML-tagg som (för närvarande, 2004) har ett enda attribut, "name", som är liktydigt med rubrikfältet i Articles.lst. Hur det kan se ut framgår av våra instruktioner för korrekturläsare. Kortfattat är det <chapter name="Rubriken" >Kapitlets text</chapter>. Starttaggen <chapter> behöver inte stå på samma faksimilsida som sluttaggen </chapter>.

Under 2004 har tidskrifter blivit en allt större genre inom Projekt Runeberg. Indexering av artiklar i tidskrifter är något som även bibliotekarier har ägnat sig åt. Flera bibliotekskataloger, till exempel Kungliga Bibliotekets Libris-databas, har separata katalogposter för artiklar i flera tidskrifter. De bibliotekarier som specialiserat sig på detta brukar kallas dokumentalister, eftersom de katalogiserar dokument (artiklar, kapitel) snarare än böcker. En fråga som kommit upp är då om Projekt Runeberg borde införa dokumentalisternas "katalogiseringsregler" för tidskriftsartiklar. Ett sätt att göra detta kunde vara att införa flera attribut (fältnamn) till chapter-taggen. Denna debatt togs upp på den svenska sändlistan BIBLIST under hösten 2004 och är i skrivande stund inte slutförd.

Se även


Wiki | Senaste nytt | Inställningar | Sök: | NE | Susning.nu | Wikipedia | Google
Redigera den här sidan | Visa andra versioner | runeberg.org drivs av Projekt Runeberg
Senast ändrad 7 augusti 2006 10:28 (skillnad)

Valid HTML 4.0!