Scroll down for a summary in English.
Ofta hör man Moores lag citeras. Det var processortillverkaren Intels grundare Gordon Moore som förutsade att datorernas kapacitet skulle komma att fördubblas var 18:e månad, och det verkar som om han hade rätt. Detta slag av tillväxt kallas exponentiell och är samma sak som "ränta på ränta". Det märkliga med datorernas värld är inte slaget av tillväxt, utan hastigheten. Ett kapital insatt på banken ger kanske 2 eller 4 procent ränta på ett år, och en bra industriell investering 20 procent per år. Men ett datorsystems kapacitet för beräkning och lagring kan tillväxa med lika mycket per månad.
Vår förebild, det amerikanska Project Gutenberg har länge haft som målsättning att fördubbla sina samlingar varje år, och det verkar de klara med god marginal. Projekt Runeberg gör sitt bästa för att hänga med. PG räknar antalet böcker (titlar), men vi räknar antalet inscannade boksidor. En årlig fördubbling är en tillväxt om 100 procent, en månatlig tillväxt om 5,95 procent, eller en daglig tillväxt om 0,19 procent.
Den 1 januari 2005 hade Projekt Runeberg 260.000 inscannade boksidor i sina samlingar, vilket motsvarar 13 hyllmeter. Med den givna målsättningen, skulle vi denna dag scanna 494 sidor (vilket är 0,19 procent av 260.000), men i verkligheten scannade vi 1200 sidor. Under hela januari skulle vi ha scannat 15.755 sidor (0,78 hyllmeter), men vi klarade bara 12.384 (0,61 hyllmeter). Givetvis kan man inte alltid hålla exakt jämn takt. Ibland har man annat att göra och ibland gör man ett ryck för att hinna ikapp. I längden kan man inte heller fortsätta att öka takten med samma utrustning och metoder, utan man får hitta på något smartare sätt att arbeta, eller försöka sprida arbetet på flera händer. Målsättningen är ju inte mer än en målsättning, men den är ändå en sporre som driver arbetet framåt.
Sedan september 2003 har Projekt Runeberg en detaljerad, daglig statistik över hur många sidor som finns i samlingarna och hur många som har OCR-tolkats, indexerats och korrekturlästs. Detta redovisas i diagrammen nedan. Det första diagrammet ger en överblick över fem år. Där ser man tydligt hur den mörkblå linjen, som markerar målsättningen, gör en jämn krök uppåt som är typisk för en exponentiell tillväxt. Detta syns inte lika tydligt i de två undre diagrammen, som visar detaljerna för år 2004 och 2005.
Actual and predicted growth for 2003--2007
Actual and predicted growth for 2004
Actual and predicted growth for 2005 (Jan.--March)
Just like Project Gutenberg, Project Runeberg hopes to double its collections each year. This sets a goal for an annual exponential growth of 100 percent, a monthly growth of 5.95 percent, and a daily growth of 0.19 percent.
On January 1, 2005, Project Runeberg's collections contained 260,000 pages scanned in digital facsimile, corresponding to 13 linear metres of shelving. That day we should have scanned 494 pages (0.19 percent of 260.000), but instead we scanned 1200 pages. For the whole of January, we should have scanned 15,755 pages (0.78 metres), but in reality we only scanned 12,384 (0.61 metres).
The first graph spans five years and the dark blue line, indicating our goal of annual doubling, shows a smooth exponential bend upwards. The other two graphs zoom in on the years 2004 and 2005, and the upward bend is not as visible. Besides actually scanned pages (in yellow), the graphs also show how many pages have been OCRed (red), indexed (light blue), and proofread (green).
The graphs above were produced with OpenOffice.org 1.1. The following graphs were produced with gnuplot, using the same colors as above. Data before October 2003 have been extrapolated from occasional documentation found in Project Runeberg's timeline.
On February 17-27, 2005, the four volumes and 3,200 pages of
Pieni Tietosanakirja were scanned.
On January 5-7, 2005, four years (1931-1934) and 5,300 pages of
Teknisk Tidskrift were scanned.
On January 14, 2005, seven years (1888-1894) and 2,300 pages of
Teknisk Ukeblad were scanned.
In mid September and late October 2004, the first 12 volumes of
Svensk Läraretidning were scanned.
On July 31--August 1, 2004, 25 years (1906-1930) and 7,200 pages of
Fataburen were scanned.
On June 4, 2004, the 10 volumes of Henrik
Ibsens Samlede Værker were scanned.
In March and April 2004, large parts of Samlade skrifter av August Strindberg were scanned.
On January 11-20, the first 6 volumes and 7,000 pages of
Salmonsens konversationsleksikon
were scanned.
On November 4-20, 2003, the 19 volumes and 12,000 pages of
Dansk biografisk Lexikon were scanned.
On November 20-23, 2003, the 14 volumes and 3,800 pages of
Dagligt Liv i Norden were scanned.