|
|
Thank you, Wikimedia Sverige!
Old and new document scanners.
A small community grant of 18,000 SEK (€ 2000) from the Swedish chapter of the Wikimedia Foundation has made it possible for us to purchase a faster scanner and a more powerful personal computer for OCR processing. The immediate results are more than a hundred scanned volumes in April. Read more below.
Ett bidrag på 18.000 kronor (€ 2000) från föreningen Wikimedia Sverige har gjort det möjligt för oss att köpa en snabbare scanner och en kraftfullare dator för OCR-tolkning. Vår ansökan var en av en handfull som beviljades bidrag inom ramen för gemenskapens projekt 2012. Wikimedia Sverige är en ideell förening som stödjer fri kunskap och utgör den svenska avdelningen av Wikimedia Foundation, som driver Wikipedia. Det direkta resultatet av inköpet är över hundra inscannade böcker under april. Många av dem kommer säkert till nytta inom Wikipedia, som ofta länkar till Projekt Runebergs inscannade böcker som källhänvisning.
New titles in April
During April, we added 77,764 scanned pages (4 linear metres of shelving), either scanned by our volunteers or copied from the Internet Archive or other image sources. This has been our most productive month ever. The largest additions are Pedagogisk tidskrift (17,565 pages), Ord och Bild (7,574), Trap-Danmark (5,156), and "HGSL" (3,998).
New works in Danish
- Danmarks Fauna (1907-)
- Nordisk universitets-tidskrift (1854-1855)
- Japetus Steenstrup, Spolia Atlantica. Bidrag til Kundskab om Klump- eller Maanefiskene (Molidae) (1898)
- Jens Peter Trap, Kongeriget Danmark (3. udgave, 5 bind, 1898-1906)
- Christian Winther, Danske Skjemtedigte (1872)
- Vort Landbruks Skadedyr blandt Insekter og andre lavere Dyr (1900)
New works in English and German
- Fennia (1940), journal of the Geographical Society of Finland
- Joseph Guinchard, Schweden : historisch-statistisches Handbuch (1913)
- Joseph Guinchard, Sweden : historical and statistical handbook (1914)
New works in Finnish
- Tietosanakirja (1909), so far only volume 1 of 11
New works in Norwegian
- Bjørnstjerne Bjørnson, Smaastykker (1860)
- Hulda Garborg, Rousseau og hans tanker i nutiden (1909)
- Rasmus Stauri, Folkehøgskulen i Danmark, Norge, Sverige og Finland (1910)
New works in Swedish - Science, geography, dictionaries
- Carl Auerbach, Tysk-svensk ordbok (1932)
- Cohrs och Torpson, Geografisk handatlas öfver jorden (1905)
- Historiskt-geografiskt och statistiskt lexikon öfver Sverige (7 volumes, 1859-1870)
- Carl Martin Rosenberg, Geografiskt-statistiskt handlexikon öfver Sverige (1882-1883)
- Ferdinand Schulthess, Svensk-fransk ordbok (1922)
New works in Swedish - Society, history, memoirs, politics, religion
- Jac Ahrenberg, Människor som jag känt : personliga minnen, utdrag ur bref och anteckningar (1904-1914)
- Heliga Birgittas Uppenbarelser (1857-1884), den fornsvenska översättningen, redigerad av G. E. Klemming
- Borghmästare och Rådhz stadga öfwer köphandelen uthi Stockholm (1641)
- Femtio års godtemplararbete i Sverige : en minnesskrift (1929)
- Carl Forsstrand, Linné i Stockholm (1915)
- Carl Forsstrand, Sophie Hagman och hennes samtida (1911)
- Anders Fryxell, Berättelser ur svenska historien (so far only 3 parts, 1837-1846)
- Lars Johan Govenius, Lif och Död eller Branden vid Glasbruksgatan år 1840 (1869)
- Carl Grimberg, Svenska folkets underbara öden (volume 8 added)
- Adolf Hedin : tal och skrifter (1904)
- Adolf Hellander, Teateroriginal och typer från skilda scener (1900)
- Otto Hjelt, Svenska och finska medicinalverkets historia 1663-1812 (1891-1893)
- Ellen Key, Barnets Århundrade II (1900)
- Ellen Key, Människor (1899)
- Vera von Kræmer, Brantings på Norrtullsgatan (1939)
- Kvinnans fysiska träning enligt japansk metod (1905)
- Carl von Linnés Ungdomsskrifter (1888-1889)
- Nationalmusei målningssamling : nordiska konstnärers arbeten : beskrivande katalog (1942)
- På 60-årsdagen : urval ur Aug. Palms skrifter : en samling artiklar, kåserier och satirer i politik och samhällsfrågor (1909)
- Johan Oscar Pettersson-Rydelius, Våra födoämnen i fysiologiskt, hygieniskt och ekonomiskt hänseende. En dietik för friska och sjuka (1891)
- J. L. Saxon, Umgängeskonst - Levnadskonst (1934), scanned images added to this old e-text
- Amand von Schweiger-Lerchenfeld, Qvinnan bland skilda folk (1881)
- Karl Staaff, Det konstitutionella styrelsesättet (1914)
- Karl Staaff, Politiska tal samt några tal och inlägg vid skilda tillfällen (1918)
- Valfrid Vasenius, Zacharias Topelius : hans lif och skaldegärning (1912-1918)
- Heman Lincoln Wayland, Charles H. Spurgeon : hans tro och verksamhet (1892)
New works in Swedish - Periodicals, calendars
- Fataburen (1932-1933)
- Lucifer : ljusbringaren arbetarekalender (1893-1895)
- Ord och Bild (1926-1928, 1932, 1934-1939)
- Pedagogisk tidskrift (1898-1940)
- Samlaren (1937-1940)
- Svensk idrott : årsbok för svenska gymnastik- och idrottsföreningarnas riksförbund (1918-1919)
- Svensk industrikalender (1947)
- Svensk skidkalender (1938)
- Sveriges statskalender (1955, 1963, 1984)
- Tidskrift för hemmet, tillegnad Nordens qvinnor (1869)
- Trons Segrar. Uppbyggelse- och missionstidning (1924)
New works in Swedish - Fiction
- Albert Engström, Med Kaaparen till Afrika
- Albert Engström, Läsebok för svenska folket
- Sten Ulfsson, Hjelten på Cuba (1898-1899)
- Oscar Svahn (Thord Bonde), Våra öfverliggare samt Ett universitet i Sveriges hufvudstad (1886)
- Oscar Svahn, Våra öfversittare : ungdomsminnen och läroverksstudier (1898-1899)
Strong growth in April
April 2012 showed the strongest growth in Project Runeberg of any month ever. We added 159 volumes containing 77,764 scanned pages, nearly 4 linear metres of shelving (as we count 20,000 pages to be one metre of shelving). In this single month, Project Runeberg's collections increased by 10.7 percent, from 729,012 to 806,776 pages. This is more than our typical annual growth of 40 to 70 thousand pages.
How was this huge speed increase suddenly achieved? Did it cost a lot? Did a large number of new volunteers suddenly sign up? Or did we only copy images that someone else had scanned?
Of the 159 added volumes, 121 were scanned by our volunteers (111 volumes scanned by Lars, 4 by Ralph, 3 by Peter and 3 by Bert) and 38 were copied from other sources (31 from the Internet Archive, 3 from Nasjonalbiblioteket, 2 from Stockholmskällan, and 2 from Google). Welcome Bert, who is a new contributor of scanned images, of three years of the workers' calendar Lucifer, ljusbringaren (1893-1895).
A new scanner
The big difference is that Lars has a new, faster scanner. It is a sheet-feeding scanner for books where the spine has been cut off. While this method can't be used on valuable books, we have enough many books where it is applicable, such as old journals donated by libraries. Examples scanned this month were Pedagogisk tidskrift (1898-1940) and Ord och Bild (1926-1939).
Affordable desktop sheet-feeding scanners, in the range below €/$500, have been available for ten years. Two common models are the Canon DR-2050C and the Fujitsu Scansnap S1500. Most customers use these to move piles of personal paperwork to their computer disk. Some of our volunteers use them with great success. Their speed, however, is limited to 20 pages per minute in low resolution and even slower at the higher resolutions we prefer. Faster scanners have been priced for the office market, typically in the range above €/$5000, with nothing in between.
When we started to shop for a new scanner earlier this year, we had our minds set on one of those expensive models. But to our happy surprise, there is a new model, the Canon DR-160M which scans 60 leaves of paper per minute, both sides (duplex) at the same time, so 120 images per minute in full resolution, at a price of only €/$1200.
Compared to some more expensive models, this scanner has certain limitations. One is that it only takes papers 22 cm (8.7 inches) wide, which is too small for posters or fold-out maps. Feeding papers works fine mostly, but not always. When you have to resort to manually feeding individual pages, the overall speed will suffer. The feeder only holds some 60 pages, which are consumed in a minute, so you have to attend to the scanner often. Office models typically can handle larger batches. Still, its performance means a huge improvement over our previous Canon DR-2050C.
OCR
OCR (optical character recognition) is the second bottleneck in our digitization process. The way our platform is designed, any volunteer can download scanned images, run any OCR process they prefer, and upload the resulting text, where it can be proofread by other volunteers. This collaborative model works fine. (Free software evangelists often propose that free OCR software should be tried and used, but the examples of volunteers using free OCR software to process our scanned books are extremely rare.) For the last few years, the market for affordable personal computer OCR software has been dominated by ABBYY Finereader. We have used Finereader Professional from version 6 until the current version 11, with steady improvements. If a volunteer wants to help us with OCR, we can reimburse the small price (€129) for purchasing this software.
The Internet Archive uses the server/engine configuration of Finereader version 8. Their text quality is fine for English, but worse for other languages. For Scandinavian languages, we prefer to run our own OCR on their scanned images, rather than to use their OCR text for proofreading. Perhaps their text quality would benefit from upgrading to version 11, and adding dictionaries for old spelling. But more than this, we have found it necessary to manually check the segmentation of text columns. While recent versions of Finereader do a very good job on recognizing letters and words, columns are often mixed up, reading image captions as part of the adjacent text column.
For the time being, the best OCR results are achieved by letting Finereader Professional process the entire book, and then manually check the segmentation of every page. For most pages, the checking takes less than a second. The automatic recognition can still be consume more time than that, especially on a slow computer. Fortunately, Finereader runs in parallel on a multi-core CPU. And fortunately, strong CPUs are affordable as computers marketed for gaming. Lars now uses a personal computer with an Intel Core i7 CPU running at 3.4 GHz and having four cores. Finereader is not using a lot of RAM; the 8 GB of this computer are not fully used. It is possible to scan images of one book, OCR process a second book, and check the segmentation of a third book (in a separate instance of Finereader) at the same time.
How to capture large formats
A digital camera can be useful to digitize books, especially if you get a a wire trigger and a hobby-sized copy stand that fits on any table. But how do you handle large fold-out plates and maps? The picture on the left, below, illustrates the problem. To get a good camera angle on this 600×900 mm (24×36 inches) map, you would need a distance of two metres (7 feet) or more.
Instead, we bought a piece of sheet iron, 0.7 mm thick and 750×1500 mm (30×60 inches), painted it matte black, and hung it on a wall (picture right). On this iron wall, maps can be attached with fridge magnets. The camera can use an ordinary tripod stand at any distance.
The end result is seen in volume 66 (1940) of Fennia, the journal of the Geographical Society of Finland, where this map is an appendix.
Följ oss på Facebook
Projekt Runebergs sida på Facebook har fått nytt liv sedan Lena och Stefan har börjat hjälpa till att hålla den uppdaterad. Nyheter om Projekt Runeberg varvas med tips om andra kulturella resurser på nätet.
Den 10 februari berättade vi att årgångarna 1938-1940 av Biblioteksbladet skulle digitaliseras så fort Facebook-sidan hade fått 1500 anhängare (gilla-markeringar, fans), och det tog inte många dagar.
![]()
Ett produktivt första kvartal
Under första kvartalet 2012 ökade Projekt Runebergs samlingar med drygt 40.000 inscannade boksidor (2 hyllmeter), fördelade på 154 nya volymer. Totalt har vi nu 729.000 sidor (36 hyllmeter) och 2160 volymer. Det är ett produktivt kvartal för oss, och överstiger hela årstillväxten för de magrare åren 2006 och 2010. Tillväxten består dels av nya titlar, dels av nya årgångar av tidskrifter där vi redan hade digitaliserat några volymer (till exempel det ovan nämnda Biblioteksbladet).
Envar som har en scanner eller digitalkamera kan digitalisera böcker och ladda upp dem till vår server. Det går också att ta böcker som andra har digitaliserat och ladda upp dem till Projekt Runeberg, om man tycker att de gör nytta här (givetvis måste man respektera upphovsrätten). Så det är kanske lätt att tro att många tiotals personer i alla åldrar har hjälpt till. Det är ju så man inbillar sig att "crowdsourcing" går till. Så hur ser verkligheten ut? Tyvärr har vi ingen automatiskt sammanställning av statistik på en så detaljerad nivå, utan den måste tas fram manuellt.
Det visar sig att de 154 nya volymerna kommer från fyra personer. Under hela 2011 hjälpte 10 personer till med inscanning. Redaktionsmedlemmarna Joakim och Lars har under första kvartalet bidragit med 2 respektive 59 volymer. Medhjälparna Peter och Ralph har bidragit med 35 respektive 58 volymer. Till det kommer att Joakim vanligen OCR-tolkar det som Ralph laddar upp, medan Lars har OCR-tolkat det som Peter laddat upp.
Av Lars 59 volymer hade 8 hämtats från norska Nasjonalbibliotek och 2 från bibliotek i Polen, övriga 49 hade han scannat själv. Av Ralphs 58 volymer var 26 egen inscanning, 16 kom från Kvinnsam (Göteborgs universitets kvinnohistoriska samlingar), 8 från Google Books, 5 från Internet Archive och 3 från Nasjonalbiblioteket.
Peter scannade tre böcker våren 2011, men kom tillbaka den 7 mars och har nu hunnit bidra med 35 volymer under tre veckor. Det lovar gott för framtiden. Det är inte alla som blir så produktiva. Men visst finns det utrymme för fler medhjälpare.
Efter inscanning och OCR-tolkning ska böckerna korrekturläsas och indexeras på kapitelnivå. Och här är det många fler som hjälper till. Av våra 36 hyllmeter digitaliserad litteratur är en knapp tredjedel (11 hyllmeter) korrekturläst, medan två tredjedelar (24 hyllmeter) är indexerad.
De 154 nya volymerna är i kompakt form: allsegrare/i, allsegrare/ii, anf/1901, annashaw, ar50kvkamp, asegber, avgfolk, barnets2, bibeln/wald1894, bibgrund, biblblad/1938, /1939, /1940, bibtros, bondestud, cataport, danetym, danfauna/1, dopoba, ellenkeym, enlifsbild, ettparblad, finlandska, folkbildn, foly, forbfac/1935, /1939, fredokult, ftomndelse/adj, /adv, /subst, haandgb, halleborg, handhjarne, handsjo, hansfag, hensigt, histbib/1, /2, /3, /4, /5, /6, /7, hogalidska, hoghet, holmfrid, hymner, inganf, irrgang, japetus100/xviii, /xxii, /xxxi, jenissej, julegodter, karlekt, key3eriket, koldbar, komedi, krigfred, kulschwed, kvansvar, kvinnorost/i, /ii, kvivarlden, kvlander, kvrostratt/1, /2, /3, /4, /5, /6, /7, lifinorden, livslinjer/1, manans, manslakt, moralutv, narviborja, noravis, norgamer, norsjubi, norskano, nssvos/3, /4, olaboje, olmagnus, omhvede, omrattfard, omskandia, palst, pawallmark, piltibet, pionjarer/addams, /anthony, /bjornson1, /bjornson2, /bremer, /dunant, /forord, /hazelius, /key, polskmin, portvakt, ptolo, reskonst, riddarulf/i, /ii, rostrattkv/1, /5, rusv1896, saol/1, /2, /3, sbanthony, scandia/1937, /1938, /1939, /1940, scouting, sfubon/1, /2, /3, /4, /5, /6, silvorm, svda/1923, /1925, /1931, /1932, /1933, /1934, /1940, /genreg, talos/1, /2, /3, /4, /5, /6, teaterlif, tiden/1924, /1938, /1939, /1940, ts/1935, /1936, /1937, unfreb, ungdomens, uppfornmi/42, upsalam300/prominbjud, vargson.
A Merry Norwegian Christmas!
We are celebrating this Christmas by digitizing Illustreret norsk konversationsleksikon (6 volumes, 1907-1913), an early Norwegian encyclopedia. Here are some articles relating to the season:
Advent (d. e. komme, Herrens komme). Tiden fra kirkeaarets... December (af lat. decem), i den julianske kalender... Eldbjørgdagen er et norsk navn paa trettende dag jul, egentlig den dag... Gjestebud kaldes et festligt maaltid, som indtages i fællesskab af en... Hellige tre konger, de vise fra Østerland, hvorom der fortælles... Helligtrekongersfest fortrængte efterhaanden i vesten Epifaniafesten... Imbredage, norsk navn paa dagene i ugen før jul... Is. 1. (Fys.) Is danner sig af vand, naar dette afkjøles... Jul var i hedendommen navn paa en fest, som feiredes... Nisse i nordisk folketro ett overnaturlgt væsen, der... Ski, oldn. skið, ondurr (betrukket med skind). S.s oprindelse... Skøitesport er dyrket helt tilbage i den forhistoriske tid... Sne, frosset vand i mangfoldig, sammensatte iskrystaller... Vinter begynder efter astronomisk sprogbrug i det nordlige... ![]()
A Good Year
2011 was a good year for Project Runeberg, our 19th since we started in December 1992. To our collection of free electronic editions of Scandinavian literature, 65,900 pages were added, 95,900 pages were indexed by chapter, and 22,000 pages were proofread, making 2011 our third most productive year ever. For our history, see this timeline.
The biggest milestone was the completion on October 7 of the proofreading of Salmonsens konversationsleksikon (26 volumes, 1915-1930), a Danish encyclopedia which was scanned in 2004-2008. (See below.)
New download mode for source files
At the bottom of every page, you find a link to "(download)" files for that work or volume. See for example the bottom of the pages /fstal/ and /legender/. To the list of download options, a new format has been added that allows the download of "all text and index files" for the given volume. The resulting ZIP archive contains files such as Metadata, Articles.lst and Pages.lst, used internally to generate the table of contents and mapping between page numbers and page filenames. It is hoped that this will be useful for those who want to develop their own applications or convert our texts to other formats. Only the current version of each file is included, not the complete revision history.