- Project Runeberg -  Nordic Words
Tema: Dictionaries
Overview | Next >>
  Project Runeberg | Like | Catalog | Recent Changes | Donate | Comments? |   

A summary in English follows below

Nordic Words (Nordiska ord) påbörjades hösten 1996 som ett delprojekt inom Projekt Runeberg. Det drevs aktivt under 1997 av Anders Brun, men sedan hände inte så mycket. Avsikten var att sammanställa och publicera användbara, kostnadsfria och fritt tillgängliga ordlistor på de nordiska språken, i första hand för underlätta stavningskontroll. Diskussionen började i den svenska Usenet nyhetsgruppen swnet.org.skolverket.skol-net (sök i Google Groups).

Under flera år (cirka 1997-2004) utgjorde webbplatsen www.speling.org en samlingsplats för stavningsordlistor på de skandinaviska språken, under ledning av Jacob Sparre från Skåne-Sjælland Linux Users Group (SSLUG). Ordlistorna har utvecklats i symbios med olika fria programvaror för stavningskontroll: spell (UNIX-klassiker), ispell (ursprungligen för PDP-10, 1971), GNU Aspell och Pspell (båda av Kevin Atkinson, sedan april 2000), MySpell (Kevin Hendricks), Hunspell (Németh László, sedan 2005), som i sin tur ligger till grund för stavningskontrollen i olika tillämpningsprogram som GNU Emacs, OpenOffice.org, Abiword och webbläsare som Opera och Mozilla Firefox. Den svenska ordlistan till ispell, som 1996-1997 skapades av Göran Andersson, underhålls sedan 2003 åter av honom på adressen DSSO.se.

Till utvecklingen kommer Wikipedia (grundad 2001) med sidoprojektet Wiktionary, där man hittar definitioner av alla tänkbara termer på olika språk, men också en stor sökbar textmassa med exempel på ordens användning. Vidareutveckling av språkstödet inom OpenOffice.org innebär att även grammatikkontroll och synonymordbok behöver anpassas till olika språk. För detta krävs ett underlag som ännu (2006) saknas på svenska. För flera andra språk, men inte de skandinaviska, finns omfattande översättningsordlistor, till exempel inom projektet Freedict.org.

Inom Projekt Runeberg har ordlistor sammanställts för hjälp vid OCR-tolkning av inscannade boksidor. Dessa omfattar äldre stavningsvarianter (gammalstafning) på svenska och danska/norska.

OCR-ordlistor till ABBYY FineReader

Dessa ordlistor kompletterar de som levereras med OCR-programmet ABBYY FineReader Professional version 6.0, speciellt vad gäller stavningsvarianter före år 1900, som "maade", "Kjøbenhavn", "hvarför" och "derför". Ordlistorna har tränats vid OCR-tolkning av Projekt Runebergs inscannade verk under 2003 och 2004. Formatet PMD är Portable Morphological Dictionary. Inga garantier ges för att alla orden är korrekta eller för att ordlistorna skulle vara fullständiga eller ens lämpliga för något syfte. Men den som har behov, kan ju ladda hem listorna och prova. Listorna omfattas inte av upphovsrätt. De får kopieras fritt.

Fraktur-font för ABBYY FineReader (på prov):

Ordlistor

Alla ordlistor följer samma enkla standard. Orden är sorterade efter bokstavsordning, ett ord per rad. Det teckensnitt som används är ISO-8859-1 (ISO-Latin1). Tecknet för ny rad är 0x0a.

Ordfrekvenser från Projekt Runeberg

Lars Aronssons svenska ordlista

Ordlistor donerade av Posten AB

Niklas Frykholms ordlistor

Ord insamlade från nyhetsgrupperna swnet.*

Udda ordlistor

Mjukvara

Planerna i stort (från 1996)

Insamlandet av nya ord kommer till största delen ske automatiskt. Dels kommer valda delar av webben att dammsugas, i jakten på nya svenska ord att som ännu inte finns i vår ordlista. Dels hoppas vi på samarbete med tidningar och andra, som genom åren byggt upp stora textdatabaser av hög kvalité. Sist men inte minst kommer det också vara möjligt att manuellt komplettera ordlistan med nya ord.

Att ord som läggs till ordlistan är rättstavade, är ett absolut krav. Datorprogram kan göra intelligenta gissningar om huruvida ord är felstavade eller inte, men i slutändan måste människor kontrollera att gissningarna verkligen stämmer. Det är också viktigt att alla böjningsformer av ord finns med i listan.

Det krävs också en viss klassificering av ord, innan de läggs in i ordlistan. Vi vill undvika att fackuttryck, slang och egennamn hamnar i en och samma lista, utan att det går att skilja dem åt. Dessutom finns planer på att man ska kunna lagra t.ex. förklaringar och synonymer till ord. Inte heller detta arbete kan ske automatiskt, utan måste utföras manuellt.

Det är också önskvärt att skilja på hur ord stavas i modern svenska, och på hur de har stavats förr i tiden. Lisa Hallingström har sedan tidigare arbetat med att framställa en ordlista som ska underlätta rättstavning av projekt Runebergs texter. Detta har resulterat i en ordlista på ca 20000 ord som är klassificerade efter tidsperiod.

Arbetet är att verifiera nya ord, klassificera och manuellt addera nya ord till ordlistan, är ett tidsödande arbete - vi skulle aldrig klara av att utföra allt arbete själva. Därför har vi tänkt skapa ett gränssnitt mot WWW, så att vem som helst ska kunna medverka i arbetet att förbättra ordlistan.

Vår förhoppning är att många språkintresserade svenskar kommer hjälpa oss med projektet. Tillsammans skapar vi en ny svensk ordlista.

Summary in English

Nordic Words is started in the autumn of 1996 as a subproject to Project Runeberg, working to compile and publish useful, free of cost, public domain spelling dictonaries for the Nordic languages, primarily Swedish. The subproject was actively maintained by Anders Brun during 1997, but not much has happened since.


Table of Contents


Overview
Presentation av Stava (Unix) (juni 1997)
Presentation av Excalibur (Mac) (december 1997)
Frekvens 20070122

Project Runeberg, Thu Dec 20 02:32:47 2012 (aronsson) (diff) (history) (download) Next >>
http://runeberg.org/words/

Valid HTML 4.0! All our files are DRM-free