- Project Runeberg -  Teknisk Tidskrift / Årgång 85. 1955 /
743

(1871-1962)
Table of Contents / Innehåll | << Previous | Next >>
  Project Runeberg | Like | Catalog | Recent Changes | Donate | Comments? |   

Full resolution (JPEG) - On this page / på denna sida - Sidor ...

scanned image

<< prev. page << föreg. sida <<     >> nästa sida >> next page >>


Below is the raw OCR text from the above scanned image. Do you see an error? Proofread the page now!
Här nedan syns maskintolkade texten från faksimilbilden ovan. Ser du något fel? Korrekturläs sidan nu!

This page has never been proofread. / Denna sida har aldrig korrekturlästs.

13 september 1955

743

Översättning med maskin

681.142 : 652.6

Två faktorer har samverkat till att aktualisera frågan om
möjligheter att översätta språk med automatiska maskiner.
Den ena är det ständigt växande flödet av
naturvetenskaplig och teknisk litteratur i alla länder. Trots att en
mycket stor del av denna litteratur utkommer på ett fåtal
kulturspråk föreligger stor risk för att viktiga rön gjorda
i ett land förblir obeaktade i ett annat endast på grund av
språksvårigheter. Särskilt har det i USA visat sig omöjligt
att i tillfredsställande skala få fram översättningar av
artiklar på ryska eller ens sammandrag av rysk
vetenskaplig litteratur.

Den andra pådrivande faktorn har varit den automatiska
räkneteknikens utomordentliga framsteg (Tekn. T. 1955
h. 13) i fråga om hastighet, kapacitet och logisk rörlighet
och anpassningsförmåga. Eftersom översättningsarbete i
själva verket består av en serie ständigt upprepade logiska
operationer, visserligen på ett mycket stort material, bör
en mekanisering av detta arbete icke vara en omöjlighet.

Material

Antalet skilda ord som förekommer i ett språk är av
storleksordningen en miljon. Med ord förstås då varje
bokstavskombination som förekommer mellan två mellansteg.
De största engelska ordböckerna upptar omkring en halv
miljon uppslagsord med 2—3 avledningar per uppslagsord.

Ett ryskt lexikon har omkring 100 000 uppslagsord med
10—15 avledningar per ord. Informationsteoretiskt
motsvaras denna ordvolym av några hundra miljoner bit krä
vande lika många positioner i ett räknemaskinsminne.

Ett skönlitterärt verk som James Joyce’s "Ulysses"
innehåller nära 30 000 olika ord, men av totala antalet ord i
boken, 260 430 stycken, utgöres 80 °/o av endast 1 000
olika ord. En studie av boken visar emellertid att
meningsinnehållet bäres nästan helt av de 29 000 ord som utgör
resterande 20 °/o.

En vokabulär av 50 000 olika ord skulle täcka över 98 °/o
av de ord som förekommer i matematiska uppsatser på
ryska och för att bilda dessa ord torde endast behövas
ca 5 000—6 000 ordstammar sammansatta med ett
femtiotal ändelser.

All information i språk bärs emellertid icke av orden
utan också av den relation som orden förekommer i.
Tydligast framträder detta i idiom, dvs. för ett språk typiska
uttryck vars mening är något belt annat än vad orden
tagna var för sig synes innebära. Engelskan är rik på
dessa idiomatiska uttryck t.ex. "red herring" som betyder
fint eller vilseledande handling och "red tape" som
betyder byråkratiskt krångel. Det är uppenbart att en
ordagrann översättning här inte är tillfyllest och att en korrekt
översättning också kräver kännedom om ordens
omgivning. Som naturligt är visar det sig att ett ords mening
som regel bestäms av dess allra närmaste omgivning och
att frekvensen av fall där kännedom krävs om en allt
större omgivning snabbt avtar.

Ett specialfall där denna regel ej gäller är dock t.ex. de
löst sammansatta verben i tyska där man ju ofta får söka
prefixet sist i meningen.

När här angivits ett totalt ordantal i ett språk på ca 1
milj. så har då alla böjningsformer medtagits, dvs. den
grammatikaliska informationen har slagits samman med
ordinformationen. Då det givetvis är ett önskemål att
kunna reducera den ordmängd som man måste lagra i en

maskin för översättning kan denna information särskiljas.
I stället för att betrakta en ordmängd på en miljon ord
kan man då erhålla en till 0,1—0,5 milj. uppslagsord
reducerad volym av ordstammar kompletterad med en grupp
ändelser som blir liten i förhållande till stamvolymen.

En annan del av språkets information ligger i den
syntaktiska uppbyggnaden. Om vi efter en
översättningsoperation får fram satsen "A B slår" så är det därmed icke
klart vem som slår och vem som blir slagen. I vissa
kombinationer kan grammatisk information ersätta den
syntaktiska som i "han slår henne" men detta gäller endast
undantagsvis. Om en korrekt och klar översättning skall
göras så måste hänsyn tas till ett relativt stort antal
syntaxregler, dvs. man måste känna vilka satsdelar de i
meningen ingående orden kan tillföras och därefter i
översättningen ordna dessa satsdelar efter bestämda regler.

Slutligen bäres i det talade språket en viss information
av betoning och satsmelodi. Denna information som sedan
till större delen går förlorad i skriftspråket eller där
ersätts med utroppstecken, frågetecken, kursiveringar och
understrykningar är ej väsentlig för det enklare fallet då
man skall översätta skrift men väl om man strävar efter
att få fram en automatisk tolk.

Medel

De automatiska räknemaskiner som vi i dag förfogar
över kan synas otillräckliga för att förverkliga ett verkligt
automatiskt översättningsarbete om man begär att
översättningen skall kunna ske snabbt, till rimlig kostnad och
spänna över en stor vokabulär. Det är framför allt
minnena som man ansett ej skulle räcka till. Varje bokstav
innehåller 5—6 bit information och behöver alltså
motsvarande antal minnespositioner. Med i medeltal åtta
bokstäver per ord och en vokabulär på 50 000 ord på två
språk skulle det behövas över 4 milj. minnespositioner
i lexikondelen. Minnen med denna kapacitet kan utan
svårighet förverkligas men då man ökar kapaciteten
minskar man samtidigt den hastighet med vilken en viss
position kan nås. Också läshastigheten avtar, tabell 1.

Av de typer som upptagits här är läshastigheten för de
tre första så låg att de ej kan komma i fråga. Med en
vokabulär på 10 000 ord på två språk, dvs. ca 150 000
bokstäver, blir sökningstiden i medeltal 8—80 s per ord (det
är sökningen av den första bokstaven i ordet som tar
längst tid och bestämmer läshastigheten i stort sett).
Däremot synes fotografisk film eller fototrumma erbjuda de
bästa möjligheterna särskilt som minnet i en
översättningsmaskin skall vara permanent i motsats till minnet i
en räknemaskin. Fotografiskt minne har ännu dock ej
använts i någon existerande maskin varför tekniken icke
är fullt utarbetad.

De logiska eller räknande delarna i nuvarande
automatiska räknemaskiner synes dock mer än väl motsvara vad
som skulle behövas i en översättningsmaskin. Vad som
krävs här är snabba minnen, jämförande och
ordnings-följdbestämmande enheter samt in- och utorgan. I fråga
om inorganen kan man tills vidare nöja sig med
hålremseläsare, men det slutliga målet måste här vara direkt
bok-stavskännande "läsande" organ. Dylika apparater som

Tabell 1. Hastighet, kapacitet och kostnad för några olika
minnestyper

Sammandrag av Locke, W N & Booth, A D m.fl.: Machine
translation of languages. Wiley & Sons samt MIT Technology Press, New
York 1955 (jfr Tekn. T. 1955 s. 673).

Medium Läshastighet bokstäver per min. [-Kapacitet-] {+Kapa- citet+} antal
bokstäver Kostnad medium öre/bokstav ,
läs-apparatur kr.
Hålremsa ............ 250— 1 000 00 1/600 5 000
Hålkort .............. 750— 1 000 00 1/100 10 000
Magnetband ........ . 1 500 10 000 00 1/600 5 000
Magnetisk trumma .. 100 000 100 000 5 5 000
Fotografisk film 50 000 00 1/2 000 5 000
Fototrumma ......... 100 000 100 000 5 5 000

<< prev. page << föreg. sida <<     >> nästa sida >> next page >>


Project Runeberg, Tue Nov 12 16:25:26 2019 (aronsson) (download) << Previous Next >>
http://runeberg.org/tektid/1955/0763.html

Valid HTML 4.0! All our files are DRM-free