OCR – optisk teckenläsning

Optisk teckenläsning för översättning.

OCR står för Optical Character Recognition, eller optisk teckenläsning. OCR-programvara används för att konvertera till exempel PDF-filer eller faxdokument till redigerbar text som kan användas i ordbehandlare som Microsoft Word. Detta görs som ett förberedande steg före själva översättningsarbetet.

OCR kan även användas för att återskapa dokument när originalen inte finns tillgängliga.

Konvertering

Varför måste filerna konverteras?

PDF-filer är inte redigerbara. De är inte de ursprungliga källfilerna. Om en fil inte kan redigeras går det inte heller att översätta den. Därför måste vi konvertera materialet till ett format som vi kan arbeta i. Denna konverteringsprocess utförs till exempel med OCR. Med OCR-programvara kan vi konvertera PDF-filer till Microsoft Word-filer som sedan kan användas vid översättningen. Tekniken kan även användas för att konvertera faxdokument till redigerbara format.

What is OCR?

Översättningsprocessen

Innan översättningsarbetet påbörjas konverterar vi filen, inklusive layout, med hjälp av programvara för desktop publishing (DTP) och OCR. I stort sett innebär det att vi återskapar hela filen i Microsoft Word – layout, text, grafik, allting. Vi går sedan igenom hela dokumentet och fixar till eventuella meningsfel och segment för att översättningen ska bli så korrekt som möjligt. Det är en väldigt arbetsintensiv process. När genomgången väl har gjorts blir dock översättningsprocessen mycket enklare för översättaren.

Kan filer konverteras på olika sätt?

Beroende på hur PDF:en skapades, om dokumentet endast innehåller text som går att markera, så kan man kopiera och klistra in texten i ett Word-dokument. Vissa PDF:er har säkerhetsfunktioner som gör det omöjligt att kopiera och klistra in texten.

Om PDF:en är ett inskannat dokument eller om texten inte går att markera måste man använda OCR-programvara. OCR-verktyget skannar varje tecken som en bild och försöker konvertera den till ett redigerbart tecken i Word. Tekniken fungerar på det hela taget väldigt bra och gör rätt i cirka 95 % av fallen. Det svåra är att behålla layouten.

Varför är det bättre att undvika OCR?

Kostnaden och tidsåtgången är de huvudsakliga anledningarna till att man undviker OCR. Det tar tid att konvertera en PDF-fil; det påverkar leveransplanen. Arbetsinsatsen som krävs för att konvertera och kontrollera dokumentet innebär att vi måste ta ut en konverteringsavgift för arbetet.

Kvaliteten är ytterligare en anledning; konverteringsprocessen försämrar ofta de färdiga dokumentens kvalitet. Bilder kan bli aningen grynigare beroende på originalets upplösning. Vi levererar alltid bästa möjliga kvalitet men med OCR blir resultatet sällan riktigt lika bra som originaldokumentet. För bästa resultat är det därför alltid bättre att arbeta med originalfilerna.