OCR
Varför OCR (textigenkänning)?
Ett skannat dokument är i princip ett "digitalt foto" av alla dess sidor. Människor kan lätt läsa och förstå texten genom att titta på bilden, men en dator kan inte göra mycket med den förutom att visa den på skärmen.
För att kunna använda sig av själva texten måste dokumentet köras genom en OCR-process (Optical Character Recognition). Det är en teknik som analyserar och tolkar skannade bilder och omvandlar dem till riktig elektronisk text.
OCR ökar värdet på de skannade dokumenten genom att göra innehållet sökbart och återanvändbart.
Sökbara PDF-filer
OCR är viktigt när du skannar pappersdokument till PDF eftersom det gör PDF-filerna sökbara. Filerna kan indexeras i dokumenthanteringssystemet och snabbt sökas efter och hämtas från arkivet senare.
PixEdit-applikationer lagrar både den elektroniska texten och den skannade bilden i PDF-filen, så kallad "dold" text. Det innebär att dokumenten blir fullt sökbara och att texten kan återanvändas, samtidigt som den visuella presentationen av dokumentet ser exakt likadan ut som originalet. Detta är i enlighet med Riksarkivets riktlinjer för arkivering.
Återanvändning av text
OCR är också användbart för andra ändamål:
- Snabb kopiering av text från ett skannat dokument till ett annat program, t.ex. Word, Excel, PowerPoint, Outlook etc.
- Exportera till en textfil och importera till andra program
- Snabbt skapa bokmärken i PDF-filer
- Formulärbearbetning och datautvinning