Skip to content
PixEdit web header (1)

OCR

Hvorfor OCR (tekstgjenkjenning)?

Et skannet dokument er egentlig et "digitalt foto" av alle sidene. Mennesker kan enkelt lese og forstå teksten ved å se på bildet, men en datamaskin kan ikke gjøre mye ut av det bortsett fra å vise det på skjermen.

For å kunne gjøre bruk av selve teksten må dokumentet kjøres gjennom en OCR-prosess (Optical Character Recognition/Tekstgjenkjenning). Dette er teknologi som analyserer og tolker skannede bilder og konverterer dem til ekte elektronisk tekst.

OCR øker verdien av de skannede dokumentene ved at innholdet blir søkbart og gjenbrukbart.

Søkbare PDF-er

OCR er viktig ved skanning av papirdokumenter til PDF, fordi det vil gjøre PDF-filene søkbare. Filene vil kunne indekseres i dokumenthåndteringssystemet og raskt søkes etter og hentes frem fra arkivet senere.

PixEdit applikasjonene lagrer både den elektroniske teksten og det skannede bildet i PDF-filen, såkalt "skjult" tekst. Med dette menes at dokumentene vil være fullt søkbare og teksten kan gjenbrukes, samtidig som den visuelle fremstillingen av dokumentet vil fremstå helt likt med originalen. Dette er i henhold til Riksarkivets retningslinjer for arkivering.

Gjenbruk av tekst

OCR er også nyttig for andre formål:

  • Rask kopiering av tekst fra et skannet dokument til et annet program, for eksempel Word, Excel, PowerPoint, Outlook o.l
  • Eksportering til en tekstfil og import i andre programmer
  • Rask oppretting av PDF Bokmerker
  • Skjemabehandling og datauttrekk