Skanning | Kontakt

Skriptoriet OCR scanning
Knutstorpsvägen 2
268 77 Kågeröd

VD & konsult Niclas Wallin
Tel: 08-34 14 19
Mob: 070-722 81 48
E-post: niclas@skriptoriet.se
Meddelande via Facebooksida: facebook.com/Skriptoriet

Massbearbetning av PDF-filer med script

Textextraktion ur PDF-filer

Vi kan extrahera textområden ur PDF-filer med hjälp av script och bygga upp innehåll till en databas på det viset.

Vanliga uppgifter kan vara flexibel inhämtning av orgnummer och/eller personnummer, datum, ordernummer eller liknande. Vi kan även läsa in hela tabeller i de flesta fall.

Det kan t. ex. gälla myndighetshandlingar som domslut, kontoutdrag osv, handlingar från Bolagsverket etc. Det krävs att det finns ett textlager. Är det endast bilder i PDFerna så måste filerna OCR-tolkas först, vilket vi också kan hjälpa till med!

Att extrahera ”levande” text direkt istället för att OCR-tolka har fördelen att det inte finns risk för OCR-fel! Det är också otroligt snabbt jämfört med OCR-tolkning. Extraktionsområden kan sättas med hjälp av exakta koordinater, eller med hjälp av koordinater relativt keywords, eller relativt ”regular expressions” (sökmönster).

Att bearbeta ett OCR-baserat textlager kräver mycket mer programmering, eftersom du måste ta hänsyn till vissa vanliga OCR-fel och annat. Men vi kan ofta komma rätt långt även med ett sådant material.

Med 100% specialanpassat script så går det oftast att få ut exakt det ni vill ha!

Andra exempel på PDF-bearbetningar

Det går att göra många saker, även om möjligheten att ändra befintlig text är rätt begränsad pga av problem med omflödning av text. PDF är ju ett presentationsformat i första hand. Men man kan ta bort eller lägga till sidor. Kanske du vill byta ut en sida i filen. Man kan extrahera en sida eller en följd av sidor och spara som ny fil. Lägga till text på sidor. Lägga till eller ta bort bilder. T. ex. logga. Ändra i documentegenskaperna. T.ex. författare, titel etc. Jobba med bokmärken är en annan möjlighet. Det var bara några viktiga exempel.