Skanning | Kontakt

Skriptoriet OCR scanning
Knutstorpsvägen 2
268 77 Kågeröd

VD & konsult Niclas Wallin
Tel: 08-34 14 19
Mob: 070-722 81 48
E-post: niclas@skriptoriet.se
Meddelande via Facebooksida: facebook.com/Skriptoriet

Massbearbetning av PDF-filer med script

Textextraktion ur PDF-filer

Vi kan extrahera textområden ur PDF-filer med hjälp av script och bygga upp innehåll till en databas på det viset.

Vanliga uppgifter kan vara flexibel inhämtning av orgnummer och/eller personnummer, datum, ordernummer eller liknande. Vi kan även läsa in hela tabeller i de flesta fall.

Det kan t. ex. gälla myndighetshandlingar som domslut, kontoutdrag osv, handlingar från Bolagsverket etc. Det fungerar då filerna inte är lösenordsskyddade (vi kan ofta ta bort lösenordsskydd, när det finns!) och det finns ett textlager. Är det endast bilder i PDFerna så måste filerna OCR-tolkas först., vilket vi också kan hjälpa till med!

Att extrahera ”levande” text direkt istället för att OCR-tolka har fördelen att det inte finns risk för OCR-fel! Det är också otroligt snabbt jämfört med OCR-tolkning. Extraktionsområden kan sättas med hjälp av exakta koordinater, eller med hjälp av koordinater relativt keywords, eller relativt ”regular expressions” (sökmönster).

Att bearbeta ett OCR-baserat textlager kräver mycket mer programmering, eftersom du måste ta hänsyn till vissa vanliga OCR-fel och annat. Men vi kan ofta komma rätt långt även med ett sådant material.

Med 100% specialanpassat script så går det oftast att få ut exakt det ni vill ha!

Andra exempel på PDF-bearbetningar

Det går att göra många saker, även om möjligheten att ändra befintlig text är rätt begränsad pga av problem med omflödning av text. PDF är ju ett presentationsformat i första hand. Men man kan ta bort eller lägga till sidor. Kanske du vill byta ut en sida i filen. Man kan extrahera en sida eller en följd av sidor och spara som ny fil. Lägga till text på sidor. Lägga till eller ta bort bilder. T. ex. logga. Ändra i documentegenskaperna. T.ex. författare, titel etc. Jobba med bokmärken är en annan möjlighet. Det var bara några viktiga exempel.