Textextraktion & behandling av PDF
Textextraktion ur PDF-filer
Vi kan extrahera textområden ur PDF-filer med hjälp av skräddarsydda script och bygga upp innehåll till en databas på det viset. Detta är ett mer kraftfullt och mer flexibelt alternativ än att använda ett OCR program med avancerade funktioner. Det är dessutom snabbare!
Vanliga uppgifter kan vara flexibel inhämtning av orgnummer och/eller personnummer, datum, ordernummer eller liknande. Vi kan även läsa in hela tabeller i de flesta fall.
Det kan t. ex. gälla myndighetshandlingar som domslut, kontoutdrag osv, handlingar från Bolagsverket, Skatteverket etc.
Extraktionsområden kan sättas med hjälp av exakta koordinater, eller med hjälp av koordinater relativt keywords, eller relativt ”regular expressions” (sökmönster). Det finns även möjlighet att söka keywords med fuzzy-matchning (dvs något tecken får vara fel)!
Med 100% specialanpassat script så går det oftast att få ut exakt det ni vill ha!
Andra exempel på databehandling av PDF-filer
Det går att göra många saker, även om möjligheten att ändra befintlig text är rätt begränsad pga av problem med omflödning av text. PDF är ju ett presentationsformat i första hand. Men man kan ta bort eller lägga till sidor. Kanske du vill byta ut en sida i filen. Man kan extrahera en sida eller en följd av sidor och spara som ny fil. Lägga till text på sidor. Lägga till eller ta bort bilder. T. ex. logga. Ändra i documentegenskaperna. T.ex. författare, titel etc. Jobba med bokmärken är en annan möjlighet. Ta bort åtkomstskydd (lösenordsskydd), så du kan redigera filen. Det var bara några viktiga exempel.