Skanning | Nyheter

2018-11-12 Lås upp PDF-filer

2018-09-06 OCR av ca 800 sid aktieägaradresser

2018-07-20 Antagna studenter åt Jusek!

2018-05-03 Ca 69000 politiska kandidater inlästa åt Expressen!

2018-04-26 Skanning & OCR-läsning av 5000 sid lantmäteridata åt Valueguard

2018-02-28 Läkare/sjuksköterskor åt NextMedia

2018-02-02 Valda politiker från Valmyndigheten

2017-11-27 Skanning av markupplåtelseavtal till PDF-filer i färg

2017-11-10 Ny extremdator med Intels 18-kärniga CORE i9 7980xe processor!

2017-10-25 OCR av 1800 sid aktieägaradresser

2017-08-28 OCR skanning av kyrkopolitiker åt Expressen!

2017-07-24 Verket för högskoleservice åt Jusek!

2017-07-07 Skanning & OCR-läsning av lantmäteridata åt Valueguard

2017-06-30 Enkät om hemlöshet i 2 varianter åt Socialstyrelsen

2017-04-09 OCR-konvertering av ca 14730 valda politiker åt Expressen

2017-02-03 Skanning och OCR-inläsning av 800.000 dataposter hundägardata

2016-12-14 Skanning och OCR-inläsning av 250.000 läkare och sjuksköterskor

2016-11-27 Enkät på asylboenden åt Expressen

2016-10-05 Intels 10-core-processor

2016-06-07 >130.000 sidor fastighetsdata

2016-04-12 4700 sid Ladok åt Jusek

2016-03-31 Enkät åt Röda korsets högskola

2016-03-11 Enkät "Hälsa i Västerbotten"

2015-12-01 OCR av 2500 sid Euroclear

2015-08-28 Script för bearbetning av dagboksblad i PDF-format från tingsrätterna, hovrätterna och högsta domstolen åt Nyhetsbyrån SIREN

2015-03-19 ca 20,000 hundägaradresser åt Postnord

2015-01-30 OCR av 140,000 sjuksköterskor

Skanning | Kontakt

Skriptoriet OCR scanning
Knutstorpsvägen 2
268 77 Kågeröd

VD & operatör Niclas Wallin
Tel: 0418-800 01
Mob: 070-722 81 48
E-post: niclas@skriptoriet.se

Databehandling av PDF-filer med hjälp av script

Textextraktion ur PDF-filer

Vi kan extrahera textområden ur PDF-filer med hjälp av script och bygga upp innehåll till en databas på det viset.

Vanliga uppgifter kan vara flexibel inhämtning av orgnummer och/eller personnummer, datum, ordernummer eller liknande. Vi kan även läsa in hela tabeller i de flesta fall.

Det kan t. ex. gälla myndighetshandlingar som domslut, kontoutdrag osv, handlingar från Bolagsverket etc. Det krävs att det finns ett textlager. Är det endast bilder i PDFerna så måste filerna OCR-tolkas först, vilket vi också kan hjälpa till med!

Att extrahera ”levande” text direkt istället för att OCR-tolka har fördelen att det inte finns risk för OCR-fel! Det är också otroligt snabbt jämfört med OCR-tolkning. Extraktionsområden kan sättas med hjälp av exakta koordinater, eller med hjälp av koordinater relativt keywords, eller relativt ”regular expressions” (sökmönster).

Att bearbeta ett OCR-baserat textlager kräver mycket mer programmering, eftersom du måste ta hänsyn till vissa vanliga OCR-fel och annat. Men vi kan ofta komma rätt långt även med ett sådant material.

Med 100% specialanpassat script så går det oftast att få ut exakt det ni vill ha!

Andra exempel på databehandling av PDF-filer

Det går att göra många saker, även om möjligheten att ändra befintlig text är rätt begränsad pga av problem med omflödning av text. PDF är ju ett presentationsformat i första hand. Men man kan ta bort eller lägga till sidor. Kanske du vill byta ut en sida i filen. Man kan extrahera en sida eller en följd av sidor och spara som ny fil. Lägga till text på sidor. Lägga till eller ta bort bilder. T. ex. logga. Ändra i documentegenskaperna. T.ex. författare, titel etc. Jobba med bokmärken är en annan möjlighet. Ta bort åtkomstskydd (lösenordsskydd), så du kan redigera filen. Det var bara några viktiga exempel.