Skanning | Nyheter

2019-12-03 Overheadskanning av reseräkningsrapporter

2019-11-27 OCR av ca 150,000 sjuksköterskor från Socialstyrelsens listor

2019-09-09 Skanning & OCR-läsning av nya, uppdaterade lantmäteridata åt Valueguard

2019-07-21 OCR-konvertering av 1205 sidor antagna studenter från Verket för högskoleservice åt Jusek!

2019-07-20 OCR-konvertering av 429 sidor antagna studenter från VHS åt Sveriges Ingenjörer!

2019-02-04 Framtagning av 150,000 OCR-nummer åt H-tryck AB!

2019-01-28 Antagna studenter åt Fackförbundet ST!

2019-01-14 Antagna studenter åt Sveriges Ingenjörer!

2018-11-12 Lås upp PDF-filer

2018-09-06 OCR av ca 800 sid aktieägaradresser

2018-07-20 Antagna studenter åt Jusek!

2018-05-03 Ca 69000 politiska kandidater inlästa åt Expressen!

2018-04-26 Skanning & OCR-läsning av 5000 sid lantmäteridata åt Valueguard

2018-02-28 Läkare/sjuksköterskor åt NextMedia

2018-02-02 Valda politiker från Valmyndigheten

2017-11-27 Skanning av markupplåtelseavtal till PDF-filer i färg

2017-11-10 Ny extremdator med Intels 18-kärniga CORE i9 7980xe processor!

2017-10-25 OCR av 1800 sid aktieägaradresser

2017-08-28 OCR skanning av kyrkopolitiker åt Expressen!

2017-07-24 Verket för högskoleservice åt Jusek!

2017-07-07 Skanning & OCR-läsning av lantmäteridata åt Valueguard

2017-06-30 Enkät om hemlöshet i 2 varianter åt Socialstyrelsen

2017-04-09 OCR-konvertering av ca 14730 valda politiker åt Expressen

2017-02-03 Skanning och OCR-inläsning av 800.000 dataposter hundägardata

2016-12-14 Skanning och OCR-inläsning av 250.000 läkare och sjuksköterskor

2016-11-27 Enkät på asylboenden åt Expressen

2016-10-05 Intels 10-core-processor

2016-06-07 >130.000 sidor fastighetsdata

2016-04-12 4700 sid Ladok åt Jusek

2016-03-31 Enkät åt Röda korsets högskola

2016-03-11 Enkät "Hälsa i Västerbotten"

2015-12-01 OCR av 2500 sid Euroclear

2015-08-28 Script för bearbetning av dagboksblad i PDF-format från tingsrätterna, hovrätterna och högsta domstolen åt Nyhetsbyrån SIREN

2015-03-19 ca 20,000 hundägaradresser åt Postnord

2015-01-30 OCR av 140,000 sjuksköterskor

Skanning | Kontakt

Skriptoriet OCR scanning
Knutstorpsvägen 2
268 77 Kågeröd

VD & operatör Niclas Wallin
Mob: 070-722 81 48
E-post: niclas@skriptoriet.se

Textextraktion & behandling av PDF

Textextraktion ur PDF-filer

Vi kan extrahera textområden ur PDF-filer med hjälp av script och bygga upp innehåll till en databas på det viset. Detta är ett mer kraftfullt och mer flexibelt alternativ än att använda ett OCR program med avancerade funktioner. Det är dessutom snabbare!

Vanliga uppgifter kan vara flexibel inhämtning av orgnummer och/eller personnummer, datum, ordernummer eller liknande. Vi kan även läsa in hela tabeller i de flesta fall.

Det kan t. ex. gälla myndighetshandlingar som domslut, kontoutdrag osv, handlingar från Bolagsverket etc. Det krävs att det finns ett textlager. Är det endast bilder i PDFerna så måste filerna OCR-tolkas först, vilket vi också kan hjälpa till med!

Att extrahera ”levande” text direkt istället för att OCR-tolka har fördelen att det inte finns risk för OCR-fel! Det är också otroligt snabbt jämfört med OCR-tolkning. Extraktionsområden kan sättas med hjälp av exakta koordinater, eller med hjälp av koordinater relativt keywords, eller relativt ”regular expressions” (sökmönster).

Att bearbeta ett OCR-baserat textlager kräver mycket mer programmering, eftersom du måste ta hänsyn till vissa vanliga OCR-fel och annat. Men vi kan ofta komma väldigt långt även med ett sådant material, särskilt om/när vi kombinerar detta med manuell verifiering mot bild.

Med 100% specialanpassat script så går det oftast att få ut exakt det ni vill ha!

Andra exempel på databehandling av PDF-filer

Det går att göra många saker, även om möjligheten att ändra befintlig text är rätt begränsad pga av problem med omflödning av text. PDF är ju ett presentationsformat i första hand. Men man kan ta bort eller lägga till sidor. Kanske du vill byta ut en sida i filen. Man kan extrahera en sida eller en följd av sidor och spara som ny fil. Lägga till text på sidor. Lägga till eller ta bort bilder. T. ex. logga. Ändra i documentegenskaperna. T.ex. författare, titel etc. Jobba med bokmärken är en annan möjlighet. Ta bort åtkomstskydd (lösenordsskydd), så du kan redigera filen. Det var bara några viktiga exempel.