Hoe werkt OCR en tekstherkenning?
Benieuwd hoe OCR werkt? Hier vind je onze veelgestelde vragen over OCR en tekstherkenning. Staat jouw vraag er niet bij? Neem dan contact met ons op, voor advies op maat!
OCR (Optical Character Recognition) is het vertalen van patronen in een afbeelding, naar (bijvoorbeeld) alfabetische karakters.
De software beschikt over patronen van pixels die vertaald kunnen worden naar een ASCII karakter. Doordat de software onderscheidt kan maken tussen achtergrond en karakter kan een patroon in pixels herkend worden. Deze wordt vervolgens tegen een index met ASCII karakters gelegd, om zo tot een aannemelijk resultaat te komen.
Optical Character Recognition (OCR), staat voor het automatisch herkennen van karakters. Als bron materiaal worden afbeeldingen gebruikt waar tekst op staat. Door middel van patroon herkenning kan de software automatisch de karakters herkennen en kan een afbeelding dus omgezet worden in doorzoekbare (en/of bewerkbare) tekst.
Dit is het maken van afbeeldingen van documenten. In feite wordt er op heel hoge snelheid elke keer een foto van uw document gemaakt.
Bij het digitaliseren, of scannen, van beelden wordt een raster techniek gebruikt. Hierbij wordt er over het beeld een raster gelegd waarbinnen puntmetingen worden uitgevoerd. Deze puntmetingen worden ook wel pixels genoemd. Hoe meer pixels, des te meer details.
Deze pixels worden vervolgens weer gebruikt voor OCR oftewel tekstherkenning.
OCR werkt met een minimale resolutie van 300 DPI. Zodat het karakter goed leesbaar gemaakt kan worden voor de software.
De resolutie is het aantal pixels per oppervlakte eenheid, deze wordt bij scanning aangeduid als DPI (of PPI), wat staat voor Dots Per Inch (PPI is de officiële term, namelijk Pixels per Inch). Voor het maken van scans is de meest gebruikte kwaliteit 300 DPI. 300 pixels in de breedte bij 300 pixels in de lengte per inch. Het detail bij deze resolutie is dermate hoog dat bij het inzoomen van scans details goed leesbaar blijven, terwijl de bestandsgrote en herkenningssnelheid acceptabel blijft.
Het is belangrijk voor een goede herkenning dat de tekst recht staat of tekst richting duidelijk naar voren komt. Als de tekst door scheuren, vouwen of andere afwijkingen niet recht genoeg staat, wordt het voor de software lastig om de tekst goed te herkennen.
Dit kan softwarematig opgelost worden door de afbeelding recht te zetten. Dit heet deskew of deskewing.
Contrast
Een andere belangrijke variabele bij OCR, het digitaliseren en herkenbaar maken van karakters, is het contrast. En dan met name het contrast met de achtergrond (helderheid contrast). Denk hierbij aan een zo wit mogelijke achtergrond met een zwart karakter.
Het karakter moet duidelijk en goed te onderscheiden zijn van de achtergrond. Dit doen wij door met uitvalkleuren en/of indexeerbare kleuren te werken. Hierdoor wordt het contrast zo groot mogelijk gemaakt.
Dit is belangrijk omdat, met name bij archieven, het bronmateriaal vergeeld of de inkt verbleekt. Hierdoor wordt de contrast verhouding aangetast en is de achtergrond voor onze software moeilijk te onderscheiden van de tekst. Door de tekst te benadrukken (zwarter te maken) en de achtergrond helderder, ontstaat er een hoger contrast.
Door het contrast softwarematig te verhogen, kan het voorkomen dat details verloren gaan (in de achtergrond op gaan). Het is daarom niet mogelijk alle document soorten te kunnen herkennen.
Nee, hoe OCR werkt is niet volledig betrouwbaar, maar er kan wel een hoge mate van betrouwbaarheid gecreëerd worden.
Omdat de software zich baseert op patroon herkenning en daar een zo aannemelijk mogelijk resultaat aan koppelt (ASCII karakter), is het niet 100% betrouwbaar. U kunt zich vast wel voorstellen dat een ‘I’ (hoofdletter i) en een ‘l’ (kleine letter l) op deze manier niet van elkaar te onderscheiden zijn. Een ander veel voorkomende fout is de 0 en O.
Het onderscheidt tussen deze pixel patronen is nagenoeg te verwaarlozen, daarom is het lastig voor de software om daar een keuze in te maken.
De betrouwbaarheid kan echter aanzienlijk verbeterd worden wanneer de software op basis van context werkt. Als u weet dat er geen numerieke waarden kunnen voorkomen in de tekst, kunnen de numerieke waarden uitgesloten worden en voorkomt u dat (bijvoorbeeld) de 0 herkend wordt in plaats van de O.
Dit gaat nog veel verder, wanneer er bijvoorbeeld gewerkt wordt met woorden boeken (zoals gebruikt in spellingscontroles), of formattering (zoals gebruikt wordt bij postcode herkenning). Dan kan de kwaliteit van de herkenning aanzienlijk toenemen.
Maar om tot een 99,99% betrouwbaar resultaat te komen dient u een visuele controle toe te passen. Bij een visuele controle geeft onze software alle karakters (of woorden) waarover hij twijfelt ter visuele controle aan de gebruiker. Waarbij wij de software zodanig instellen dat twijfelgevallen lager dan een bepaald percentage, ter visuele controle, aangeboden worden. Hierdoor kan met 99,99% zekerheid vastgesteld worden dat de tekst goed herkend is.
Hier lees je meer hoe wij jouw documenten kunnen herkennen en verwerken.
Ja. Niet alleen karakters kunnen herkend worden maar zelfs het font, afbeeldingen en de opmaak waarin de tekst van de bron is opgemaakt kunnen worden herkend. Dit wordt ook wel “Full text OCR” genoemd. Dit passen wij vooral toe bij het herkennen van boeken of het scannen naar bewerkbare documenten.
Wil je meer weten over onze dienstverlening of over data extractie en automatische tekstherkenning? Kijk dan eens naar onze oplossing voor het verwerken van document gegevens.