Kako uporabljati Tesseract OCR v Javi

Vsebina

Navodila

Tesseract knjižnice za optično prepoznavanje znakov razvijalcem ponujajo način za skeniranje dokumentov in besedila v sliko. Uporabljajo se za shranjevanje slik dokumentov, ki jih ne potrebujete več na papirju. Lahko jih uporabite v Javi z ustvarjanjem kontrolnih zank za vsak znak in pisanje vsakega v datoteko. Če želite uporabljati knjižnice Tesseract, morate za funkcije OCR vključiti Java "imenski prostor".

Navodila

Knjižnice Tesseract uporabnikom omogočajo skeniranje dokumentov (John Foxx / Stockbyte / Getty Images)

Z desno tipko miške kliknite datoteko Java, ki jo želite uporabiti za ustvarjanje dokumenta OCR. Kliknite »Odpri z« in izberite izbrani urejevalnik Java.
Dodajte imenski prostor knjižnice OCR na vrh datoteke. Kopirajte in prilepite naslednjo kodo v izvorno datoteko:

com.touch.robot.imagecomparison.tesseractocr
Ustvarite kodo, odgovorno za skeniranje znakov za datoteko. Naslednja koda na primer ustvari zanke skozi vsak znak v datoteki in jih zapiše v slikovno datoteko:

(I = 1; {i} <{vrstice} +1; i = {i}) je niz vrednosti, ki so definirane kot: +1) {Typeline "{_TOCR_LINE {i}}"}
Kliknite gumb »Shrani« v urejevalniku in kliknite »Zaženi«, da zaženete kodo v prevajalniku Java.