|
| Godt OCR program til Linux Fra : Ukendt |
Dato : 02-02-06 14:25 |
|
Er her nogen som kender et godt OCR program til Linux? Jeg har
eksperimenteret lidt med gocr. Men jeg synes den laver for mange
fejl. Selv på de mest tydlige input er der tegn, som den næsten
konsekvent læser forkert. Derudover har den svært ved at holde
styr på linierne hvis der er varierende fontstørrelser. Den kan
finde på at blande to linier sammen ved at tage skiftevis et
tegn fra den øverste og et tegn fra den nederste.
Hvis kontrasten ikke er stor, men jeg stadigvæk selv nemt kan
læse teksten, så giver gocr som regl meldingen:
# Warning: frame_nn stack oerflow
og gør derefter i uendelig løkke.
Er der evt. nogle ting man kan gøre som kan hjælpe gocr med at
læse teksten? Eller findes der et bedre program til formålet?
--
Kasper Dupont -- Rigtige mænd skriver deres egne backupprogrammer
#define _(_)"d.%.4s%."_"2s" /* This is my new email address */
char*_="@2kaspner"_()"%03"_("4s%.")"t\n";printf(_+11,_+6,_,6,_+2,_+7,_+6);
| |
Klaus Ellegaard (02-02-2006)
| Kommentar Fra : Klaus Ellegaard |
Dato : 02-02-06 14:38 |
|
Kasper Dupont <14144208420595479667@expires.16.mar.2006.kasperd.net.invalid> writes:
>Er her nogen som kender et godt OCR program til Linux?
Et projekt, jeg perifert er tilknyttet, kom til den lidt kedelige
konklusion, at der ikke findes commercial-grade OCR-systemer til
UNIX. Så noget mod projektets vilje har man valgt at lade OCR-
delen af projektet køre på Windows.
Mvh.
Klaus.
| |
Ukendt (02-02-2006)
| Kommentar Fra : Ukendt |
Dato : 02-02-06 15:31 |
|
Klaus Ellegaard wrote:
>
> Kasper Dupont <14144208420595479667@expires.16.mar.2006.kasperd.net.invalid> writes:
>
> >Er her nogen som kender et godt OCR program til Linux?
>
> Et projekt, jeg perifert er tilknyttet, kom til den lidt kedelige
> konklusion, at der ikke findes commercial-grade OCR-systemer til
> UNIX. Så noget mod projektets vilje har man valgt at lade OCR-
> delen af projektet køre på Windows.
Det kunne også være man bare skulle prøve at rette nogle af
fejlene i gocr. Jeg var lige ude for, at den begyndte at blande
bogstaver sammen fra to linier som faktisk var skrevet med samme
font og størrelse. Og der var enda en tom linie imellem. Det er
mig ganske ubegribeligt, hvordan bogstaverne kan blive så forkert
placeret. Jeg er ret sikker på, at hvis jeg fik at vide hvilke
bogstaver der var fundet, og hvor på papiret, de var fundet, så
ville jeg nemt kunne lave en bedre algoritme til at sætte dem
sammen til linier.
--
Kasper Dupont -- Rigtige mænd skriver deres egne backupprogrammer
#define _(_)"d.%.4s%."_"2s" /* This is my new email address */
char*_="@2kaspner"_()"%03"_("4s%.")"t\n";printf(_+11,_+6,_,6,_+2,_+7,_+6);
| |
Ukendt (02-02-2006)
| Kommentar Fra : Ukendt |
Dato : 02-02-06 15:58 |
|
Kasper Dupont wrote:
>
> Det kunne også være man bare skulle prøve at rette nogle af
> fejlene i gocr.
Jeg har kigget lidt på ocr0.c, det kan også være man bare skulle
lade være. (Dem der evt. har læst ocr0.c ved hvad jeg mener).
Måske skulle jeg bare lave noget, der kan klippe input op i
linier og sende dem enkeltvis til gocr.
--
Kasper Dupont -- Rigtige mænd skriver deres egne backupprogrammer
#define _(_)"d.%.4s%."_"2s" /* This is my new email address */
char*_="@2kaspner"_()"%03"_("4s%.")"t\n";printf(_+11,_+6,_,6,_+2,_+7,_+6);
| |
Claus Alboege (02-02-2006)
| Kommentar Fra : Claus Alboege |
Dato : 02-02-06 16:02 |
|
Kasper Dupont
<88098017573039205327@expires.16.mar.2006.kasperd.net.invalid> writes:
> Kasper Dupont wrote:
>>
>> Det kunne også være man bare skulle prøve at rette nogle af
>> fejlene i gocr.
>
> Jeg har kigget lidt på ocr0.c, det kan også være man bare skulle
> lade være. (Dem der evt. har læst ocr0.c ved hvad jeg mener).
> Måske skulle jeg bare lave noget, der kan klippe input op i
> linier og sende dem enkeltvis til gocr.
Har du testet andre OCR implementationer?
http://freshmeat.net/search/?q=ocr§ion=projects
/Claus A
| |
Ukendt (02-02-2006)
| Kommentar Fra : Ukendt |
Dato : 02-02-06 18:38 |
|
Claus Alboege wrote:
>
> Har du testet andre OCR implementationer?
Nej, jeg havde ikke lige kendskab til andre.
>
> http://freshmeat.net/search/?q=ocr§ion=projects
Tak for tippet, dem vil jeg lige prøve nogle af og så melde
tilbage hvis jeg finder noget bedre.
--
Kasper Dupont -- Rigtige mænd skriver deres egne backupprogrammer
#define _(_)"d.%.4s%."_"2s" /* This is my new email address */
char*_="@2kaspner"_()"%03"_("4s%.")"t\n";printf(_+11,_+6,_,6,_+2,_+7,_+6);
| |
Ukendt (03-02-2006)
| Kommentar Fra : Ukendt |
Dato : 03-02-06 10:49 |
|
Kasper Dupont wrote:
>
> Claus Alboege wrote:
> >
> > http://freshmeat.net/search/?q=ocr§ion=projects
>
> Tak for tippet, dem vil jeg lige prøve nogle af og så melde
> tilbage hvis jeg finder noget bedre.
Udfra oversigten var det GNU Ocrad, der lød mest lovende. Jeg
prøvede, og har indtil videre konstateret følgende:
- Den understøtter kun to input formater. Men det kan man
naturligvis scripte sig ud af.
- Den laver også mange fejl, men for det meste er der blot
tale om støj der bliver fortolket som _'.;, og lignende.
- Den understøtter tilsyneladende ikke danske tegn. Jeg må
lige undersøge, om det kan slås til på en eller anden måde.
- Jeg tror umiddelbart den er lidt hurtigere end gocr, og den
er ikke gået i uendelig løkke på nogen af mine første forsøg.
--
Kasper Dupont -- Rigtige mænd skriver deres egne backupprogrammer
#define _(_)"d.%.4s%."_"2s" /* This is my new email address */
char*_="@2kaspner"_()"%03"_("4s%.")"t\n";printf(_+11,_+6,_,6,_+2,_+7,_+6);
| |
Thorbjørn Ravn Ander~ (02-02-2006)
| Kommentar Fra : Thorbjørn Ravn Ander~ |
Dato : 02-02-06 17:13 |
|
Kasper Dupont <88098017573039205327@expires.16.mar.2006.kasperd.net.invalid> writes:
> Jeg har kigget lidt på ocr0.c, det kan også være man bare skulle
> lade være. (Dem der evt. har læst ocr0.c ved hvad jeg mener).
Det lyder som om de har seriøst brug for kvalificeret hjælp. Det
lyder da lige som noget for dig.
--
Thorbjørn Ravn Andersen
| |
Kent Friis (02-02-2006)
| Kommentar Fra : Kent Friis |
Dato : 02-02-06 18:10 |
|
Den Thu, 2 Feb 2006 13:38:27 +0000 (UTC) skrev Klaus Ellegaard:
> Kasper Dupont <14144208420595479667@expires.16.mar.2006.kasperd.net.invalid> writes:
>
>>Er her nogen som kender et godt OCR program til Linux?
>
> Et projekt, jeg perifert er tilknyttet, kom til den lidt kedelige
> konklusion, at der ikke findes commercial-grade OCR-systemer
Hvad er "commercial-grade"?
Noget med regelmæssige geninstallationer, crashes, pay per incident
support der bliver ved med at stille om i en uendelighed, og stadig
ikke har løst problemet efter fire år?
> til
> UNIX. Så noget mod projektets vilje har man valgt at lade OCR-
> delen af projektet køre på Windows.
Det ville jeg også gøre hvis der var krav om commercial-grade
problemer.
Mvh
Kent
--
Hard work may pay off in the long run, but laziness pays off right now.
| |
Peter Mogensen (03-02-2006)
| Kommentar Fra : Peter Mogensen |
Dato : 03-02-06 11:52 |
|
Har du kigget på Clara?
http://freshmeat.net/projects/claraocr/
Jeg ved ikke hvor godt det er, men så vidt jeg kan se er det mest
beregnet til større opgaver, hvor det kan betale sig at træne systemet
på det aktuelle input.
Peter
| |
Ukendt (03-02-2006)
| Kommentar Fra : Ukendt |
Dato : 03-02-06 12:29 |
|
Peter Mogensen wrote:
>
> Har du kigget på Clara?
>
> http://freshmeat.net/projects/claraocr/
>
> Jeg ved ikke hvor godt det er, men så vidt jeg kan se er det mest
> beregnet til større opgaver, hvor det kan betale sig at træne systemet
> på det aktuelle input.
Jeg har downloadet den, men fik den ikke testet med det samme
fordi jeg kun havde en kommandolinie. Jeg vil kigge lidt nærmere
på den i løbet af weekenden. Der stod at den var i beta, så man
burde ikke kunne forvente sig et lige så godt resultat som fra
ocrad, men det kan man selvfølgelig ikke nødvendigvis regne med.
--
Kasper Dupont -- Rigtige mænd skriver deres egne backupprogrammer
#define _(_)"d.%.4s%."_"2s" /* This is my new email address */
char*_="@2kaspner"_()"%03"_("4s%.")"t\n";printf(_+11,_+6,_,6,_+2,_+7,_+6);
| |
jesper@FJERNveloce.d~ (03-02-2006)
| Kommentar Fra : jesper@FJERNveloce.d~ |
Dato : 03-02-06 13:30 |
| | |
|
|