3 berichten aan het bekijken - 1 tot 3 (van in totaal 3)
  • Q:
    Bijdrager
    jantje bee

    tools voor multi layer pdf detectie

    dag,

    ik heb voor mijn werk een slordige 30.000 digitale knipsels in OF image only pdf OF multilayer pdf staan.

    ze moeten worden ingeladen in een document ocr en indexeer programma.
    Daar kan ik slechts 1 type pdf tegelijk inladen.
    dus als ik een import job maak voor image only pdfs, dan worden multi layer image en text niet herkend maar wel geimporteerd. en zit ik met ‘lege’pdf bestanden
    als ik een filter maak voor mult layer text en image files is het omgekeerd.

    aan de filenaam is het niet te herkennen of iets multilayer is of image only.

    is er een tool die het formaat verschil kan detecteren en het een van het andere kan scheiden?
    op wat voor manier dan ook, karakters in de naam plakken; in een aparte map gooien wat dan ook. 30.000 stuks ga ik niet met de hand openen….

    ik hoop dat iemand een goede tip heeft.

    bedankt alvast,

    j.

    Bijdrager
    Melgior

    Ik denk niet dat er iets kant en klaars is, maar je zou zelf iets kunnen maken met Automator. Er is een Automator actie die de tekst uit een PDF bestand extraheert en opslaat in een tekst bestand. Vervolgens zou je met Automator kunnen kijken hoe groot dat bestand is (het pad naar dit bestand wordt doorgegeven naar de volgende taak). Als de PDF alleen afbeeldingen bevat blijft het tekstbestand leeg en dus 0kb groot. Vervolgens is er vast ook wel weer een manier om het pdf bestand dan naar de ene of de andere map te verplaatsen afhankelijk van de uitkomst.

    Bijdrager
    jantje bee

    ja, kijk, zoiets… ik ga eens kijken of ik zoiets kan bedenken…

    spannend!
    dank

    j.

3 berichten aan het bekijken - 1 tot 3 (van in totaal 3)

Je moet ingelogd zijn om een reactie op dit onderwerp te kunnen geven.