Hur man extraherar inbäddade bilder från en PDF-fil i Ubuntu med hjälp av PDFImages

Medan vi redan vet hur man redigerar befintliga PDF-filer i Ubuntu finns det tillfällen då kravet är att använda alla eller några av bilderna i en PDF-fil. Manuell kopiering är definitivt ett alternativ, men det är inte en tidsbesparande, särskilt när PDF-filen innehåller ett stort antal bilder.

Ett verktyg existerar, dubblerade PDFImages, vilket gör bildutdragning från PDF-filer till en cakewalk. I den här artikeln kommer vi att diskutera det här verktyget med lättillgängliga exempel. Observera att alla exemplen som används i artikeln testas på Ubuntu 14.04 LTS med version 0.24.5 av verktyget.

Vad är PDFImages?

Som redan diskuterat är PDFImages ett kommandoradsverktyg som du kan använda för att extrahera bilder från en PDF-fil. Verktygets man-sida säger att den läser in PDF-filen, skannar den och producerar en portabel Pixmap (PPM), Portable Pixmap (PBM) eller JPEG-fil för varje bild den möter i PDF-filen.

Ladda ner och installera

Om verktyget inte redan är installerat i din Ubuntu-låda kan du hämta och installera det med följande kommando:

 sudo apt-get install poppler-utils

Förutom PDFImages innehåller paketet "poppler-utils" flera andra kommandoradsverktyg för att få information från PDF-dokument, konvertera dem till andra format eller manipulera dem.

Användande

Kommandoradsverktyget PDFImages kräver i sin mest grundläggande form två argument: skriv in PDF-fil och sökvägen till katalogen där du vill att verktyget ska spara bilderna. Till exempel, i mitt fall försökte jag extrahera bilder från en PDF-fil med namnet "christmas_story.pdf" och spara dem till en katalog med namnet "pdfimages".

 pdfimages /home/himanshu/Downloads/christmas_story.pdf / home / himanshu / Nedladdningar / pdfimages /

Ovanstående kommando skapade följande filer i målkatalogen:

 ls / home / himanshu / Nedladdningar / pdfimages / -000.ppm -001.ppm -002.ppm -003.ppm -004.ppm -005.ppm -006.ppm -007.ppm

Som du kan se i utmatningen ovan börjar filnamnet med en bindestreck (-) följt av ett nummer. För dem som undrar varför namnet börjar med en bindestreck, ger verktyget dig flexibiliteten att prefixa något ord före bindestrecket så att du kan skapa egna namn för utmatningsbilderna. Du kan göra detta genom att lägga till det specifika ordet i sökvägen för destinationskatalogen när du kör kommandot.

Till exempel lade jag till ordet "bild" till sökvägen till målkatalogen:

 pdfimages /home/himanshu/Downloads/christmas_story.pdf / home / himanshu / Nedladdningar / pdfimages / image

Och de utgående filerna som produceras i detta fall bär följande namn:

 ls / home / himanshu / Nedladdningar / pdfimages / image-000.ppm image-001.ppm image-002.ppm image-003.ppm image-004.ppm image-005.ppm image-006.ppm image-007.ppm

Det är värt att nämna att i motsats till vad verktygets man sida säger, produceras två bilder för varje bild i PDF-filen, av vilken en är tom medan den andra är användbar. I mitt fall var de udda nummererade bilderna tomma:

Om du fortsätter kan du också ändra filformatet för output från "ppm" till "jpeg", vilket du kan göra med alternativet -j . Tänk på att med det här alternativet sparas endast bilder i DCT-format som JPEG-filer - alla icke-DCT-bilder sparas i PBM / PPM-format som vanligt.

Du kan också ange vilka sidor du vill att verktyget ska skanna. På det här sättet får du bara de bilderna i produktionen som finns på dessa sidor. För att aktivera det här alternativet måste du använda -f alternativet (följt av sidnumret) och -l (följt av sidnumret) för att ange start- och slutsidor respektive.

Till exempel ville jag att verktyget bara skulle extrahera bilder som finns på den första sidan i PDF-filen, så jag använde följande kommando:

 pdfimages -f 1 -l 1 /home/himanshu/Downloads/christmas_story.pdf / home / himanshu / Nedladdningar / pdfimages /

Och i målkatalogen producerades endast två bilder (totalt fyra inklusive de tomma):

 ls / home / himanshu / Nedladdningar / pdfimages / -000.ppm -001.ppm -002.ppm -003.ppm

Slutsats

PDFImages är definitivt ett praktiskt verktyg om ditt arbete innebär att hantera PDF-filer och bilderna som de innehåller, och som du kanske har observerat nu är det lätt att lära sig och enkelt att använda. För att lära dig mer om verktyget, gå till sin man sida.