Les partenaires publicitaires:

Comment extraire le texte d'un document pdf

Il peut être très frustrant d'essayer d'extraire du texte d'un fichier PDF pour une utilisation dans une autre application. Il est fréquent pour les graphiques à obtenir de la manière ou la mise en page du document pour le rendre difficile pour le test pour être transféré dans des phrases significatives. Bien qu'il soit impossible d'extraire du texte avec une approche de copier-coller, il peut prendre beaucoup de temps et ne permet pas de texte du fichier PDF à exporter comme un format différent. Il ya, cependant, quelques moyens pour extraire du texte d'un fichier PDF.

Choses que vous devez

  • fichier PDF
  • Adobe Acrobat Reader
  • Compte Gmail (facultatif)
  • PDF au logiciel de conversion de texte (facultatif)

Extrait du texte en utilisant Acrobat Reader

  • 1

    Ouvrez le fichier dans Acrobat Reader. Dans Windows, sélectionnez "Fichier - gt; Exporter le document en texte," nommer le document et l'enregistrer.

  • 2


    Copiez le texte sur un Mac ou Linux OS en accédant au menu Affichage et en choisissant "Continu" ou "Continue-Orientation." (L'ancien vous fournira le texte dans une colonne, tandis que le second formater le texte comme pages côte-à-côte.) Allez à "Modifier - gt; Tout Sélectionner" et puis" Modifier - gt; Copier."

  • 3

    Utilisez l'outil Sélectionnez si vous voulez seulement pour extraire une partie du texte. Cliquez sur le "Texte Sélectionnez" outil, puis choisissez les informations que vous souhaitez. Dans un document formaté en plusieurs colonnes, vous aurez besoin d'utiliser le "Colonne Sélectionnez" premier outil. Aller à "Modifier - gt; Copier."

Conversion de PDF à HTML

  • 1



    Utilisez Gmail comme un raccourci. Joignez le fichier PDF à un email et l'envoyer à votre compte Gmail. Lorsque vous ouvrez le courriel que vous verrez un certain nombre d'options à côté de la pièce jointe. Choisir "Afficher au format HTML" et enregistrez le fichier qui ouvre dans une fenêtre séparée. Bien que vous ne serez pas en mesure d'afficher des graphiques, le fichier HTML conservera le formatage du texte du document.

  • 2

    Extraire et convertir des fichiers sur la ligne de commande. Les utilisateurs Linux peuvent utiliser une commande de conversion de base qui va changer un fichier .pdf dans un fichier .txt: "filename.pdf pdftotext." Assurez-vous de remplacer le nom de fichier avec le nom du fichier PDF.

  • 3

    Télécharger un fichier PDF au programme de conversion de texte. Il ya un certain nombre de programmes ouverts freeware disponibles tels que PDFBox et facile PDF source et Text Converter (voir Ressources ci-dessous). Beaucoup de ces programmes peut également convertir des fichiers PDF au format HTML ainsi.

Conseils & Avertissements

  • Déterminer si le document est formaté pour contenir à la fois le texte et les graphiques. L'approche Adobe Acrobat ne fonctionnera que si le fichier PDF contient les deux- il ne fonctionnera pas pour les fichiers avec seulement des images. Dans certains cas, le texte dans un document PDF est en fait formaté comme une image. Cela arrive souvent quand un document original est numérisé et un fichier PDF est créé à partir de l'image numérisée.
  • Soyez prêt à reformater une partie du texte lors de l'utilisation d'Acrobat Reader. Cette manière d'extraction exporte simplement le fichier PDF à un fichier texte - il ne conservera pas nécessairement conserver la mise en forme. Toutefois, si vous avez juste besoin d'utiliser les mots cela ne devrait pas être un problème.
» » » » Comment extraire le texte d'un document pdf