RSS
Donation (PayPal)

Balabolka Utilitaire d'extraction de texte du fichier

Le programme permet d'extraire le texte de différents types de fichiers. L’extrait du texte peut être combiné en un seul fichier et/ou fractionné en plusieurs fichiers. Les règles de correction de la prononciation de Balabolka peuvent être appliquées au texte.

Les formats suivants sont soutenus : AZW, AZW3, CHM, DjVu, DOC, DOCX, EML, EPUB, FB2, FB3, HTML, LIT, MD, MHT, MOBI, ODP, ODS, ODT, PDB, PDF, PPT, PPTX, PRC, RTF, TCR, TXT, WPD, WRI, XLS, XLSX. L’interface IFilter sera utilisée pour les extensions de fichiers inconnues.

L’utilitaire n’a pas d'interface graphique et fonctionne uniquement en mode texte en ligne de commande ou paramétré par un fichier de configuration. Cela est utile pour intégrer les options de traitement de texte à d'autres applications.

L’ordre d'exécution des opérations :

  1. Extraire le texte de fichier(s).
  2. Formater le texte : supprimer les espaces superflues, sauts de ligne, etc. (si l'option est spécifiée).
  3. Combiner le texte en un seul fichier (si l'option est spécifiée).
  4. Fractionner le texte (si l'option est spécifiée).
  5. Appliquer les règles de correction de la prononciation (si l'option est spécifiée).
  6. Enregistrer le(s) fichier(s) de sortie sur disque.

Télécharger Balabolka (utilitaire d'extraction de texte)


Taille de fichier : Mo
 
Version :
 
Licence : Freeware
 
Système d'exploitation :
Ligne de commande

L’application console est paramétrable en ligne de commande. Les paramètres doivent être séparés par un espace et commencer par « - » (tiret). Utilisez la commande blb2txt.exe avec les options -? ou -h pour obtenir de l'aide sur la syntaxe et les paramètres de ligne de commande.


-f nom_de_fichier
Le nom du fichier d'entrée ou le masque pour un groupe de fichiers d'entrée. La ligne de commande peut contenir quelques options -f.
-fl nom_de_fichier
Ouvrir le fichier avec la liste des fichiers texte (un nom de fichier par ligne). La ligne de commande peut contenir quelques options -fl.
-v nom_de_dossier
Le nom du dossier de sortie pour un fichier texte enregistré.
-p texte
Spécifie le modèle pour le nom de fichier de sortie (par exemple, « Document texte »).
En cas d'absence, le nom du fichier d'entrée est utilisé.
  • Utilisez la variable %FileName% dans le modèle du nom de fichier pour insérer le nom du fichier source (sans extension).
  • Utilisez la variable %FirstLine% pour insérer la première ligne de texte dans le nom du fichier de sortie.
  • Utilisez la variable %Header% pour insérer un titre du sommaire du document.
  • Utilisez la variable %Header% pour insérer un titre du sommaire du document.
  • Utilisez la variable %Title% pour insérer le titre du document HTML (pour les fichiers HTML uniquement).
Attention ! Le caractère % doit être doublé dans le fichier batch. Par exemple : -p %%Number%%
-ext texte
Set the extension for output filenames. The default is « txt ».
-out nom_de_fichier
Le nom complet du fichier de sortie. Il est recommandé d’utiliser ce paramètre uniquement lorsque l’utilitaire est utilisé dans le cadre d’un autre logiciel. Si l’utilitaire est utilisé comme programme externe pour l’extraction de texte, la ligne de commande de l’utilitaire contiendra le nom du fichier d’entrée et le nom du fichier de sortie.
-s
Search input files in subfolders.
-cf
Create a subfolder for each input file. A file name will be used as a name of an output subfolder.
-i
Lit le texte de flux d'entrée standard (STDIN). Si l'option est spécifiée, l'option -f est ignorée.
-o
Enregistre le texte dans le flux de sortie standard (STDOUT). Si l'option est spécifiée, les options -v et -p sont ignorées.
-u
Combine les fichiers texte en un seul fichier de sortie.
-b
Ajoute le numéro de séquence devant le nom de fichier de sortie.
-a
Ajoute le numéro de séquence après le nom de fichier de sortie.
-n nombre_intégral
Spécifie le numéro de séquence de départ pour les fichiers de sortie. La valeur par défaut est 1.
-e encodage
Spécifie l'encodage pour les fichiers de sortie (« ansi », « utf8 » ou « unicode »). La valeur par défaut est « ansi ».
-t nombre_intégral
Spécifie le mode de fractionnement du texte : fichier d’une taille spécifiée. The number corresponds to an amount of characters.
-k mot-clé
Fractionne le texte sur le mot-clé spécial dans le fichier d'entrée. L'option est sensible à la casse. La ligne de commande peut contenir plusieurs options -k.
-r mot-clé
Fractionne le texte sur le mot-clé et le supprime des fichiers de sortie. L'option est sensible à la casse. La ligne de commande peut contenir plusieurs options -r.
-w
Fractionne le texte sur deux lignes vides consécutives.
-l
Fractionne le texte sur les lignes où toutes les lettres sont majuscules.
-c
Définir une méthode de division du texte : utilisez le sommaire du document. Le programme extrait les positions du début des chapitres du livre électronique (si le fichier du livre contient de telles informations).
-toc
Définir une méthode de division du texte : créer un sommaire et diviser en parties. Le programme divise le texte à l’aide des mots-clés trouvés (« chapitre », « volume », etc.). Si le paramètre est utilisé avec le paramètre -c, le programme essaiera d’abord d’extraire le sommaire du document ; en cas d’échec, un nouveau sommaire sera créé.
-m nombre_intégral
Définir la taille minimale de chaque partie lors de la division du texte. Le nombre désigne la quantité de caractères (y compris les espaces, la ponctuation, les caractères interligne et les retours chariot).
-j nombre_intégral
Ignorer le début du chapitre suivant lors de la division du texte, si la taille du texte précédente est inférieure à la taille donnée. Le nombre désigne la quantité de caractères (y compris les espaces et les signes de ponctuation). Ce paramètre est utilisé avec les paramètres -c ou -toc.
-hh texte
Insérer un texte avant les titres (par exemple : ## Chapitre 1).
-d nom_de_fichier
Utilise un dictionnaire pour la correction de la prononciation (fichiers *.BXD, *.REX ou *.DIC). La ligne de commande peut contenir plusieurs options -d.
-if
Utilise l'interface IFilter pour extraire le texte. Si ce type de format est absent dans le système, la méthode par défaut sera utilisée par l'application.
-g nom_de_dossier
Le nom du dossier pour enregistrer les fichiers graphiques extraits du document.
-cvr nom_de_dossier
Le nom du dossier pour enregistrer la couverture du livre extraite du document.
-x file_type
Définir l’extension du document d’entrée. Cela permet de spécifier un type de fichier avec une extension inconnue. Par exemple : -x doc
-pwd texte
Spécifie le mot de passe pour extraire le texte des fichiers PDF cryptés.
-dll file_name
Sets the path and name for 7z.dll (32bit). This library helps to extract text and images from documents inside archives (ZIP, RAR, etc.). 7z.dll is a part of 7-Zip software. If the option is not specified, the application and the library must be in the same folder; otherwise, the application will not be able to extract data from archive files.
-dex file_types
Sets the list of file types for extracting from archives. The option contains a comma-separated list of file types, for example: -dex "fb2,epub"
The command line may contain few options -dex. If the option is not specified, the application will extract text from all files in an archive. If it is necessary to extract text for all file types supported by the application, use the value "all-". For example: -dex all-
-dne file_types
Sets the list of file types to ignore when documents are extracted from archives. The option contains a comma-separated list of file types, for example: -dne "exe,dll"
The command line may contain few options -dne. If the option is not specified, the application will extract text from all files in an archive.
-dp
Display progress information in a console window.
-h
Affiche la liste des options de ligne de commande disponibles.
--remove-spaces ou -rs
Supprime les espaces superflues (deux ou plusieurs espaces de suite, espaces insécables).
--remove-hyphens ou -rh
Supprime tous les traits d'union à la fin des lignes.
--remove-linebreaks ou -rl
Supprime les sauts de ligne à l'intérieur des paragraphes.
--remove-empty-lines ou -rm
Supprime les lignes vides.
--replace-empty-lines ou -rp
Remplace plusieurs lignes vides d’une seule ligne vide.
--remove-square-brackets ou -rsb
Supprime le texte entre [crochets].
--remove-curly-brackets ou -rcb
Supprime le texte entre {accolades}.
--remove-angle-brackets ou -rab
Supprime le texte entre <chevrons>.
--remove-round-brackets ou -rrb
Removes text in (round brackets).
--remove-comments ou -rc
Removes comments. Single-line comments start with // and continue until the end of the line. Multiline comments start with /* and end with */.
--remove-page-numbers ou -rpn
Removes page numbers (it may be useful for DjVu/PDF files).
--fix-ocr-errors ou -ocr
Corrige les erreurs d'OCR (reconnaissance optique de caractères) (pour les langues avec les alphabets cyrilliques uniquement).
--fix-letter-spacing ou -ls
Fixes letter-spacing in words (for example: s p a c e, _w_o_r_d).
--add-period ou -ap
Ajouter un point s’il n’y a pas de signe de ponctuation à la fin du paragraphe.
--extract-summary nombre_intégral or -es nombre_intégral
Extracts a summary (also called "annotation") from FB2/FB3 files and inserts at the beginning of text. Possible values for the integer parameter:
  • 0 - skips a summary (used by default);
  • 1..5 - extracts a summary (a value determines the order in which an author name and a book title are listed).
--skip-notes ou -sn
Skips notes, when the application extracts text from DOCX/FB2/FB3/MD/ODT files.
--include-notes nombre_intégral ou -in nombre_intégral
Includes notes inside text, when the application extracts text from DOCX/FB2/FB3/MD/ODT files.
Possible values for the integer parameter:
  • 0 - removes links to notes from text;
  • 1 - keeps default positions of notes inside text (used by default);
  • 2 - places notes at the end of sentences;
  • 3 - places notes at the end of paragraphs.
--insert-note-begin texte ou -inb texte
Inserts words at the beginning of notes, when notes are included inside text (for example: Editor's note.).
The option is used for DOCX/FB2/FB3/MD/ODT files.
--insert-note-end texte ou -ine texte
Inserts words at the end of notes, when notes are included inside text (for example: End of note.).
The option is used for DOCX/FB2/FB3/MD/ODT files.
--extract-tables nombre_intégral ou -et nombre_intégral
Extract tables from DOCX/FB2/FB3/ODT files. Possible values for the integer parameter:
  • 0 - skips tables;
  • 1 - extract data from each cell as a new text line (this value is used by default);
  • 2 - keep formatting when extracting a table.
--csv-comma
Columns are separated by a comma, when the application extracts data from XLS/XLSX/ODS files (default delimiter for CSV files).
--csv-semicolon
Columns are separated by a semicolon, when the application extracts data from XLS/XLSX/ODS files.
--csv-space
Columns are separated by a blank space, when the application extracts data from XLS/XLSX/ODS files.
--csv-tab
Columns are separated by a tab, when the application extracts data from XLS/XLSX/ODS files.
--csv-double-quote
Uses double-quote characters, if a field must be quoted (export from XLS/XLSX/ODS files).
--csv-single-quote
Uses single-quote characters, if a field must be quoted (export from XLS/XLSX/ODS files).
--eml-save nom_de_dossier
Extracts attachments from EML files and saves to a specified folder.
--eml-att
Extracts the list of attachments from EML files (names of files attached to the message).
--eml-cc
Extracts the header field "Cc" from EML files ("carbon copy"; it specifies additional recipients of the message).
--eml-date format_de_date
Extracts the header field "Date" from EML files (the local time and date when the message was composed and sent). A date format are defined by specifiers (such as "d", "m", "y", etc.). For example: "dd.mm.yyyy hh:nn:ss".
--eml-from
Extracts the header field "From" from EML files (the email address, and optionally the name of the author).
--eml-org
Extracts the header field "Organization" from EML files (the name of the organization through which the sender of the message has net access).
--eml-rt
Extracts the header field "Reply-To" from EML files (the address for replies to go to).
--eml-subj
Extracts the header field "Subject" from EML files (the subject of the message).
--eml-to
Extracts the header field "To" from EML files (the email address, and optionally the name of the message's recipient).



Exemples

blb2txt -f "d:\Docs\book.doc" -v "d:\Text\"

blb2txt -f "d:\Docs\book.doc" -out "d:\Text\book.txt"

blb2txt -f "d:\Docs\*.doc" -f "d:\Docs\*.rtf" -v "d:\Text\" -e utf8 --replace-empty-lines

blb2txt -f "d:\Docs\*.*" -v "d:\Text\" -p "Document" -u

blb2txt -f "d:\Docs\1.doc" -v "d:\Text\" -p "Document" -a -n 20 -t 100000

blb2txt -f "d:\Book\book.fb2" -v "d:\Text\" -p "Livre" -k "CHAPITRE" -k "TABLE DES MATIÈRES"

blb2txt -f "d:\Book\book.epub" -v "d:\Text\" -p "Livre" -r "###"

blb2txt -f "d:\Book\book.fb2" -v "d:\Text\" -p "%Number% - %Header%" -c -j 1024

blb2txt -i -o --remove-spaces --remove-linebreaks --replace-empty-lines

blb2txt -f "d:\Archive\*.zip" -v "d:\Text\" -dll "e:\7-Zip\7z.dll" -dex doc,docx



Fichier de configuration

Les options de ligne de commande peuvent être enregistrées en tant que fichier de configuration « blb2txt.cfg » dans le même dossier que l'application console.

Exemple de fichier de configuration :

-f d:\Docs\*.rtf
-f d:\Books\*.epub
-f d:\Books\*.fb2
-v d:\Text
-b
-n 1
-t 25000
-e utf8
-d d:\Dict\rules.bxd
--remove-spaces
--remove-linebreaks
--replace-empty-lines

Le programme peut combiner les options du fichier de configuration et celles de la ligne de commande.




Licence

Droits d'utilisation non commerciale de l’application :

  • personnes physiques – sans restriction,
  • personnes morales – avec les restrictions stipulées dans l'Accord de Licence du logiciel Balabolka.

L’utilisation commerciale du logiciel demande l'autorisation du détenteur du copyright.