RSS
Donation

Balabolka Utilitaire d'extraction de texte du fichier

Le programme permet d'extraire le texte de différents types de fichiers. L’extrait du texte peut être combiné en un seul fichier et/ou fractionné en plusieurs fichiers. Les règles de correction de la prononciation de Balabolka peuvent être appliquées au texte.

Les formats suivants sont soutenus : AZW, AZW3, CHM, DjVu, DOC, DOCX, EML, EPUB, FB2, FB3, HTML, LIT, MHT, MOBI, ODS, ODT, PDB, PDF, PRC, RTF, TCR, TXT, WPD, WRI, XLS, XLSX.

L’utilitaire n’a pas d'interface graphique et fonctionne uniquement en mode texte en ligne de commande ou paramétré par un fichier de configuration. Cela est utile pour intégrer les options de traitement de texte à d'autres applications.

L’ordre d'exécution des opérations :

  1. Extraire le texte de fichier(s).
  2. Formater le texte : supprimer les espaces superflues, sauts de ligne, etc. (si l'option est spécifiée).
  3. Combiner le texte en un seul fichier (si l'option est spécifiée).
  4. Fractionner le texte (si l'option est spécifiée).
  5. Appliquer les règles de correction de la prononciation (si l'option est spécifiée).
  6. Enregistrer le(s) fichier(s) de sortie sur disque.

Télécharger Balabolka (utilitaire d'extraction de texte)


Taille de fichier : Mo
 
Version :
 
Licence : Freeware
 
Système d'exploitation :
Ligne de commande

L’application console est paramétrable en ligne de commande. Les paramètres doivent être séparés par un espace et commencer par « - » (tiret). Utilisez la commande blb2txt.exe avec les options -? ou -h pour obtenir de l'aide sur la syntaxe et les paramètres de ligne de commande.


-f nom_de_fichier
Le nom du fichier d'entrée ou le masque pour un groupe de fichiers d'entrée. La ligne de commande peut contenir quelques options -f.
-v nom_de_dossier
Le nom du dossier de sortie pour un fichier texte enregistré.
-p nom_de_fichier
Spécifie le modèle pour le nom de fichier de sortie (par exemple, « Document texte »).
En cas d'absence, le nom du fichier d'entrée est utilisé.
  • Utilisez la variable %FirstLine% pour insérer la première ligne de texte dans le nom du fichier de sortie.
  • Use the %Header% variable to insert the chapter title to the output file name.
  • Utilisez la variable %Number% pour modifier la position du numéro de séquence dans le nom du fichier de sortie.
-out texte
Sets the full name for output file. The option is recommended to specify only when the utility is used as a part of other software. If the utility is used for custom document import, the external program runs the utility from a command line and passes the full name of a text file to create.
-i
Lit le texte de flux d'entrée standard (STDIN). Si l'option est spécifiée, l'option -f est ignorée.
-o
Enregistre le texte dans le flux de sortie standard (STDOUT). Si l'option est spécifiée, les options -v et -p sont ignorées.
-u
Combine les fichiers texte en un seul fichier de sortie.
-b
Ajoute le numéro de séquence devant le nom de fichier de sortie.
-a
Ajoute le numéro de séquence après le nom de fichier de sortie.
-n nombre_intégral
Spécifie le numéro de séquence de départ pour les fichiers de sortie. La valeur par défaut est 1.
-e encodage
Spécifie l'encodage pour les fichiers de sortie (« ansi », « utf8 » ou « unicode »). La valeur par défaut est « ansi ».
-t nombre_intégral
Spécifie le mode de fractionnement du texte : fichier d’une taille spécifiée. Le nombre désigne la taille en kilobytes.
-k mot-clé
Fractionne le texte sur le mot-clé spécial dans le fichier d'entrée. L'option est sensible à la casse. La ligne de commande peut contenir plusieurs options -k.
-r mot-clé
Fractionne le texte sur le mot-clé et le supprime des fichiers de sortie. L'option est sensible à la casse. La ligne de commande peut contenir plusieurs options -r.
-w
Fractionne le texte sur deux lignes vides consécutives.
-l
Fractionne le texte sur les lignes où toutes les lettres sont majuscules.
-c
Splits text by a table of contents. The application extracts positions of chapter beginnings from the input file (or a new table of contents will be generated if the option -toc is specified).
-toc
Generates a table of contents. The application splits the extracted text by keywords (like « chapitre » or « tome »). L'option est utilisée avec l'option -c.
-m nombre_intégral
Ignores the chapter beginning if the size of the previous chapter is less than the specified value (in characters). L'option est utilisée avec l'option -c.
-d nom_de_fichier
Utilise un dictionnaire pour la correction de la prononciation (fichiers *.BXD, *.REX ou *.DIC). La ligne de commande peut contenir plusieurs options -d.
-if
Utilise l'interface IFilter pour extraire le texte. Si ce type de format est absent dans le système, la méthode par défaut sera utilisée par l'application.
-g nom_de_dossier
Sets the name of output folder for saving of images from documents.
-cvr nom_de_dossier
Sets the name of output folder for saving of a book cover image.
-pwd texte
Spécifie le mot de passe pour extraire le texte des fichiers PDF cryptés.
-? ou -h
Affiche la liste des options de ligne de commande disponibles.
--remove-spaces ou -rs
Supprime les espaces superflues (deux ou plusieurs espaces de suite, espaces insécables).
--remove-hyphens ou -rh
Supprime tous les traits d'union à la fin des lignes.
--remove-linebreaks ou -rl
Supprime les sauts de ligne à l'intérieur des paragraphes.
--remove-empty-lines ou -rm
Supprime les lignes vides.
--replace-empty-lines ou -rp
Remplace plusieurs lignes vides d’une seule ligne vide.
--remove-square-brackets ou -rsb
Supprime le texte entre [crochets].
--remove-curly-brackets ou -rcb
Supprime le texte entre {accolades}.
--remove-angle-brackets ou -rab
Supprime le texte entre <chevrons>.
--remove-comments ou -rc
Remove comments. Single-line comments start with // and continue until the end of the line. Multiline comments start with /* and end with */.
--remove-page-numbers ou -rpn
Removes page numbers (it may be useful for DjVu/PDF files).
--fix-ocr-errors ou -ocr
Corrige les erreurs d'OCR (reconnaissance optique de caractères) (pour les langues avec les alphabets cyrilliques uniquement).
--fix-letter-spacing ou -ls
Fix letter-spacing in words (for example: s p a c e, _w_o_r_d).
--skip-summary ou -ss
Skip a summary, when the application extracts text from FB2/FB3 files.
--skip-notes ou -sn
Skip notes, when the application extracts text from DOCX/FB2/FB3/ODT files.
--include-notes nombre_intégral ou -in nombre_intégral
Includes notes inside text, when the application extracts text from DOCX/FB2/FB3/ODT files.
Possible values for the integer parameter:
  • 0 - removes links to notes from text;
  • 1 - keeps default positions of notes inside text (this value is used by default);
  • 2 - places notes at the end of sentences;
  • 3 - places notes at the end of paragraphs.
--csv-comma
Columns are separated by a comma, when the application extracts data from XLS/XLSX/ODS files (default delimiter for CSV files).
--csv-semicolon
Columns are separated by a semicolon, when the application extracts data from XLS/XLSX/ODS files.
--csv-space
Columns are separated by a blank space, when the application extracts data from XLS/XLSX/ODS files.
--csv-tab
Columns are separated by a tab, when the application extracts data from XLS/XLSX/ODS files.
--csv-double-quote
Uses double-quote characters, if a field must be quoted (export from XLS/XLSX/ODS files).
--csv-single-quote
Uses single-quote characters, if a field must be quoted (export from XLS/XLSX/ODS files).
--eml-save nom_de_dossier
Extracts attachments from EML files and saves to a specified folder.
--eml-att
Extracts the list of attachments from EML files (names of files attached to the message).
--eml-cc
Extracts the header field "Cc" from EML files ("carbon copy"; it specifies additional recipients of the message).
--eml-date format_de_date
Extracts the header field "Date" from EML files (the local time and date when the message was composed and sent). A date format are defined by specifiers (such as "d", "m", "y", etc.). For example: "dd.mm.yyyy hh:nn:ss".
--eml-from
Extracts the header field "From" from EML files (the email address, and optionally the name of the author).
--eml-org
Extracts the header field "Organization" from EML files (the name of the organization through which the sender of the message has net access).
--eml-rt
Extracts the header field "Reply-To" from EML files (the address for replies to go to).
--eml-subj
Extracts the header field "Subject" from EML files (the subject of the message).
--eml-to
Extracts the header field "To" from EML files (the email address, and optionally the name of the message's recipient).



Exemples

blb2txt -f "d:\Docs\book.doc" -v "d:\Text\"

blb2txt -f "d:\Docs\book.doc" -out "d:\Text\book.txt"

blb2txt -f "d:\Docs\*.doc" -f "d:\Docs\*.rtf" -v "d:\Text\" -e utf8 --replace-empty-lines

blb2txt -f "d:\Docs\*.*" -v "d:\Text\" -p "Document" -u

blb2txt -f "d:\Docs\1.doc" -v "d:\Text\" -p "Document" -a -n 20 -t 100

blb2txt -f "d:\Book\book.fb2" -v "d:\Text\" -p "Livre" -k "CHAPITRE" -k "TABLE DES MATIÈRES"

blb2txt -f "d:\Book\book.epub" -v "d:\Text\" -p "Livre" -r "###"

blb2txt -f "d:\Book\book.fb2" -v "d:\Text\" -p "%Number% - %Header%" -c -m 1024

blb2txt -i -o --remove-spaces --remove-linebreaks --replace-empty-lines



Fichier de configuration

Les options de ligne de commande peuvent être enregistrées en tant que fichier de configuration « blb2txt.cfg » dans le même dossier que l'application console.

Exemple de fichier de configuration :

-f d:\Docs\*.rtf
-f d:\Books\*.epub
-f d:\Books\*.fb2
-v d:\Text
-b
-n 1
-t 25
-e utf8
-d d:\Dict\rules.bxd
--remove-spaces
--remove-linebreaks
--replace-empty-lines

Le programme peut combiner les options du fichier de configuration et celles de la ligne de commande.




Licence

Droits d'utilisation non commerciale de l’application :

  • personnes physiques – sans restriction,
  • personnes morales – avec les restrictions stipulées dans l'Accord de Licence du logiciel Balabolka.

L’utilisation commerciale du logiciel demande l'autorisation du détenteur du copyright.