RSS
Donation

Balabolka Utilitaire d'extraction de texte du fichier

Le programme permet d'extraire le texte de différents types de fichiers. L’extrait du texte peut être combiné en un seul fichier et/ou fractionné en plusieurs fichiers. Les règles de correction de la prononciation de Balabolka peuvent être appliquées au texte.

Les formats suivants sont soutenus : AZW, AZW3, CHM, DjVu, DOC, DOCX, EML, EPUB, FB2, HTML, LIT, MHT, MOBI, ODS, ODT, PDB, PDF, PRC, RTF, TCR, TXT, WPD, WRI, XLS, XLSX.

L’utilitaire n’a pas d'interface graphique et fonctionne uniquement en mode texte en ligne de commande ou paramétré par un fichier de configuration. Cela est utile pour intégrer les options de traitement de texte à d'autres applications.

L’ordre d'exécution des opérations :

  1. Extraire le texte de fichier(s).
  2. Formater le texte : supprimer les espaces superflues, sauts de ligne, etc. (si l'option est spécifiée).
  3. Combiner le texte en un seul fichier (si l'option est spécifiée).
  4. Fractionner le texte (si l'option est spécifiée).
  5. Appliquer les règles de correction de la prononciation (si l'option est spécifiée).
  6. Enregistrer le(s) fichier(s) de sortie sur disque.

Télécharger Balabolka (utilitaire d'extraction de texte)


Taille de fichier : Mo
 
Version :
 
Licence : Freeware
 
Système d'exploitation :
Ligne de commande

L’application console est paramétrable en ligne de commande. Les paramètres doivent être séparés par un espace et commencer par « - » (tiret). Utilisez la commande blb2txt.exe avec les options -? ou -h pour obtenir de l'aide sur la syntaxe et les paramètres de ligne de commande.


-f nom_de_fichier
Le nom du fichier d'entrée ou le masque pour un groupe de fichiers d'entrée. La ligne de commande peut contenir quelques options -f.
-v nom_de_dossier
Le nom du dossier de sortie pour un fichier texte enregistré.
-p nom_de_fichier
Spécifie le modèle pour le nom de fichier de sortie (par exemple, « Document texte »). En cas d'absence, le nom du fichier d'entrée est utilisé. Utilisez la variable %FirstLine% pour insérer la première ligne de texte dans le nom du fichier de sortie. Utilisez la variable %Number% pour modifier la position du numéro de séquence dans le nom du fichier de sortie.
-i
Lit le texte de flux d'entrée standard (STDIN). Si l'option est spécifiée, l'option -f est ignorée.
-o
Enregistre le texte dans le flux de sortie standard (STDOUT). Si l'option est spécifiée, les options -v et -p sont ignorées.
-u
Combine les fichiers texte en un seul fichier de sortie.
-b
Ajoute le numéro de séquence devant le nom de fichier de sortie.
-a
Ajoute le numéro de séquence après le nom de fichier de sortie.
-n nombre_intégral
Spécifie le numéro de séquence de départ pour les fichiers de sortie. La valeur par défaut est 1.
-e encodage
Spécifie l'encodage pour les fichiers de sortie (« ansi », « utf8 » ou « unicode »). La valeur par défaut est « ansi ».
-t nombre_intégral
Spécifie le mode de fractionnement du texte : fichier d’une taille spécifiée. Le nombre désigne la taille en kilobytes.
-k mot-clé
Fractionne le texte sur le mot-clé spécial dans le fichier d'entrée. L'option est sensible à la casse. La ligne de commande peut contenir plusieurs options -k.
-r mot-clé
Fractionne le texte sur le mot-clé et le supprime des fichiers de sortie. L'option est sensible à la casse. La ligne de commande peut contenir plusieurs options -r.
-w
Fractionne le texte sur deux lignes vides consécutives.
-l
Fractionne le texte sur les lignes où toutes les lettres sont majuscules.
-d nom_de_fichier
Utilise un dictionnaire pour la correction de la prononciation (fichiers *.REX ou *.DIC). La ligne de commande peut contenir plusieurs options -d.
-if
Utilise l'interface IFilter pour extraire le texte. Si ce type de format est absent dans le système, la méthode par défaut sera utilisée par l'application.
-pwd texte
Spécifie le mot de passe pour extraire le texte des fichiers PDF cryptés.
-? ou -h
Affiche la liste des options de ligne de commande disponibles.
--remove-spaces ou -rs
Supprime les espaces superflues (deux ou plusieurs espaces de suite, espaces insécables).
--remove-hyphens ou -rh
Supprime tous les traits d'union à la fin des lignes.
--remove-linebreaks ou -rl
Supprime les sauts de ligne à l'intérieur des paragraphes.
--remove-empty-lines ou -rm
Supprime les lignes vides.
--replace-empty-lines ou -rp
Remplace plusieurs lignes vides d’une seule ligne vide.
--remove-square-brackets ou -rsb
Supprime le texte entre [crochets].
--remove-curly-brackets ou -rcb
Supprime le texte entre {accolades}.
--remove-angle-brackets ou -rab
Supprime le texte entre <chevrons>.
--fix-ocr-errors ou -ocr
Corrige les erreurs d'OCR (reconnaissance optique de caractères) (pour les langues avec les alphabets cyrilliques uniquement).
--csv-comma
Columns are separated by a comma, when the application extracts data from XLS/XLSX/ODS files (default delimiter for CSV files).
--csv-semicolon
Columns are separated by a semicolon, when the application extracts data from XLS/XLSX/ODS files.
--csv-space
Columns are separated by a blank space, when the application extracts data from XLS/XLSX/ODS files.
--csv-tab
Columns are separated by a tab, when the application extracts data from XLS/XLSX/ODS files.
--csv-double-quote
Uses double-quote characters, if a field must be quoted (export from XLS/XLSX/ODS files).
--csv-single-quote
Uses single-quote characters, if a field must be quoted (export from XLS/XLSX/ODS files).



Exemples

blb2txt -f "d:\Docs\book.doc" -v "d:\Text\" -p "Nouveau livre"

blb2txt -f "d:\Docs\*.doc" -f "d:\Docs\*.rtf" -v "d:\Text\" -e "utf8" --replace-empty-lines

blb2txt -f "d:\Docs\*.*" -v "d:\Text\" -p "Document" -u

blb2txt -f "d:\Docs\1.doc" -v "d:\Text\" -p "Document" -a -n 20 -t 100

blb2txt -f "d:\Book\book.fb2" -v "d:\Text\" -p "Livre" -k "CHAPITRE" -k "TABLE DES MATIÈRES"

blb2txt -f "d:\Book\book.epub" -v "d:\Text\" -p "Livre" -r "###"

blb2txt -i -o --remove-spaces --remove-linebreaks --replace-empty-lines



Fichier de configuration

Les options de ligne de commande peuvent être enregistrées en tant que fichier de configuration « blb2txt.cfg » dans le même dossier que l'application console.

Exemple de fichier de configuration :

-f d:\Docs\*.rtf
-f d:\Books\*.epub
-f d:\Books\*.fb2
-v d:\Text
-b
-n 1
-t 25
-e utf8
-d d:\rex\rules.rex
-d d:\dic\rules.dic
--remove-spaces
--remove-linebreaks
--replace-empty-lines

Le programme peut combiner les options du fichier de configuration et celles de la ligne de commande.




Licence

Droits d'utilisation non commerciale de l’application :

  • personnes physiques – sans restriction,
  • personnes morales – avec les restrictions stipulées dans l'Accord de Licence du logiciel Balabolka.

L’utilisation commerciale du logiciel demande l'autorisation du détenteur du copyright.