RSS
Дарение

Balabolka Инструмент за извличане на текст

Програмата позволява извличането на текста от разни типове файлове. Извлеченият текст може да бъде обединен в един общ файл или/и разцепен на няколко файла. Списъкът с правилата от Balabolka за корекция на произношението може да бъде приложен върху текста.

За вход се поддържат следните файлови формати: AZW, AZW3, CHM, DjVu, DOC, DOCX, EML, EPUB, FB2, HTML, LIT, MHT, MOBI, ODS, ODT, PDB, PDF, PRC, RTF, TCR, TXT, WPD, XLS, XLSX.

Програмата поддържа интерфейс с команден ред и работи в текстов (конзолен) режим.

Програмата изпълнява действията в следния ред:

  1. Извлича текста от входни(я/те) файл(ове).
  2. Форматира текста: премахване на интервали, знаци за нов ред, и пр. (ако съответната опция е зададена).
  3. Обединява файловете в един общ (ако съответната опция е зададена).
  4. Разцепва текста (ако съответната опция е зададена).
  5. Прилага правилата за корекция на произношението (ако съответната опция е зададена).
  6. Съхранява изходни(я/те) файл(ове).

Изтегляне на Balabolka (инструмент за извличане на текст)


Размер: MB
 
Версия:
 
Лиценз: Безплатен (Freeware)
 
Операционна система:
Команден ред

Опциите за командния ред използват синтаксиса "blb2txt.exe [опции ...]", всички параметри трябва да бъдат разделени един от друг чрез интервал. Опциите могат да бъдат подреждани в произволен ред в командния ред, стига да са сдвоени със свързаните с тях параметри. Използвайте командата "blb2txt.exe -?" за да получите помощ за параметрите и синтаксиса на командния ред.


-f файлов_филтър
Задава името на входния файл или маската за групата от входни файлове. Командния ред може да съдържа повече от една -f опция.
-v име_на_папка
Задава името на папката за запис на изходните текстови файлове.
-p име_на_файл
Задава образеца за име на изходния файл (например: "Текстов Документ"). Ако не е зададено, ще бъде използвано името на входния файл.
-i
Прочита текста от STDIN. Ако опцията е зададена, опцията -f бива игнорирана.
-o
Записва текста в STDOUT. Ако опцията е зададена, опциите -v и -p биват игнорирани.
-u
Обединява всички входни файлове в един общ изходен такъв.
-b
Добавя нарастващо число в началото на имената на изходните файлове.
-a
Добавя нарастващо число в края на имената на изходните файлове.
-n целочислена_стойност
Задава началното число за имената на изходните файлове. Стойността по подразбиране е 1.
-e кодиране
Задава кодировката на изходните файлове ("ansi", "utf8" или "unicode"). Стойността по подразбиране е "ansi".
-t целочислена_стойност
Разцепва текста на части на база размера на изходните файлове (в килобайти).
-k ключова_дума
Разцепва текста на базата на специална ключова дума във входния файл. За опцията е от значение дали се използват малки или главни букви. Командния ред може да съдържа повече от една -k опция.
-r ключова_дума
Разцепва текста на базата на ключова дума, и я премахва от изходните файлове. За опцията е от значение дали се използват малки или главни букви. Командния ред може да съдържа повече от една -r опция.
-w
Разцепва текста на базата на два последователни празни реда.
-l
Разцепва текста на базата на редове, на които всички букви са главни.
-d име_на_файл
Използва речник за корекция на произношението (*.REX или *.DIC). Командния ред може да съдържа повече от една -d опция.
-if
Uses IFilter interface to extract text. If this fails, the default method will be used by the application.
-pwd текст
Задава паролата за шифрованите PDF файлове.
-? или -h
Извежда списък с възможните опции за командния ред.
--remove-spaces или -rs
Премахва излишните интервали (два или повече последователни интервала, непрекъсващи интервали).
--remove-hyphens или -rh
Премахва тиретата в края на редовете в текста.
--remove-linebreaks или -rl
Премахва знаците за нов ред в абзаците (параграфите).
--remove-empty-lines или -rm
Премахва празните редове.
--replace-empty-lines или -rp
Замества два или повече празни реда с един такъв.
--remove-square-brackets или -rsb
Премахва текста в [квадратни скоби].
--remove-curly-brackets или -rcb
Премахва текста във {вълнообразни скоби}.
--remove-angle-brackets или -rab
Премахва текста в <ъглови скоби>.
--fix-ocr-errors или -ocr
Поправя OCR грешки (само за езици с кирилска азбука).
--csv-comma
Columns are separated by a comma, when the application extracts data from XLS/XLSX/ODS files (default delimiter for CSV files).
--csv-semicolon
Columns are separated by a semicolon, when the application extracts data from XLS/XLSX/ODS files.
--csv-space
Columns are separated by a blank space, when the application extracts data from XLS/XLSX/ODS files.
--csv-tab
Columns are separated by a tab, when the application extracts data from XLS/XLSX/ODS files.
--csv-double-quote
Uses double-quote characters, if a field must be quoted (export from XLS/XLSX/ODS files).
--csv-single-quote
Uses single-quote characters, if a field must be quoted (export from XLS/XLSX/ODS files).



Примери за команден ред

Извличане на текста от BOOK.DOC и записване като "Нова книга.txt":

blb2txt -f "d:\Docs\book.doc" -v "d:\Text\" -p "Нова книга"



Извличане на текста от документи на Microsoft Word и RTF документи, премахване на празните редове и записване в текстови файлове с кодиране UTF-8:

blb2txt -f "d:\Docs\*.doc" -f "d:\Docs\*.rtf" -v "d:\Text\" -e "utf8" --replace-empty-lines



Извличане на текста от всички файлове в указаната директория, обединяване и записване като "Документ.txt":

blb2txt -f "d:\Docs\*.*" -v "d:\Text\" -p "Документ" -u



Извличане на текста от 1.DOC, разделяне на части с размер 100 KB и записване като текстови файлове "Документ 20.txt", "Документ 21.txt", и т.н.:

blb2txt -f "d:\Docs\1.doc" -v "d:\Text\" -p "Документ" -a -n 20 -t 100



Извличане на текста от BOOK.FB2, намиране на думите "ГЛАВА" и "СЪДЪРЖАНИЕ" с цел разделяне на текста на части и записване като файлове с имената "Книга 1.txt", "Книга 2.txt", и т.н.:

blb2txt -f "d:\Book\book.fb2" -v "d:\Text\" -p "Книга" -k "ГЛАВА" -k "СЪДЪРЖАНИЕ"



Извличане на текста от BOOK.EPUB, намиране на "###" с цел разделяне на текста на части, премахване на "###" от текста и записване на всяка част като нов файл:

blb2txt -f "d:\Book\book.epub" -v "d:\Text\" -p "Книга" -r "###"



Получаване на текста от STDIN, премахване на излишните интервали, прекъсвания на редове и празните редове, записване на обновения текст в STDOUT:

blb2txt -i -o --remove-spaces --remove-linebreaks --replace-empty-lines



Конфигурационен файл

Опциите за командния ред могат да бъдат съхранени в конфигурационен файл "blb2txt.cfg" в същата папка, в която е и програмата.

Пример за конфигурационен файл:

-f d:\Docs\*.rtf
-f d:\Books\*.epub
-f d:\Books\*.fb2
-v d:\Text
-b
-n 1
-t 25
-e utf8
-d d:\rex\rules.rex
-d d:\dic\rules.dic
--remove-spaces
--remove-linebreaks
--replace-empty-lines

Програмата може да използва комбинация от опции от конфигурационния файл и от командния ред.




Лиценз

You are free to use and distribute software for noncommercial purposes. For commercial use or distribution, you need to get permission from the copyright holder.