Изберете език
RSS
Дарение
If you want to help Balabolka, purchase my software Cross+A.

As long as people pay money for Cross+A, Balabolka will remain freeware. Thank you!

Balabolka Инструмент за извличане на текст

Програмата позволява извличането на текста от разни типове файлове. Извлеченият текст може да бъде обединен в един общ файл или/и разцепен на няколко файла. Списъкът с правилата от Balabolka за корекция на произношението може да бъде приложен върху текста.

За вход се поддържат следните файлови формати: AZW, AZW3, CHM, DjVu, DOC, DOCX, EML, EPUB, FB2, FB3, HTML, LIT, MD, MHT, MOBI, ODP, ODS, ODT, PDB, PDF, PPT, PPTX, PRC, RTF, TCR, TXT, TXTZ, WPD, WRI, XLS, XLSX.

Програмата поддържа интерфейс с команден ред и работи в текстов (конзолен) режим.


Програмата изпълнява действията в следния ред:

  1. Извлича текста от входни(я/те) файл(ове).
  2. Форматира текста: премахване на интервали, знаци за нов ред, и пр. (ако съответната опция е зададена).
  3. Обединява файловете в един общ (ако съответната опция е зададена).
  4. Разцепва текста (ако съответната опция е зададена).
  5. Прилага правилата за корекция на произношението (ако съответната опция е зададена).
  6. Съхранява изходни(я/те) файл(ове).

Изтегляне на Balabolka (инструмент за извличане на текст)


Размер: MB
 
Версия: Списък с промени
 
Лиценз: Безплатен (Freeware)
 
Операционна система:




Команден ред

Опциите за командния ред използват синтаксиса "blb2txt.exe [опции ...]", всички параметри трябва да бъдат разделени един от друг чрез интервал. Опциите могат да бъдат подреждани в произволен ред в командния ред, стига да са сдвоени със свързаните с тях параметри. Използвайте командата "blb2txt -?" за да получите помощ за параметрите и синтаксиса на командния ред.


-f файлов_филтър
Задава името на входния файл или маската за групата от входни файлове. Командния ред може да съдържа повече от една -f опция.
-fl име_на_файл
Задава името на текстовия файл със списъка от входни файлове (по едно име на файл на ред).
-v име_на_папка
Задава името на папката за запис на изходните текстови файлове.
-p текст
Задава образеца за име на изходния файл (например: "Текстов Документ"). Ако не е зададено, ще бъде използвано името на входния файл.
  • Използвайте променливата %FileName%, за да вмъкнете името на входния файл в името на изходния файл.
  • Използвайте променливата %FirstLine%, за да вмъкнете първия ред от текста.
  • Използвайте променливата %Header%, за да вмъкнете заглавието на главата.
  • Използвайте променливата %Number%, за да промените позицията на поредния номер в името на изходния файл.
  • Използвайте променливата %Title%, за да вмъкнете заглавието на HTML документа (само за HTML файлове).
Внимание! Необходимо е да се удвои знакът за процент (%) в батч скрипта. Например: -p %%Number%%
-ext текст
Задава разширението за имената на изходните файлове. По подразбиране е "txt".
-out име_на_файл
Задава пълното име на изходния файл. Препоръчва се тази опция да се задава само когато програмата се използва като част от друг софтуер.
-s
Търси входни файлове в подпапки.
-cf
Създава подпапка за всеки входен файл. Името на файла ще се използва като име на изходната подпапка.
-i
Получава входни данни от STDIN. Ако опцията е зададена, опцията -f бива игнорирана.
-o
Записва текста в STDOUT. Ако опцията е зададена, опциите -v и -p биват игнорирани.
-u
Обединява всички входни файлове в един общ изходен такъв.
-b
Добавя нарастващо число в началото на имената на изходните файлове.
-a
Добавя нарастващо число в края на имената на изходните файлове.
-n целочислена_стойност
Задава началното число за имената на изходните файлове. Стойността по подразбиране е 1.
-e кодиране
Задава кодировката на изходните файлове ("ansi", "utf8" или "unicode"). Стойността по подразбиране е "ansi".
-t целочислена_стойност
Разцепва текста на части на база размера на изходните файлове. The number corresponds to an amount of characters.
-k ключова_дума
Разцепва текста на базата на специална ключова дума във входния файл. За опцията е от значение дали се използват малки или главни букви. Командния ред може да съдържа повече от една -k опция.
-r ключова_дума
Разцепва текста на базата на ключова дума, и я премахва от изходните файлове. За опцията е от значение дали се използват малки или главни букви. Командния ред може да съдържа повече от една -r опция.
-w
Разцепва текста на базата на два последователни празни реда.
-l
Разцепва текста на базата на редове, на които всички букви са главни.
-c
Разделя текста по съдържание. Приложението извлича позициите на началото на главите от входния файл (или се генерира ново съдържание, ако е зададена опцията -toc).
-toc
Генерира съдържание и разделя текста. Приложението разделя извлечения текст по ключови думи (като "глава" или "том"). Ако опцията се използва заедно с опцията -c, приложението ще се опита да извлече съдържание от документа; ако това не успее, ще бъде генерирано ново съдържание.
-m целочислена_стойност
Задава минималния размер на текстовите части за разделяне (като брой символи).
-j целочислена_стойност
Игнорира началото на главата, ако размерът на предходната глава е по-малък от зададената стойност (в символи). Този параметър се използва в комбинация с параметъра -o или -toc.
-hh текст
Вмъква текст пред заглавията (например: ## Глава 1).
-d име_на_файл
Използва речник за корекция на произношението (*.BXD, *.REX или *.DIC). Командния ред може да съдържа повече от една -d опция.
-if
Използва интерфейса IFilter за извличане на текст. Ако това не успее, приложението ще използва метода по подразбиране.
-g име_на_папка
Задава името на папката за запазване на изображения от документи.
-cvr име_на_папка
Задава името на папката за запазване на изображението на корицата на книгата.
-cft
Клонира времето на създаване/модифициране/достъп на входния файл във изходния файл. Ако програмата комбинира текстови файлове или разделя извлечения текст, опцията се игнорира.
-x тип_файлове
Задава типа на входния файл. Позволява да се дефинира формат на входни документи с неизвестни разширения на имената на файловете. Например: -x doc.
-pwd текст
Задава паролата за шифрованите PDF файлове.
-dll име_на_файл
Задава пътя и името на 7z.dll (32-битова). Тази библиотека помага за извличане на текст и изображения от документи в архиви (ZIP, RAR и др.). 7z.dll е част от софтуера 7-Zip. Ако опцията не е зададена, приложението и библиотеката трябва да се намират в една и съща папка, в противен случай програмата няма да може да извлича данни от архивните файлове.
-dex типове_файлове
Задава списъка с типове файлове за извличане от архиви. Опцията съдържа списък с типове файлове, разделени със запетая, например: -dex "fb2,epub"
Командният ред може да съдържа няколко опции -dex. Ако опцията не е зададена, приложението ще извлече текст от всички файлове в архива. Ако е необходимо да се извлече текст за всички типове файлове, поддържани от приложението, използвайте стойността "all-". Например: -dex all-
-dne типове_файлове
Задава списъка с типове файлове, които да се игнорират при извличането на документи от архиви. Опцията съдържа списък с типове файлове, разделени със запетая, например: -dne "exe,dll"
Командният ред може да съдържа няколко опции -dne. Ако опцията не е зададена, приложението ще извлече текст от всички файлове в архива.
-dp
Показва информация за напредъка в конзолен прозорец.
-cfg име_на_файл
Задава името на конфигурационния файл с опциите на командния ред (текстов файл, в който всеки ред съдържа една опция). Ако опцията не е зададена, ще се използва файлът blb2txt.cfg в същата папка като програмата.
-h
Извежда списък с възможните опции за командния ред.
--remove-spaces или -rs
Премахва излишните интервали (два или повече последователни интервала, непрекъсващи интервали).
--remove-hyphens или -rh
Премахва тиретата в края на редовете в текста.
--remove-linebreaks или -rl
Премахва знаците за нов ред в абзаците (параграфите).
--remove-empty-lines или -rm
Премахва празните редове.
--replace-empty-lines или -rp
Замества два или повече празни реда с един такъв.
--remove-square-brackets или -rsb
Премахва текста в [квадратни скоби].
--remove-curly-brackets или -rcb
Премахва текста във {вълнообразни скоби}.
--remove-angle-brackets или -rab
Премахва текста в <ъглови скоби>.
--remove-round-brackets или -rrb
Премахва текста в (кръгли скоби).
--remove-comments или -rc
Премахва коментарите. Едноредовите коментари започват с // и продължават до края на реда. Многоредовите коментари започват с /* и завършват с */.
--remove-page-numbers или -rpn
Премахва номерата на страниците (може да е полезно за DjVu/PDF файлове).
--fix-ocr-errors или -ocr
Поправя OCR грешки (само за езици с кирилска азбука).
--fix-letter-spacing или -ls
Коригира разстоянието между буквите в думите (например: п р а з н и н а, _д_у_м_а).
--add-period или -ap
Добавя точка, ако след последната дума в параграфа няма препинателен знак.
--extract-summary целочислена_стойност или -es целочислена_стойност
Извлича резюме (наричано още "анотация") от FB2/FB3 файлове и го вмъква в началото на текста. Възможни стойности за целочисления параметър:
  • 0 – пропуска резюме (тази стойност се използва по подразбиране);
  • 1..5 – извлича резюме (стойност определя реда, в който се изброяват името на автора и заглавието на книгата).
--skip-notes или -sn
Пропуска бележки, когато приложението извлича текст от DOCX/FB2/FB3/MD/ODT файлове.
--include-notes целочислена_стойност или -in целочислена_стойност
Включва бележки в текста, когато приложението извлича текст от DOCX/FB2/FB3/MD/ODT файлове. Възможни стойности за целочисления параметър:
  • 0 – премахва връзки към бележки от текста;
  • 1 – запазва подразбиращите се позиции на бележките в текста
    (тази стойност се използва по подразбиране);
  • 2 – поставя бележки в края на изреченията;
  • 3 – поставя бележки в края на параграфите.
--insert-note-begin текст или -inb текст
Вмъква думи в началото на бележките, когато бележките са включени в текста (например: Бележка на редактора.).
Опцията се използва за файлове DOCX/FB2/FB3/MD/ODT.
--insert-note-end текст или -ine текст
Вмъква думи в края на бележките, когато бележките са включени в текста (например: Край на бележката.).
Опцията се използва за файлове DOCX/FB2/FB3/MD/ODT.
--extract-tables целочислена_стойност или -et целочислена_стойност
Извлича таблици от DOCX/FB2/FB3/ODT файлове. Възможни стойности за целочисления параметър:
  • 0 – пропуска таблици;
  • 1 – извлича данни от всяка клетка като нов текстов ред
    (тази стойност се използва по подразбиране);
  • 2 – запазва форматирането при извличане на таблица.
--csv-comma
Колоните се разделят със запетая, когато приложението извлича данни от XLS/XLSX/ODS файлове (разделител по подразбиране за CSV файлове).
--csv-semicolon
Колоните се разделят с точка и запетая, когато приложението извлича данни от XLS/XLSX/ODS файлове.
--csv-space
Колоните се разделят с интервал, когато приложението извлича данни от XLS/XLSX/ODS файлове.
--csv-tab
Колоните се разделят с табулация, когато приложението извлича данни от XLS/XLSX/ODS файлове.
--csv-double-quote
Използва двойни кавички, ако дадено поле трябва да бъде поставено в кавички (при експортиране от XLS/XLSX/ODS файлове).
--csv-single-quote
Използва единични кавички, ако дадено поле трябва да бъде поставено в кавички (при експортиране от XLS/XLSX/ODS файлове).
--eml-save име_на_папка
Извлича прикачените файлове от EML файловете и ги запазва в указана папка.
--eml-att
Извлича списъка с прикачените файлове от EML файлове (имената на файловете, прикачени към съобщението).
--eml-cc
Извлича полето "Cc" от EML файловете (от "carbon copy"; то посочва допълнителните получатели на съобщението).
--eml-date формат_на_датата
Извлича полето "Дата" от EML файловете (местното време и дата, когато съобщението е било съставено и изпратено). Форматът на датата се определя от спецификатори (като "d", "m", "y" и др.). Например: "dd.mm.yyyy hh:nn:ss".
--eml-from
Извлича полето "От" от EML файловете (електронния адрес и, допълнително, името на автора).
--eml-org
Извлича полето "Организация" от EML файловете (името на организацията, чрез която изпращачът на съобщението има достъп до интернет).
--eml-rt
Извлича полето "Reply-To" от EML файловете (адресът, на който да се изпращат отговорите).
--eml-subj
Извлича полето "Тема" от EML файловете (темата на съобщението).
--eml-to
Извлича полето "До" от EML файловете (електронния адрес и, допълнително, името на получателя на съобщението).


Примери за команден ред

Извличане на текста от BOOK.DOC и записване като "Нова книга.txt":

blb2txt -f "d:\Docs\book.doc" -v "d:\Text\" -p "Нова книга"



Ако е зададен само един входен файл, за извличане на текста може да се използва следната командна редица:

blb2txt -f "d:\Docs\book.doc" -out "d:\Text\book.txt"



Извличане на текста от документи на Microsoft Word и RTF документи, премахване на празните редове и записване в текстови файлове с кодиране UTF-8:

blb2txt -f "d:\Docs\*.doc" -f "d:\Docs\*.rtf" -v "d:\Text\" -e utf8 --replace-empty-lines



Извличане на текста от всички файлове в указаната директория, обединяване и записване като "Документ.txt":

blb2txt -f "d:\Docs\*.*" -v "d:\Text\" -p "Документ" -u



Извличане на текста от 1.DOC, разделяне на части с размер 100 килобайта и записване като текстови файлове "Документ 20.txt", "Документ 21.txt", и т.н.:

blb2txt -f "d:\Docs\1.doc" -v "d:\Text\" -p "Документ" -a -n 20 -t 100000



Извличане на текста от BOOK.FB2, намиране на думите "ГЛАВА" и "СЪДЪРЖАНИЕ" с цел разделяне на текста на части и записване като файлове с имената "Книга 1.txt", "Книга 2.txt", и т.н.:

blb2txt -f "d:\Book\book.fb2" -v "d:\Text\" -p "Книга" -k "ГЛАВА" -k "СЪДЪРЖАНИЕ"



Извличане на текста от BOOK.EPUB, намиране на "###" с цел разделяне на текста на части, премахване на "###" от текста и записване на всяка част като нов файл:

blb2txt -f "d:\Book\book.epub" -v "d:\Text\" -p "Книга" -r "###"



Извличане на текст от BOOK.FB2, разделяне по съдържание, запазване на файлове и използване на заглавия на глави като имена на файлове. Новите текстови файлове не трябва да са по-малки от един килобайт:

blb2txt -f "d:\Book\book.fb2" -v "d:\Text\" -p "%Number% - %Header%" -c -j 1024



Получаване на текста от STDIN, премахване на излишните интервали, прекъсвания на редове и празните редове, записване на обновения текст в STDOUT:

blb2txt -i -o --remove-spaces --remove-linebreaks --replace-empty-lines



Извличане на текст от всички документи на Microsoft Word, съдържащи се в ZIP архиви:

blb2txt -f "d:\Archive\*.zip" -v "d:\Text\" -dll "e:\7-Zip\7z.dll" -dex doc,docx




Конфигурационен файл

Опциите за командния ред могат да бъдат съхранени в конфигурационен файл "blb2txt.cfg" в същата папка, в която е и програмата.

Пример за конфигурационен файл:

-f d:\Docs\*.rtf
-f d:\Books\*.epub
-f d:\Books\*.fb2
-v d:\Text
-b
-n 1
-t 25000
-e utf8
-d d:\Dict\rules.bxd
--remove-spaces
--remove-linebreaks
--replace-empty-lines

Програмата може да използва комбинация от опции от конфигурационния файл и от командния ред.




Лиценз

Можете свободно да използвате и разпространявате софтуера за некомерсиални цели. За комерсиално използване или разпространение е необходимо да получите разрешение от притежателя на авторските права.