|
Дарение
If you want to help Balabolka, purchase my software Cross+A. As long as people pay money for Cross+A, Balabolka will remain freeware. Thank you!
|
Програмата позволява извличането на текста от разни типове файлове. Извлеченият текст може да бъде обединен в един общ файл или/и разцепен на няколко файла. Списъкът с правилата от Balabolka за корекция на произношението може да бъде приложен върху текста.
За вход се поддържат следните файлови формати: AZW, AZW3, CHM, DjVu, DOC, DOCX, EML, EPUB, FB2, FB3, HTML, LIT, MD, MHT, MOBI, ODP, ODS, ODT, PDB, PDF, PPT, PPTX, PRC, RTF, TCR, TXT, TXTZ, WPD, WRI, XLS, XLSX.
Програмата поддържа интерфейс с команден ред и работи в текстов (конзолен) режим.
Програмата изпълнява действията в следния ред:
- Извлича текста от входни(я/те) файл(ове).
- Форматира текста: премахване на интервали, знаци за нов ред, и пр. (ако съответната опция е зададена).
- Обединява файловете в един общ (ако съответната опция е зададена).
- Разцепва текста (ако съответната опция е зададена).
- Прилага правилата за корекция на произношението (ако съответната опция е зададена).
- Съхранява изходни(я/те) файл(ове).
Изтегляне на Balabolka (инструмент за извличане на текст)
| Размер: MB |
| |
| Версия: Списък с промени |
| |
| Лиценз: Безплатен (Freeware) |
| |
| Операционна система: |
Команден ред
Опциите за командния ред използват синтаксиса "blb2txt.exe [опции ...]", всички параметри трябва да бъдат разделени един от друг чрез интервал. Опциите могат да бъдат подреждани в произволен ред в командния ред, стига да са сдвоени със свързаните с тях параметри. Използвайте командата "blb2txt -?" за да получите помощ за параметрите и синтаксиса на командния ред.
- -f файлов_филтър
- Задава името на входния файл или маската за групата от входни файлове. Командния ред може да съдържа повече от една -f опция.
- -fl име_на_файл
- Задава името на текстовия файл със списъка от входни файлове (по едно име на файл на ред).
- -v име_на_папка
- Задава името на папката за запис на изходните текстови файлове.
- -p текст
- Задава образеца за име на изходния файл (например: "Текстов Документ"). Ако не е зададено, ще бъде използвано името на входния файл.
- Използвайте променливата %FileName%, за да вмъкнете името на входния файл в името на изходния файл.
- Използвайте променливата %FirstLine%, за да вмъкнете първия ред от текста.
- Използвайте променливата %Header%, за да вмъкнете заглавието на главата.
- Използвайте променливата %Number%, за да промените позицията на поредния номер в името на изходния файл.
- Използвайте променливата %Title%, за да вмъкнете заглавието на HTML документа (само за HTML файлове).
Внимание! Необходимо е да се удвои знакът за процент (%) в батч скрипта. Например: -p %%Number%%
- -ext текст
- Задава разширението за имената на изходните файлове. По подразбиране е "txt".
- -out име_на_файл
- Задава пълното име на изходния файл. Препоръчва се тази опция да се задава само когато програмата се използва като част от друг софтуер.
- -s
- Търси входни файлове в подпапки.
- -cf
- Създава подпапка за всеки входен файл. Името на файла ще се използва като име на изходната подпапка.
- -i
- Получава входни данни от STDIN. Ако опцията е зададена, опцията -f бива игнорирана.
- -o
- Записва текста в STDOUT. Ако опцията е зададена, опциите -v и -p биват игнорирани.
- -u
- Обединява всички входни файлове в един общ изходен такъв.
- -b
- Добавя нарастващо число в началото на имената на изходните файлове.
- -a
- Добавя нарастващо число в края на имената на изходните файлове.
- -n целочислена_стойност
- Задава началното число за имената на изходните файлове. Стойността по подразбиране е 1.
- -e кодиране
- Задава кодировката на изходните файлове ("ansi", "utf8" или "unicode"). Стойността по подразбиране е "ansi".
- -t целочислена_стойност
- Разцепва текста на части на база размера на изходните файлове. The number corresponds to an amount of characters.
- -k ключова_дума
- Разцепва текста на базата на специална ключова дума във входния файл. За опцията е от значение дали се използват малки или главни букви. Командния ред може да съдържа повече от една -k опция.
- -r ключова_дума
- Разцепва текста на базата на ключова дума, и я премахва от изходните файлове. За опцията е от значение дали се използват малки или главни букви. Командния ред може да съдържа повече от една -r опция.
- -w
- Разцепва текста на базата на два последователни празни реда.
- -l
- Разцепва текста на базата на редове, на които всички букви са главни.
- -c
- Разделя текста по съдържание. Приложението извлича позициите на началото на главите от входния файл (или се генерира ново съдържание, ако е зададена опцията -toc).
- -toc
- Генерира съдържание и разделя текста. Приложението разделя извлечения текст по ключови думи (като "глава" или "том"). Ако опцията се използва заедно с опцията -c, приложението ще се опита да извлече съдържание от документа; ако това не успее, ще бъде генерирано ново съдържание.
- -m целочислена_стойност
- Задава минималния размер на текстовите части за разделяне (като брой символи).
- -j целочислена_стойност
- Игнорира началото на главата, ако размерът на предходната глава е по-малък от зададената стойност (в символи). Този параметър се използва в комбинация с параметъра -o или -toc.
- -hh текст
- Вмъква текст пред заглавията (например: ## Глава 1).
- -d име_на_файл
- Използва речник за корекция на произношението (*.BXD, *.REX или *.DIC). Командния ред може да съдържа повече от една -d опция.
- -if
- Използва интерфейса IFilter за извличане на текст. Ако това не успее, приложението ще използва метода по подразбиране.
- -g име_на_папка
- Задава името на папката за запазване на изображения от документи.
- -cvr име_на_папка
- Задава името на папката за запазване на изображението на корицата на книгата.
- -cft
- Клонира времето на създаване/модифициране/достъп на входния файл във изходния файл. Ако програмата комбинира текстови файлове или разделя извлечения текст, опцията се игнорира.
- -x тип_файлове
- Задава типа на входния файл. Позволява да се дефинира формат на входни документи с неизвестни разширения на имената на файловете. Например: -x doc.
- -pwd текст
- Задава паролата за шифрованите PDF файлове.
- -dll име_на_файл
- Задава пътя и името на 7z.dll (32-битова). Тази библиотека помага за извличане на текст и изображения от документи в архиви (ZIP, RAR и др.). 7z.dll е част от софтуера 7-Zip. Ако опцията не е зададена, приложението и библиотеката трябва да се намират в една и съща папка, в противен случай програмата няма да може да извлича данни от архивните файлове.
- -dex типове_файлове
- Задава списъка с типове файлове за извличане от архиви. Опцията съдържа списък с типове файлове, разделени със запетая, например: -dex "fb2,epub"
Командният ред може да съдържа няколко опции -dex. Ако опцията не е зададена, приложението ще извлече текст от всички файлове в архива. Ако е необходимо да се извлече текст за всички типове файлове, поддържани от приложението, използвайте стойността "all-". Например: -dex all-
- -dne типове_файлове
- Задава списъка с типове файлове, които да се игнорират при извличането на документи от архиви. Опцията съдържа списък с типове файлове, разделени със запетая, например: -dne "exe,dll"
Командният ред може да съдържа няколко опции -dne. Ако опцията не е зададена, приложението ще извлече текст от всички файлове в архива.
- -dp
- Показва информация за напредъка в конзолен прозорец.
- -cfg име_на_файл
- Задава името на конфигурационния файл с опциите на командния ред (текстов файл, в който всеки ред съдържа една опция). Ако опцията не е зададена, ще се използва файлът blb2txt.cfg в същата папка като програмата.
- -h
- Извежда списък с възможните опции за командния ред.
- --remove-spaces или -rs
- Премахва излишните интервали (два или повече последователни интервала, непрекъсващи интервали).
- --remove-hyphens или -rh
- Премахва тиретата в края на редовете в текста.
- --remove-linebreaks или -rl
- Премахва знаците за нов ред в абзаците (параграфите).
- --remove-empty-lines или -rm
- Премахва празните редове.
- --replace-empty-lines или -rp
- Замества два или повече празни реда с един такъв.
- --remove-square-brackets или -rsb
- Премахва текста в [квадратни скоби].
- --remove-curly-brackets или -rcb
- Премахва текста във {вълнообразни скоби}.
- --remove-angle-brackets или -rab
- Премахва текста в <ъглови скоби>.
- --remove-round-brackets или -rrb
- Премахва текста в (кръгли скоби).
- --remove-comments или -rc
- Премахва коментарите. Едноредовите коментари започват с // и продължават до края на реда. Многоредовите коментари започват с /* и завършват с */.
- --remove-page-numbers или -rpn
- Премахва номерата на страниците (може да е полезно за DjVu/PDF файлове).
- --fix-ocr-errors или -ocr
- Поправя OCR грешки (само за езици с кирилска азбука).
- --fix-letter-spacing или -ls
- Коригира разстоянието между буквите в думите (например: п р а з н и н а, _д_у_м_а).
- --add-period или -ap
- Добавя точка, ако след последната дума в параграфа няма препинателен знак.
- --extract-summary целочислена_стойност или -es целочислена_стойност
- Извлича резюме (наричано още "анотация") от FB2/FB3 файлове и го вмъква в началото на текста. Възможни стойности за целочисления параметър:
- 0 – пропуска резюме (тази стойност се използва по подразбиране);
- 1..5 – извлича резюме (стойност определя реда, в който се изброяват името на автора и заглавието на книгата).
- --skip-notes или -sn
- Пропуска бележки, когато приложението извлича текст от DOCX/FB2/FB3/MD/ODT файлове.
- --include-notes целочислена_стойност или -in целочислена_стойност
- Включва бележки в текста, когато приложението извлича текст от DOCX/FB2/FB3/MD/ODT файлове. Възможни стойности за целочисления параметър:
- 0 – премахва връзки към бележки от текста;
- 1 – запазва подразбиращите се позиции на бележките в текста
(тази стойност се използва по подразбиране);
- 2 – поставя бележки в края на изреченията;
- 3 – поставя бележки в края на параграфите.
- --insert-note-begin текст или -inb текст
- Вмъква думи в началото на бележките, когато бележките са включени в текста (например: Бележка на редактора.).
Опцията се използва за файлове DOCX/FB2/FB3/MD/ODT.
- --insert-note-end текст или -ine текст
- Вмъква думи в края на бележките, когато бележките са включени в текста (например: Край на бележката.).
Опцията се използва за файлове DOCX/FB2/FB3/MD/ODT.
- --extract-tables целочислена_стойност или -et целочислена_стойност
- Извлича таблици от DOCX/FB2/FB3/ODT файлове. Възможни стойности за целочисления параметър:
- 0 – пропуска таблици;
- 1 – извлича данни от всяка клетка като нов текстов ред
(тази стойност се използва по подразбиране);
- 2 – запазва форматирането при извличане на таблица.
- --csv-comma
- Колоните се разделят със запетая, когато приложението извлича данни от XLS/XLSX/ODS файлове (разделител по подразбиране за CSV файлове).
- --csv-semicolon
- Колоните се разделят с точка и запетая, когато приложението извлича данни от XLS/XLSX/ODS файлове.
- --csv-space
- Колоните се разделят с интервал, когато приложението извлича данни от XLS/XLSX/ODS файлове.
- --csv-tab
- Колоните се разделят с табулация, когато приложението извлича данни от XLS/XLSX/ODS файлове.
- --csv-double-quote
- Използва двойни кавички, ако дадено поле трябва да бъде поставено в кавички (при експортиране от XLS/XLSX/ODS файлове).
- --csv-single-quote
- Използва единични кавички, ако дадено поле трябва да бъде поставено в кавички (при експортиране от XLS/XLSX/ODS файлове).
- --eml-save име_на_папка
- Извлича прикачените файлове от EML файловете и ги запазва в указана папка.
- --eml-att
- Извлича списъка с прикачените файлове от EML файлове (имената на файловете, прикачени към съобщението).
- --eml-cc
- Извлича полето "Cc" от EML файловете (от "carbon copy"; то посочва допълнителните получатели на съобщението).
- --eml-date формат_на_датата
- Извлича полето "Дата" от EML файловете (местното време и дата, когато съобщението е било съставено и изпратено). Форматът на датата се определя от спецификатори (като "d", "m", "y" и др.). Например: "dd.mm.yyyy hh:nn:ss".
- --eml-from
- Извлича полето "От" от EML файловете (електронния адрес и, допълнително, името на автора).
- --eml-org
- Извлича полето "Организация" от EML файловете (името на организацията, чрез която изпращачът на съобщението има достъп до интернет).
- --eml-rt
- Извлича полето "Reply-To" от EML файловете (адресът, на който да се изпращат отговорите).
- --eml-subj
- Извлича полето "Тема" от EML файловете (темата на съобщението).
- --eml-to
- Извлича полето "До" от EML файловете (електронния адрес и, допълнително, името на получателя на съобщението).
Примери за команден ред
Извличане на текста от BOOK.DOC и записване като "Нова книга.txt":
blb2txt -f "d:\Docs\book.doc" -v "d:\Text\" -p "Нова книга"
Ако е зададен само един входен файл, за извличане на текста може да се използва следната командна редица:
blb2txt -f "d:\Docs\book.doc" -out "d:\Text\book.txt"
Извличане на текста от документи на Microsoft Word и RTF документи, премахване на празните редове и записване в текстови файлове с кодиране UTF-8:
blb2txt -f "d:\Docs\*.doc" -f "d:\Docs\*.rtf" -v "d:\Text\" -e utf8 --replace-empty-lines
Извличане на текста от всички файлове в указаната директория, обединяване и записване като "Документ.txt":
blb2txt -f "d:\Docs\*.*" -v "d:\Text\" -p "Документ" -u
Извличане на текста от 1.DOC, разделяне на части с размер 100 килобайта и записване като текстови файлове "Документ 20.txt", "Документ 21.txt", и т.н.:
blb2txt -f "d:\Docs\1.doc" -v "d:\Text\" -p "Документ" -a -n 20 -t 100000
Извличане на текста от BOOK.FB2, намиране на думите "ГЛАВА" и "СЪДЪРЖАНИЕ" с цел разделяне на текста на части и записване като файлове с имената "Книга 1.txt", "Книга 2.txt", и т.н.:
blb2txt -f "d:\Book\book.fb2" -v "d:\Text\" -p "Книга" -k "ГЛАВА" -k "СЪДЪРЖАНИЕ"
Извличане на текста от BOOK.EPUB, намиране на "###" с цел разделяне на текста на части, премахване на "###" от текста и записване на всяка част като нов файл:
blb2txt -f "d:\Book\book.epub" -v "d:\Text\" -p "Книга" -r "###"
Извличане на текст от BOOK.FB2, разделяне по съдържание, запазване на файлове и използване на заглавия на глави като имена на файлове. Новите текстови файлове не трябва да са по-малки от един килобайт:
blb2txt -f "d:\Book\book.fb2" -v "d:\Text\" -p "%Number% - %Header%" -c -j 1024
Получаване на текста от STDIN, премахване на излишните интервали, прекъсвания на редове и празните редове, записване на обновения текст в STDOUT:
blb2txt -i -o --remove-spaces --remove-linebreaks --replace-empty-lines
Извличане на текст от всички документи на Microsoft Word, съдържащи се в ZIP архиви:
blb2txt -f "d:\Archive\*.zip" -v "d:\Text\" -dll "e:\7-Zip\7z.dll" -dex doc,docx
Конфигурационен файл
Опциите за командния ред могат да бъдат съхранени в конфигурационен файл "blb2txt.cfg" в същата папка, в която е и програмата.
Пример за конфигурационен файл:
-f d:\Docs\*.rtf
-f d:\Books\*.epub
-f d:\Books\*.fb2
-v d:\Text
-b
-n 1
-t 25000
-e utf8
-d d:\Dict\rules.bxd
--remove-spaces
--remove-linebreaks
--replace-empty-lines
|
Програмата може да използва комбинация от опции от конфигурационния файл и от командния ред.
Лиценз
Можете свободно да използвате и разпространявате софтуера за некомерсиални цели. За комерсиално използване или разпространение е необходимо да получите разрешение от притежателя на авторските права.
|