Selecionar um idioma
RSS
Doação

WMZ: Z087754155981 (USD)
WME: E110509803261 (EUR)

WebMoney

Balabolka Programa para serviços de síntese de voz online

The command line application allows to use online text-to-speech services: text files or subtitles can be converted to audio files. The utility can be used for testing purposes: it will help you to choose a cloud computing service that satisfies your needs. The separate application for Yandex SpeechKit is available for downloading, because Yandex is the Russian IT company with close government ties.

Utilitário para usar a conversão de texto em fala online

Serviços online com tecnologias de voz:

  • Google Cloud TTS
  • Amazon Polly
  • Baidu TTS
  • CereVoice Cloud
  • IBM Watson TTS
  • Iciba TTS
  • iTranslate TTS
  • Microsoft Azure
  • Naver TTS
  • OpenAI TTS
  • Youdao TTS
  • Yandex SpeechKit

Baixar o programa BAL4WEB


Tamanho: MB
 
Versão: Registro de alterações
 
Licença: Freeware
 
Sistema operacional:
Pedido para utilização do Yandex SpeechKit: Baixar ( MB)
The program converts text or subtitles to audio files by using of the Yandex service.
To perform operations via the Yandex API, it is necessary to authenticate using an API-key.



Linha de comando

The utility handles various command line parameters to be able to save speech as an audio file. The command line options use the syntax "bal4web [options ...]", all parameters must be separated by a space. Options can appear in any order on the command line so long as they are paired with their related parameters. Use the "bal4web -?" command line to get help on the command line syntax and parameters.


-s nome_do_serviço
Sets the name of the online TTS service ("google" or "g", "amazon" or "a", "baidu" or "b", "cerevoice" or "c", "ibm" or "i", "iciba" or "k", "itranslate" or "t", "microsoft" or "m", "naver" or "n", "openai" or "o", "youdao" or "y"). The default is "google".
-l nome_da_língua
Sets the language name for the online TTS service. The name is a combination of an ISO 639 two-letter lowercase culture code associated with a language and an ISO 3166 two-letter uppercase subculture code associated with a country or region. For example: pt-BR, de-DE, fr-FR. The default is "en-US".
Note: OpenAI TTS performs the language identification for input text, so this service ignores the option now. OpenAI TTS can recognize several dozen languages on its own.
-g género
Sets the gender for the online TTS service (if supported). The available values: "female" or "f", "male" or "m". The default value is not defined. This parameter is supported by services: Amazon Polly, CereProc TTS, Google TTS, IBM Watson TTS, iTranslate TTS, Microsoft Azure, Naver TTS, OpenAI TTS. If a voice name is specified, there is no need to set its gender.
-n nome_da_voz
Sets the voice name for the online TTS service (if supported). The default value is not defined. This parameter is supported by services Amazon Polly, CereProc TTS, Google Cloud TTS, IBM Watson TTS, Microsoft Azure, Naver TTS, OpenAI TTS.
-r velocidade_de_fala
Define a velocidade da fala sintetizada (se suportada).
O padrão é "1.00" (velocidade média da fala humana).
Amazon Polly: de "0.20" to "2.00".
CereProc TTS: de "0.30" para "4.00".
Naver TTS, OpenAI TTS, Youdao TTS: de "0.70" para "2.00".
Google TTS, IBM Watson TTS, Microsoft Azure: de "0.10" para "3.00".
Google Cloud: de "0.25" para "4.00".
iTranslate TTS: de "0.50" para "2.00".
-p número
Definir o tom de voz em uma faixa de -20 a 20 (se suportado). O padrão é 0.
Esta opção é compatível com o Amazon Polly, CereProc TTS, Google Cloud TTS, IBM Watson TTS, Microsoft Azure.
-v número
Definir o volume na faixa de 0 a 200 (o padrão é 100).
-st estilo_de_falar
Definir o estilo de fala específico da voz. A voz pode expressar emoções como alegria, empatia ou calma. Esta opção é suportada por algumas vozes no Microsoft Azure. Os estilos não estão disponíveis se for utilizado o protocolo WebSocket para o Microsoft Azure.
--style-degree grau_de_estilo ou -sd grau_de_estilo
Definir a intensidade do estilo de fala em uma faixa de "0.01" a "2.00" (para estilos suportados pelo Microsoft Azure). O padrão é "1.00". A opção permite especificar um estilo mais forte ou mais suave para tornar a fala mais expressiva ou mais moderada.
-m
Imprime a lista de idiomas suportados (nomes de gêneros e vozes, se disponíveis) para o serviço TTS online.
-f nome_do_arquivo
Definir o nome do arquivo de texto de entrada. A linha de comando pode conter várias opções -f.
-fl nome_do_arquivo
Definir o nome do arquivo de texto com a lista de arquivos de entrada (um nome de arquivo por linha). A linha de comando pode conter várias opções -fl.
-w nome_do_arquivo
Definir o nome do arquivo de saída no formato WAV.
-c
Usar o texto a partir da área de transferência.
-t linha_de_texto
Usar o texto a partir da linha de comando. A linha de comando pode conter várias opções -t.
-i
Usar o texto a partir do fluxo de entrada padrão (STDIN).
-o
Gravar dados de som em STDOUT; se a opção for especificada, a opção -w será ignorada.
--encoding codificação ou -enc codificação
Codificação de texto a partir da entrada padrão ("ansi", "utf8" ou "unicode"). Se a opção não for especificada, o programa detectará a codificação do texto.
--silence-begin número ou -sb número
Especificar a duração da pausa no início do ficheiro áudio (em milissegundos). O padrão é 0.
--silence-end número ou -se número
Especificar a duração da pausa no final de um ficheiro áudio (em milissegundos). O padrão é 0.
-ln número
Selecionar uma linha do arquivo de texto usando um número de linha. A numeração das linhas começa em "1". O intervalo de números pode ser usado para selecionar mais de uma linha (por exemplo, "26-34"). A linha de comando pode conter várias opções -ln.
-e número
Definir a duração das pausas entre frases (em milissegundos). O valor deve ser inferior a 20000. Se a opção não for especificada, o serviço utilizará as pausas padrão entre frases. Este parâmetro é suportado apenas pelo Microsoft Azure.
-d nome_do_arquivo
Applies a dictionary for pronunciation correction (*.BXD, *.DIC or *.REX). The command line may contain few options -d.
-lrc
Cria o arquivo LRC. O texto será sincronizado com a fala no arquivo de áudio de saída.
-srt
Cria o arquivo SRT. As legendas serão sincronizadas com a fala no arquivo de áudio de saída.
-sub
Input text will be processed as subtitles. The option may be useful, when the options -i or -c are specified.
-host nome_do_anfitrião
Definir o nome do host do servidor proxy.
-port número
Definir o número da porta do servidor proxy.
-fr número
Definir a frequência de amostragem do áudio de saída em kHz (8, 11, 16, 22, 24, 32, 44, 48). Se a opção não for especificada, será utilizado o valor padrão da voz selecionada.
-ae codificação_áudio
Definir a codificação de áudio para os dados retornados pelo Google Cloud ou Microsoft Azure ("linear16", "mp3" ou "oggopus"). Com essa configuração, é possível melhorar a qualidade do som. A opção está disponível se a chave API for especificada. Não é recomendável usá-la sem necessidade especial: aplique-a apenas para fins de teste.
--ignore-square-brackets ou -isb
Ignorar o texto entre [colchetes].
--ignore-curly-brackets ou -icb
Ignorar o texto entre {chaves}.
--ignore-angle-brackets ou -iab
Ignorar texto entre <colchetes angulares>.
--ignore-round-brackets ou -irb
Ignorar o texto entre (parênteses).
--ignore-url ou -iu
Ignorar URLs.
--ignore-comments ou -ic
Ignorar comentários no texto. Comentários de linha única começam com // e continuam até o final da linha. Comentários de várias linhas começam com /* e terminam com */.
-dp
Exibir informações de progresso em uma janela do console.
-cfg nome_do_arquivo
Definir o nome do arquivo de configuração com as opções da linha de comando (um arquivo de texto em que cada linha contém uma opção). Se a opção não for especificada, será utilizado o arquivo bal4web.cfg na mesma pasta do utilitário.
-h
Mostrar a descrição das opções da linha de comando.
--lrc-length número
Especificar o comprimento máximo de cordas para ficheiro de formato LRC (em caracteres).
--lrc-fname nome_do_arquivo
Nome de ficheiro do formato LRC. A opção pode ser útil em casos em que a linha de comando estiver definido o parámetro -o.
--lrc-enc codificação
Codificação de ficheiro do formato LRC ("ansi", "utf8" ou "unicode"). O valor padrão é "ansi".
--lrc-offset número
Especificar a mudança da hora no ficheiro do formato LRC (em milissegundos).
--lrc-artist texto
Etiqueta para ficheiro do formato LRC: intérprete da obra.
--lrc-album texto
Etiqueta para ficheiro do formato LRC: álbum.
--lrc-title texto
Etiqueta para ficheiro do formato LRC: título da obra.
--lrc-author texto
Etiqueta para ficheiro do formato LRC: autor.
--lrc-creator texto
Etiqueta para ficheiro do formato LRC: criador do ficheiro.
--lrc-sent
Inserir linhas em branco após as frases ao criar o arquivo LRC.
--lrc-para
Inserir linhas em branco após os parágrafos ao criar o arquivo LRC.
--srt-length número
Especificar o comprimento máximo de cordas para ficheiro de formato SRT (em caracteres).
--srt-fname nome_do_arquivo
Nome de ficheiro do formato SRT. A opção pode ser útil em casos em que a linha de comando estiver definido o parámetro -o.
--srt-enc codificação
Codificação de ficheiro do formato SRT ("ansi", "utf8" ou "unicode"). O valor padrão é "ansi".
--raw
Gravar áudio no formato PCM RAW; os dados não contêm título do formato WAV. Esta opção é utilizada em conjunto com -o.
--ignore-length ou -il
Não inscrever o tamanho dos dados de áudio no título do formato WAV. Esta opção é utilizada em conjunto com -o.
--wss
Use o protocolo WebSocket para o Microsoft Azure. Ele permite melhorar a qualidade do som dos arquivos de áudio (24 kHz em vez de 16 kHz). A opção é ignorada se a chave de assinatura para o Microsoft Azure Cognitive Services estiver definida. Use a opção -m para verificar se uma voz suporta o protocolo WebSocket ou não.
--sub-format texto
Formato dos subtítulos ("srt", "lrc", "ssa", "ass", "smi" ou "vtt"). Se não for especificado, o formato será determinado pela extensão do nome do ficheiro de subtítulos.
--sub-fit ou -sf
Aumenta automaticamente a velocidade da fala para se adequar aos intervalos de tempo (quando o programa converte legendas em arquivos de áudio). A biblioteca SoundTouch será usada para alterar a velocidade da fala.
--sub-max número ou -sm número
Definir a velocidade máxima da fala em um intervalo de 110% a 200% (quando o programa converte legendas em arquivos de áudio). O programa aumentará automaticamente a velocidade da fala sem exceder o valor definido.
 

--aws-keyid texto ou -ak texto
Sets AWS access key ID for the Amazon Polly. It is recommended to apply such key if you have it.
--aws-secret texto ou -as texto
Sets AWS secret access key for the Amazon Polly.
--aws-region texto ou -ar texto
Sets AWS region for the Amazon Polly.
--crv-email texto ou -ce texto
Sets the email address used when registering on the CereProc website. This information is necessary for CereVoice Cloud API authorization. It is recommended to apply such email if you have it.
--crv-pwd texto ou -cp texto
Sets the password used when registering on the CereProc website. This information is necessary for CereVoice Cloud API authorization. It is recommended to apply such password if you have it.
--gc-apikey texto ou -gk texto
Sets API key ID for the Google Cloud. It is recommended to apply such key if you have it.
--ms-apikey texto ou -mk texto
Sets the subscription key for the Microsoft Azure Cognitive Services. It is recommended to apply such key if you have it.
--ms-region texto ou -mr texto
Sets the subscription region for the Microsoft Azure Cognitive Services.


Exemplos de comandos

Crie o arquivo de texto LANGUAGE.TXT com a lista de todos os idiomas e gêneros suportados pelo serviço Google TTS:

bal4web -s Google -m > language.txt



Converta o texto do BOOK.TXT em voz e salve como um arquivo de áudio BOOK.WAV:

bal4web -f "d:\Text\book.txt" -w "d:\Sound\book.wav" -s Google -l en-US -g female



Converta legendas em fala e salve como MOVIE.WAV:

bal4web -f "d:\Subtitles\movie.srt" -w "d:\Sound\movie.wav" -s m -l de-DE -n Conrad -r 1.1

bal4web -f "d:\Subtitles\movie.srt" -w "d:\Sound\movie.wav" -s m -l de-DE -n Conrad --sub-fit



Exemplo de uso em conjunto com o LAME.EXE:

bal4web -f d:\book.txt -s Baidu -l en-US -o --raw | lame -r -s 16 -m m -h - d:\book.mp3



Exemplo de uso em conjunto com OGGENC2.EXE:

bal4web -f d:\book.txt -s Baidu -l en-US -o -il | oggenc2 --ignorelength - -o d:\book.ogg




Arquivo de configuração

É possível salvar o arquivo de configuração "bal4web.cfg" na mesma pasta que o aplicativo de console.

Um exemplo do conteúdo do arquivo:

-f d:\Text\book.txt
-w d:\Sound\book.wav
-s Google
-l de-DE
-g female
-d d:\Dict\rules.bxd
-lrc
--lrc-length 75
--lrc-enc utf8

O programa pode combinar opções do arquivo de configuração e da linha de comando.




Licença

Você está livre para usar e distribuir o software para fins não comerciais. Para uso ou distribuição comercial, você precisa obter permissão do detentor dos direitos autorais.