Doação
WMZ: Z087754155981 (USD) WME: E110509803261 (EUR)
|
Balabolka  Programa para serviços de síntese de voz online
The command line application allows to use online text-to-speech services: text files or subtitles can be converted to audio files. The utility can be used for testing purposes: it will help you to choose a cloud computing service that satisfies your needs. The separate application for Yandex SpeechKit is available for downloading, because Yandex is the Russian IT company with close government ties.
 |
Serviços online com tecnologias de voz:
- Google Cloud TTS
- Amazon Polly
- Baidu TTS
- CereVoice Cloud
- IBM Watson TTS
- Iciba TTS
- iTranslate TTS
- Microsoft Azure
- Naver TTS
- OpenAI TTS
- Youdao TTS
- Yandex SpeechKit
|
Baixar o programa BAL4WEB
Pedido para utilização do Yandex SpeechKit: Baixar ( MB)
The program converts text or subtitles to audio files by using of the Yandex service.
To perform operations via the Yandex API, it is necessary to authenticate using an API-key.
Linha de comando
The utility handles various command line parameters to be able to save speech as an audio file. The command line options use the syntax "bal4web [options ...]", all parameters must be separated by a space. Options can appear in any order on the command line so long as they are paired with their related parameters. Use the "bal4web -?" command line to get help on the command line syntax and parameters.
- -s nome_do_serviço
- Sets the name of the online TTS service ("google" or "g", "amazon" or "a", "baidu" or "b", "cerevoice" or "c", "ibm" or "i", "iciba" or "k", "itranslate" or "t", "microsoft" or "m", "naver" or "n", "openai" or "o", "youdao" or "y"). The default is "google".
- -l nome_da_língua
- Sets the language name for the online TTS service. The name is a combination of an ISO 639 two-letter lowercase culture code associated with a language and an ISO 3166 two-letter uppercase subculture code associated with a country or region. For example: pt-BR, de-DE, fr-FR. The default is "en-US".
Note: OpenAI TTS performs the language identification for input text, so this service ignores the option now. OpenAI TTS can recognize several dozen languages on its own.
- -g género
- Sets the gender for the online TTS service (if supported). The available values: "female" or "f", "male" or "m". The default value is not defined. This parameter is supported by services: Amazon Polly, CereProc TTS, Google TTS, IBM Watson TTS, iTranslate TTS, Microsoft Azure, Naver TTS, OpenAI TTS. If a voice name is specified, there is no need to set its gender.
- -n nome_da_voz
- Sets the voice name for the online TTS service (if supported). The default value is not defined. This parameter is supported by services Amazon Polly, CereProc TTS, Google Cloud TTS, IBM Watson TTS, Microsoft Azure, Naver TTS, OpenAI TTS.
- -r velocidade_de_fala
- Define a velocidade da fala sintetizada (se suportada).
O padrão é "1.00" (velocidade média da fala humana). Amazon Polly: de "0.20" to "2.00". CereProc TTS: de "0.30" para "4.00". Naver TTS, OpenAI TTS, Youdao TTS: de "0.70" para "2.00". Google TTS, IBM Watson TTS, Microsoft Azure: de "0.10" para "3.00". Google Cloud: de "0.25" para "4.00". iTranslate TTS: de "0.50" para "2.00".
- -p número
- Definir o tom de voz em uma faixa de -20 a 20 (se suportado). O padrão é 0.
Esta opção é compatível com o Amazon Polly, CereProc TTS, Google Cloud TTS, IBM Watson TTS, Microsoft Azure.
- -v número
- Definir o volume na faixa de 0 a 200 (o padrão é 100).
- -st estilo_de_falar
- Definir o estilo de fala específico da voz. A voz pode expressar emoções como alegria, empatia ou calma. Esta opção é suportada por algumas vozes no Microsoft Azure. Os estilos não estão disponíveis se for utilizado o protocolo WebSocket para o Microsoft Azure.
- --style-degree grau_de_estilo ou -sd grau_de_estilo
- Definir a intensidade do estilo de fala em uma faixa de "0.01" a "2.00" (para estilos suportados pelo Microsoft Azure). O padrão é "1.00". A opção permite especificar um estilo mais forte ou mais suave para tornar a fala mais expressiva ou mais moderada.
- -m
- Imprime a lista de idiomas suportados (nomes de gêneros e vozes, se disponíveis) para o serviço TTS online.
- -f nome_do_arquivo
- Definir o nome do arquivo de texto de entrada. A linha de comando pode conter várias opções -f.
- -fl nome_do_arquivo
- Definir o nome do arquivo de texto com a lista de arquivos de entrada (um nome de arquivo por linha). A linha de comando pode conter várias opções -fl.
- -w nome_do_arquivo
- Definir o nome do arquivo de saída no formato WAV.
- -c
- Usar o texto a partir da área de transferência.
- -t linha_de_texto
- Usar o texto a partir da linha de comando. A linha de comando pode conter várias opções -t.
- -i
- Usar o texto a partir do fluxo de entrada padrão (STDIN).
- -o
- Gravar dados de som em STDOUT; se a opção for especificada, a opção -w será ignorada.
- --encoding codificação ou -enc codificação
- Codificação de texto a partir da entrada padrão ("ansi", "utf8" ou "unicode"). Se a opção não for especificada, o programa detectará a codificação do texto.
- --silence-begin número ou -sb número
- Especificar a duração da pausa no início do ficheiro áudio (em milissegundos). O padrão é 0.
- --silence-end número ou -se número
- Especificar a duração da pausa no final de um ficheiro áudio (em milissegundos). O padrão é 0.
- -ln número
- Selecionar uma linha do arquivo de texto usando um número de linha. A numeração das linhas começa em "1". O intervalo de números pode ser usado para selecionar mais de uma linha (por exemplo, "26-34"). A linha de comando pode conter várias opções -ln.
- -e número
- Definir a duração das pausas entre frases (em milissegundos). O valor deve ser inferior a 20000. Se a opção não for especificada, o serviço utilizará as pausas padrão entre frases. Este parâmetro é suportado apenas pelo Microsoft Azure.
- -d nome_do_arquivo
- Applies a dictionary for pronunciation correction (*.BXD, *.DIC or *.REX). The command line may contain few options -d.
- -lrc
- Cria o arquivo LRC. O texto será sincronizado com a fala no arquivo de áudio de saída.
- -srt
- Cria o arquivo SRT. As legendas serão sincronizadas com a fala no arquivo de áudio de saída.
- -sub
- Input text will be processed as subtitles. The option may be useful, when the options -i or -c are specified.
- -host nome_do_anfitrião
- Definir o nome do host do servidor proxy.
- -port número
- Definir o número da porta do servidor proxy.
- -fr número
- Definir a frequência de amostragem do áudio de saída em kHz (8, 11, 16, 22, 24, 32, 44, 48). Se a opção não for especificada, será utilizado o valor padrão da voz selecionada.
- -ae codificação_áudio
- Definir a codificação de áudio para os dados retornados pelo Google Cloud ou Microsoft Azure ("linear16", "mp3" ou "oggopus"). Com essa configuração, é possível melhorar a qualidade do som. A opção está disponível se a chave API for especificada. Não é recomendável usá-la sem necessidade especial: aplique-a apenas para fins de teste.
- --ignore-square-brackets ou -isb
- Ignorar o texto entre [colchetes].
- --ignore-curly-brackets ou -icb
- Ignorar o texto entre {chaves}.
- --ignore-angle-brackets ou -iab
- Ignorar texto entre <colchetes angulares>.
- --ignore-round-brackets ou -irb
- Ignorar o texto entre (parênteses).
- --ignore-url ou -iu
- Ignorar URLs.
- --ignore-comments ou -ic
- Ignorar comentários no texto. Comentários de linha única começam com // e continuam até o final da linha. Comentários de várias linhas começam com /* e terminam com */.
- -dp
- Exibir informações de progresso em uma janela do console.
- -cfg nome_do_arquivo
- Definir o nome do arquivo de configuração com as opções da linha de comando (um arquivo de texto em que cada linha contém uma opção). Se a opção não for especificada, será utilizado o arquivo bal4web.cfg na mesma pasta do utilitário.
- -h
- Mostrar a descrição das opções da linha de comando.
- --lrc-length número
- Especificar o comprimento máximo de cordas para ficheiro de formato LRC (em caracteres).
- --lrc-fname nome_do_arquivo
- Nome de ficheiro do formato LRC. A opção pode ser útil em casos em que a linha de comando estiver definido o parámetro -o.
- --lrc-enc codificação
- Codificação de ficheiro do formato LRC ("ansi", "utf8" ou "unicode"). O valor padrão é "ansi".
- --lrc-offset número
- Especificar a mudança da hora no ficheiro do formato LRC (em milissegundos).
- --lrc-artist texto
- Etiqueta para ficheiro do formato LRC: intérprete da obra.
- --lrc-album texto
- Etiqueta para ficheiro do formato LRC: álbum.
- --lrc-title texto
- Etiqueta para ficheiro do formato LRC: título da obra.
- --lrc-author texto
- Etiqueta para ficheiro do formato LRC: autor.
- --lrc-creator texto
- Etiqueta para ficheiro do formato LRC: criador do ficheiro.
- --lrc-sent
- Inserir linhas em branco após as frases ao criar o arquivo LRC.
- --lrc-para
- Inserir linhas em branco após os parágrafos ao criar o arquivo LRC.
- --srt-length número
- Especificar o comprimento máximo de cordas para ficheiro de formato SRT (em caracteres).
- --srt-fname nome_do_arquivo
- Nome de ficheiro do formato SRT. A opção pode ser útil em casos em que a linha de comando estiver definido o parámetro -o.
- --srt-enc codificação
- Codificação de ficheiro do formato SRT ("ansi", "utf8" ou "unicode"). O valor padrão é "ansi".
- --raw
- Gravar áudio no formato PCM RAW; os dados não contêm título do formato WAV. Esta opção é utilizada em conjunto com -o.
- --ignore-length ou -il
- Não inscrever o tamanho dos dados de áudio no título do formato WAV. Esta opção é utilizada em conjunto com -o.
- --wss
- Use o protocolo WebSocket para o Microsoft Azure. Ele permite melhorar a qualidade do som dos arquivos de áudio (24 kHz em vez de 16 kHz). A opção é ignorada se a chave de assinatura para o Microsoft Azure Cognitive Services estiver definida. Use a opção -m para verificar se uma voz suporta o protocolo WebSocket ou não.
- --sub-format texto
- Formato dos subtítulos ("srt", "lrc", "ssa", "ass", "smi" ou "vtt"). Se não for especificado, o formato será determinado pela extensão do nome do ficheiro de subtítulos.
- --sub-fit ou -sf
- Aumenta automaticamente a velocidade da fala para se adequar aos intervalos de tempo (quando o programa converte legendas em arquivos de áudio). A biblioteca SoundTouch será usada para alterar a velocidade da fala.
- --sub-max número ou -sm número
- Definir a velocidade máxima da fala em um intervalo de 110% a 200% (quando o programa converte legendas em arquivos de áudio). O programa aumentará automaticamente a velocidade da fala sem exceder o valor definido.
- --aws-keyid texto ou -ak texto
- Sets AWS access key ID for the Amazon Polly. It is recommended to apply such key if you have it.
- --aws-secret texto ou -as texto
- Sets AWS secret access key for the Amazon Polly.
- --aws-region texto ou -ar texto
- Sets AWS region for the Amazon Polly.
- --crv-email texto ou -ce texto
- Sets the email address used when registering on the CereProc website. This information is necessary for CereVoice Cloud API authorization. It is recommended to apply such email if you have it.
- --crv-pwd texto ou -cp texto
- Sets the password used when registering on the CereProc website. This information is necessary for CereVoice Cloud API authorization. It is recommended to apply such password if you have it.
- --gc-apikey texto ou -gk texto
- Sets API key ID for the Google Cloud. It is recommended to apply such key if you have it.
- --ms-apikey texto ou -mk texto
- Sets the subscription key for the Microsoft Azure Cognitive Services. It is recommended to apply such key if you have it.
- --ms-region texto ou -mr texto
- Sets the subscription region for the Microsoft Azure Cognitive Services.
Exemplos de comandos
Crie o arquivo de texto LANGUAGE.TXT com a lista de todos os idiomas e gêneros suportados pelo serviço Google TTS:
bal4web -s Google -m > language.txt
Converta o texto do BOOK.TXT em voz e salve como um arquivo de áudio BOOK.WAV:
bal4web -f "d:\Text\book.txt" -w "d:\Sound\book.wav" -s Google -l en-US -g female
Converta legendas em fala e salve como MOVIE.WAV:
bal4web -f "d:\Subtitles\movie.srt" -w "d:\Sound\movie.wav" -s m -l de-DE -n Conrad -r 1.1
bal4web -f "d:\Subtitles\movie.srt" -w "d:\Sound\movie.wav" -s m -l de-DE -n Conrad --sub-fit
Exemplo de uso em conjunto com o LAME.EXE:
bal4web -f d:\book.txt -s Baidu -l en-US -o --raw | lame -r -s 16 -m m -h - d:\book.mp3
Exemplo de uso em conjunto com OGGENC2.EXE:
bal4web -f d:\book.txt -s Baidu -l en-US -o -il | oggenc2 --ignorelength - -o d:\book.ogg
Arquivo de configuração
É possível salvar o arquivo de configuração "bal4web.cfg" na mesma pasta que o aplicativo de console.
Um exemplo do conteúdo do arquivo:
-f d:\Text\book.txt
-w d:\Sound\book.wav
-s Google
-l de-DE
-g female
-d d:\Dict\rules.bxd
-lrc
--lrc-length 75
--lrc-enc utf8
|
O programa pode combinar opções do arquivo de configuração e da linha de comando.
Licença
Você está livre para usar e distribuir o software para fins não comerciais. Para uso ou distribuição comercial, você precisa obter permissão do detentor dos direitos autorais.
|