Balabolka :: Dienstprogramm für die Online-Text-zu-Sprache-Nutzung

The command line application allows to use online text-to-speech services: text files or subtitles can be converted to audio files. The utility can be used for testing purposes: it will help you to choose a cloud computing service that satisfies your needs. The separate application for Yandex SpeechKit is available for downloading, because Yandex is the Russian IT company with close government ties.

Online-Dienste mit Sprachtechnologien:

Google Cloud TTS;
Amazon Polly;
Baidu TTS;
CereVoice Cloud;
Descript TTS;
IBM Watson TTS;
Iciba TTS;
iTranslate TTS;
Microsoft Azure;
Naver TTS;
OpenAI TTS;
Youdao TTS;
Yandex SpeechKit.

Datei Download (Online-TTS-Dienstprogramm)

Größe: MB

Version: Änderungsliste

Lizenzart: Freeware

Plattformen:

Command Line Utility for Yandex SpeechKit Using: Download ( MB)
The program converts text or subtitles to audio files by using of the Yandex service.
To perform operations via the Yandex API, it is necessary to authenticate using an API-key.

Befehlszeilen-Anwendung

Die Konsolenanwendung verwaltet verschiedene Befehlszeilenparameter, um zu ermöglichen, einen Text laut vorzulesen oder als Audio-Datei zu speichern. Die Befehlszeilen-Optionen verwenden die Syntax "bal4web [Optionen ...]", alle Parameter müssen durch ein Leerzeichen getrennt werden. Die Optionen können in beliebiger Reihenfolge in der Befehlszeile aufgeführt werden, solange sie mit ihren zugehörigen Parametern verbunden sind. Verwenden Sie die "bal4web -?" Befehlszeile, um Hilfe bezüglich Syntax und Parameter der Kommandozeile zu erhalten.

-s Dienstname: Legt den Namen des Online-TTS-Dienstes fest ("google" oder "g", "amazon" oder "a", "baidu" oder "b", "cerevoice" oder "c", "descript" oder "d", "ibm" oder "i", "iciba" oder "k", "itranslate" oder "t", "microsoft" oder "m", "naver" oder "n", "openai" oder "o", "youdao" oder "y"). Die Voreinstellung ist "google".
-l Sprache: Legt den Sprachnamen für den Online-TTS-Dienst fest. Der Name ist eine Kombination aus einem aus zwei Buchstaben bestehenden ISO 639-Kulturcode in Kleinbuchstaben, der einer Sprache zugeordnet ist, und einem aus zwei Buchstaben bestehenden ISO 3166-Subkulturcode in Großbuchstaben, der einem Land oder einer Region zugeordnet ist. Zum Beispiel: de-DE, fr-FR, pl-PL. Die Standardeinstellung ist "en-US".
Note: Descript TTS and OpenAI TTS perform the language identification for input text, so these services ignore the option now. These services can recognize several dozen languages on their own.
-g Geschlecht: Legt das Geschlecht für den Online-TTS-Dienst fest (falls unterstützt). Die verfügbaren Werte: "female" oder "f" (weiblich), "male" oder "m" (männlich). Der Standardwert ist nicht definiert. Dieser Parameter wird von den Diensten Amazon Polly, CereProc TTS, Descript TTS, Google TTS, IBM Watson TTS, iTranslate TTS, Microsoft Azure, Naver TTS, OpenAI TTS unterstützt. Wenn ein Sprachname angegeben ist, muss das Geschlecht nicht festgelegt werden.
-n Sprecher: Legt den Sprachnamen für den Online-TTS-Dienst fest (falls unterstützt). Der Standardwert ist nicht definiert. Dieser Parameter wird von den Diensten Amazon Polly, CereProc TTS, Descript TTS, Google Cloud TTS, IBM Watson TTS, Microsoft Azure, Naver TTS, OpenAI TTS unterstützt.
-r Sprechgeschwindigkeit: Legt die Rate der synthetisierten Sprache fest (falls unterstützt).
Der Standardwert ist "1.0" (durchschnittliche menschliche Sprechgeschwindigkeit).
Amazon Polly: von "0.20" bis "2.00".
CereProc TTS: von "0.30" bis "4.00".
Descript TTS, Naver TTS, OpenAI TTS, Youdao TTS: von "0.70" bis "2.00".
Google TTS, IBM Watson TTS, Microsoft Azure: von "0.10" bis "3.00".
Google Cloud: von "0.25" bis "4.00".
iTranslate TTS: von "0.50" bis "2.00".
-p Zahl: Bestimmt die Tonhöhe in einem Bereich von -20 bis 20 (falls unterstützt). Der Standardwert ist 0.
Dieser Parameter wird von den Diensten Amazon Polly, CereProc TTS, Google Cloud TTS, IBM Watson TTS, Microsoft Azure.
-v Zahl: Bestimmt das Volumen in einem Bereich von 0 bis 200 (der Standardwert ist 100).
-st Stil: Sets the voice-specific speaking style. The voice can express emotions like cheerfulness, empathy or calmness. This option is supported by some voices in Microsoft Azure. Styles are not available if the WebSocket protocol for Microsoft Azure is used.
--style-degree Stilgrad oder -sd Stilgrad: Sets the intensity of the speaking style in a range of "0.01" to "2.00" (for styles supported by Microsoft Azure). The default is "1.00". The option allows to specify a stronger or softer style to make the speech more expressive or subdued.
-m: Druckt die Liste der unterstützten Sprachen (Geschlechter und Stimmnamen, falls verfügbar) für den Online-TTS-Dienst.
-f Dateiname: Bestimmt den Namen der Eingabe-Textdatei.
-fl Dateiname: Bestimmt den Namen der Textdatei mit der Liste der Eingabedateien (ein Dateiname pro Zeile).
-w Dateiname: Bestimmt den Namen der Ausgabe-Datei im WAV-Format. Wenn diese Option angegeben ist, wird eine Audio-Datei erstellt. Sonst wird der Text laut vorgelesen.
-c: Verwendet die Texteingabe aus der Zwischenablage.
-t Textzeile: Die Texteingabe kann von der Befehlszeile verwendet werden.
-i: Verwendet die Texteingabe von STDIN.
-o: Schreibt Tondaten auf STDOUT. Wenn diese Option gewählt ist, wird die Option -w ignoriert.
--encoding Kodierung oder -enc Kodierung: Bestimmt die Kodierung für die Texteingabe ("ansi", "utf8" oder "unicode"). Wenn die Option nicht angegeben wird, erkennt das Programm die Textkodierung.
--silence-begin Zahl oder -sb Zahl: Legt die Länge der Stille am Anfang der Audio-Datei fest (in Millisekunden). Der Standardwert ist 0.
--silence-end Zahl oder -se Zahl: Legt die Länge der Stille am Ende der Audio-Datei fest (in Millisekunden). Der Standardwert ist 0.
-ln Zahl: Wählt eine Zeile aus einer Textdatei mit Hilfe einer Zeilennummer. Die Zeilennummerierung beginnt bei "1". Ein Intervall von Zahlen kann verwendet werden, um mehr als eine Zeile auszuwählen (beispielsweise "26-34"). Die Befehlszeile kann ein paar Optionen enthalten -ln.
-e Zahl: Legt die Länge der Pausen zwischen Sätzen fest (in Millisekunden). Der Wert sollte kleiner als 5000 sein. Wenn die Option nicht angegeben ist, verwendet der Dienst die Standardpausen zwischen den Sätzen. Dieser Parameter wird nur von Microsoft Azure unterstützt.
-d Dateiname: Verwendet das Wörterbuch für die Aussprache-Korrektur (*.BXD, *.REX oder *.DIC). Die Befehlszeile kann ein paar Optionen enthalten -d.
-lrc: Erstellt eine LRC-Datei. Der Liedtext wird mit der Sprache in der ausgegebenen Audiodatei synchronisiert.
-srt: Erstellt eine SRT-Datei. Untertitel werden mit der Sprache in der ausgegebenen Audiodatei synchronisiert.
-sub: Text wird als Untertitel verarbeitet. Diese Option kann nützlich sein, wenn die Optionen -i oder -c festgelegt wurden.
-host Hostname: Legt den Hostnamen des Proxy-Servers fest.
-port Zahl: Legt die Portnummer des Proxy-Servers fest.
-fr Zahl: Legt die Ausgabe-Audio-Abtastfrequenz in kHz fest (8, 11, 16, 22, 24, 32, 44, 48). Wenn die Option nicht angegeben ist, wird der Standardwert für den ausgewählten Dienst verwendet.
-ae Audiokodierung: Sets the audio encoding for data returned by Google Cloud or Microsoft Azure ("linear16", "mp3" or "oggopus"). With this setting, it is possible to improve the sound quality. The option is available if the API key is specified. It is not recommended to be used without special necessity: apply it for testing purposes only.
--ignore-square-brackets oder -isb: Text in [eckigen Klammern] ignorieren.
--ignore-curly-brackets oder -icb: Text in {geschweiften Klammern} ignorieren.
--ignore-angle-brackets oder -iab: Text in <Winkelklammern> ignorieren.
--ignore-round-brackets oder -irb: Text in (runden Klammern) ignorieren.
--ignore-comments oder -ic: Kommentare im Text ignorieren. Einzeilige Kommentare beginnen mit // und werden bis zum Ende der Zeile fortgesetzt. Mehrzeilige Kommentare beginnen mit /* und enden mit */.
-dp: Anzeige von Fortschrittsinformationen in einem Konsolenfenster.
-cfg Dateiname: Legt den Namen der Konfigurationsdatei mit den Befehlszeilenoptionen fest (eine Textdatei, in der jede Zeile eine Option enthält). Wird die Option nicht angegeben, wird die Datei bal4web.cfg verwendet, die sich im selben Ordner wie das Dienstprogramm befindet.
-h: Druckt die Liste der verfügbaren Befehlszeilen-Optionen.
--lrc-length Zahl: Bestimmt die maximale Länge der Textzeilen für die LRC-Datei (in Zeichen).
--lrc-fname Dateiname: Bestimmt den Namen der LRC-Datei. Die Option kann nützlich sein, wenn die Option -o angegeben ist.
--lrc-enc Kodierung: Bestimmt die Kodierung für die LRC-Datei ("ansi", "utf8" oder "unicode"). Die Standardeinstellung ist "ansi".
--lrc-offset Zahl: Bestimmt die Zeitverschiebung für die LRC-Datei (in Millisekunden).
--lrc-artist Textzeile: Bestimmt den ID-Tag für die LRC-Datei: Künstler.
--lrc-album Textzeile: Bestimmt den ID-Tag für die LRC-Datei: Album.
--lrc-title Textzeile: Bestimmt den ID-Tag für die LRC-Datei: Titel.
--lrc-author Textzeile: Bestimmt den ID-Tag für die LRC-Datei: Autor.
--lrc-creator Textzeile: Bestimmt den ID-Tag für die LRC-Datei: Ersteller der LRC-Datei.
--srt-length Zahl: Bestimmt die maximale Länge der Textzeilen für die SRT-Datei (in Zeichen).
--srt-fname Dateiname: Bestimmt den Namen der SRT-Datei. Die Option kann nützlich sein, wenn die Option -o angegeben ist.
--srt-enc Kodierung: Bestimmt die Kodierung für die SRT-Datei ("ansi", "utf8" oder "unicode"). Die Standardeinstellung ist "ansi".
--raw: Der Ausgang ist RAW-Format PCM; die Audiodaten enthalten nicht den WAV-Header. Diese Option wird zusammen mit der Option -o verwendet.
--ignore-length oder -il: Ignoriert die Länge der Daten im WAV-Header. Diese Option wird zusammen mit der Option -o verwendet.
--wss: Legt die Verwendung des WebSocket-Protokolls für Microsoft Azure fest. Es ermöglicht die Verbesserung der Tonqualität von Audiodateien (24 kHz anstelle von 16 kHz). Die Option wird ignoriert, wenn der Abonnementschlüssel für die Microsoft Azure Cognitive Services definiert ist. Verwenden Sie die Option -m, um zu prüfen, ob eine Stimme das WebSocket-Protokoll unterstützt.
--sub-format Textzeile: Legt das Format der Untertitel fest ("srt", "lrc", "ssa", "ass", "smi" oder "vtt"). Wenn diese Option nicht angegeben ist, wird das Format anhand der Dateiendung bestimmt.
--sub-fit oder -sf: Erhöht automatisch die Sprechgeschwindigkeit, um sie an Zeitintervalle anzupassen (wenn das Programm Untertitel in eine Audiodatei konvertiert). The SoundTouch library will be used for changing tempo.
--sub-max Zahl oder -sm Zahl: Sets the maximal rate of speech in a range of 110% to 200% (when the program converts subtitles to audio file). The program will automatically increase the speech rate without exceeding the set rate value.

--aws-keyid Textzeile oder -ak Textzeile: Legt die AWS-Zugangsschlüssel-ID für den Amazon Polly fest. Es wird empfohlen, diese Daten anzuwenden, wenn Sie sie haben.
--aws-secret Textzeile oder -as Textzeile: Legt den geheimen AWS-Zugangsschlüssel für den Amazon Polly fest.
--aws-region Textzeile oder -ar Textzeile: Legt die AWS-Region für den Amazon Polly fest.
--crv-email Textzeile oder -ce Textzeile: Legt die E-Mail-Adresse fest, die bei der Registrierung auf der CereProc-Website verwendet wird. Diese Informationen sind für die Autorisierung der CereVoice Cloud API erforderlich. Es wird empfohlen, diese Daten anzuwenden, wenn Sie sie haben.
--crv-pwd Textzeile oder -cp Textzeile: Legt das Passwort fest, das bei der Registrierung auf der CereProc-Website verwendet wird. Diese Informationen sind für die Autorisierung der CereVoice Cloud API erforderlich. Es wird empfohlen, diese Daten anzuwenden, wenn Sie sie haben.
--gc-apikey Textzeile oder -gk Textzeile: Legt die API-Schlüssel-ID für die Google Cloud fest. Es wird empfohlen, diese Daten anzuwenden, wenn Sie sie haben.
--ms-apikey Textzeile oder -mk Textzeile: Legt den Abonnementschlüssel für die Microsoft Azure Cognitive Services fest. Es wird empfohlen, diese Daten anzuwenden, wenn Sie sie haben.
--ms-region Textzeile oder -mr Textzeile: Legt die Abonnementregion für die Microsoft Azure Cognitive Services fest.

Befehlszeilen-Beispiele

Erstellen Sie die Textdatei SPRACHEN.TXT mit der Liste aller unterstützten Sprachen und Geschlechter für den Dienst Google TTS:

bal4web -s Google -m > Sprachen.txt

Text aus BOOK.TXT in Sprache umwandeln und als BOOK.WAV speichern:

bal4web -f "d:\Text\book.txt" -w "d:\Sound\book.wav" -s Google -l en-US -g female

Untertitel in Sprache umwandeln und als MOVIE.WAV speichern:

bal4web -f "d:\Subtitles\movie.srt" -w "d:\Sound\movie.wav" -s m -l de-DE -n Conrad -r 1.1

bal4web -f "d:\Subtitles\movie.srt" -w "d:\Sound\movie.wav" -s m -l de-DE -n Conrad --sub-fit

Beispiel für die Verwendung zusammen mit LAME.EXE:

bal4web -f d:\book.txt -s Baidu -l en-US -o --raw | lame -r -s 16 -m m -h - d:\book.mp3

Beispiel für die Verwendung zusammen mit OGGENC2.EXE:

bal4web -f d:\book.txt -s Baidu -l en-US -o -il | oggenc2 --ignorelength - -o d:\book.ogg

Konfigurationsdatei

Die Befehlszeilen-Optionen können als Konfigurationsdatei "bal4web.cfg" im Ordner der Konsolen-Anwendung gespeichert werden.

Beispiel für eine Konfigurationsdatei:

-f d:\Text\book.txt
-w d:\Sound\book.wav
-s Google
-l de-DE
-g female
-d d:\Dict\rules.bxd
-lrc
--lrc-length 75
--lrc-enc utf8

Das Programm kann Optionen von der Konfigurationsdatei und der Kommandozeile kombinieren.

Lizenzart

Sie können Software für nichtkommerzielle Zwecke verwenden und vertreiben. Für die kommerzielle Nutzung oder den Vertrieb benötigen Sie die Genehmigung des Urheberrechtsinhabers.