Die Vox Occulta Anwendung

Die Software-ITK Anwendung Vox Occulta

Vox Occulta steht eigentlich für eine ganze Familie von ITK-Anwendungen. Das Grundprinzip ist eine Stimmensynthese, die auf der Emulierung eines virtuellen menschlichen Kehlkopfes und seiner Resonanzkammern beruht. Vox-Occulta I beruhte noch auf einer elektromechanischen Lösung mit einem Chaosgenerator und mechanischen Komponenten wie Federn und Membranen um die Stimmbildung zu simulieren. Vox Occulta II war bereits eine reine Softwarelösung und die weiteren Revisionen wurden Mischungen aus beidem.

In der Rev.5 habe ich nun eine Software geschrieben, welche gute Ergebnisse ganz ohne zusätzliche Hardware ermöglicht. Die Software kann, wie bei meinen Applikationen gewohnt, direkt online im Browser verwendet werden. Ich biete sie allerdings auch zum Download an. Die Software ist mein geistiges Eigentum, ich stelle sie jedoch kostenlos zur Verfügung.

Bedienung der Vox Oculta V Software

Die Software hat eine Menge Einstellregler, welche das Klangbild, die Sprachgeschwindigkeit und die Wahrnehmnung des Experimentators beeinflussen. Der logische Fluß der Einstellungen beginnt links oben. In der folgenden Tabelle sind die Funktionen der Regler erklärt. Diese sind in Funktionsgruppen gegliedert.

Die erste Funktionsgruppe erzeugt zwei Impulsfrequenzen. Diese entsprechen analog der Schwingfrequenz der menschlichen Stimmbänder und definieren damit die Tonhöhe der Stimme. Die Software nutzt zwei anstatt einer Impulsquelle, weil sich dadurch mehr Klangfülle ergibt. Beide Frequenzen sollten im Bereich 3-50 Hz auseinander liegen.

Funktionsgruppe Basic Frequency Settings
Pulse Frequency 1 Die Frequenz der ersten Basis Impulsquelle
Pulse Frequency 2 Die Frequenz der zweiten Basis Impulsquelle
Volume Die Gesamtlautstärke des resultierenden Signals

Die zweite Funktionsgruppe moduliert beide Impulsquellen in der Frequenz über einen Zufallsgenerator. Der genaue Modulationsvorgang ist komplex und wurde von mir nach langen Forschungen ausgearbeitet.

Funktionsgruppe Frequency Modulation Settings
FM Angle Preset Legt den Arbeitspunkt der Modulation fest
FM-Range Bestimmt den Hub der Modulation, also wie stark diese das Signal verändert.

Die dritte Funktionsgruppe erzeugt zusätzlich eine Pulsweiten-Modulation an den Impulsfrequenzen. Diese hat keinen massiven Einfluß auf das Endergebnis, sondern rundet das Klangbild ab.

Funktionsgruppe PWM Settings
PWM Duty Cycle Dieser Wert ist der Arbeitspunkt der Pulsweite, um den herum die Modulation erfolgt
PWM Range Die Tiefe der Modulation

Die vierte Funktionsgruppe steuert den Rhythmus der Spracherzeugung.

Funktionsgruppe Randomizer
Speech Speed Dieser Wert steuert die Geschwindigkeit der erzeugten Sprache

Die fünfte Funktionsgruppe enthält verschiedene Parameter zur spektralen Ausgestaltung der Sprache.

Funktionsgruppe Spectral Processing
Filter Bandwidth Diese Software verwendet steuerbare Bandfilter für die Sprachformung. Die Bandbreite dieser Filter kann hier verändert werden
Noise Envelope Um mehr spektrale Klangfülle zu erreichen, kann eine Rauschglocke um das Signal gelegt werden Die Stärke ist mit diesem Regler einstellbar.
Consonant Injection Konsonanten sind in der Sprachsynthese immer ein Problem. Dieser Regler führt dem Signal mehr Anteile zu, die in der Stimmenmanifestation zur Bildung von Konsonanten führen
Pulse Harm. Mix Mit diesem Regler kann das Verhältnis zwischen dem reinen Pulssignal und der spektralen Bearbeitung eingestellt werden. Der Regler hat einen sehr großen Einfluß auf das Klangbild.

Die sechste Funktionsgruppe enthält verschiedene Parameter zur Konfiguration von Hall.

Funktionsgruppe Reverb Settings
Delay Die Verzögerung des Hallsignals wird mir diesem Regler eingestellt
Decay Mit diesem Regler wird der Nachhall eingestellt
Wet/Dry Mix Das Verhältnis von verhalltem zu unverhalltem Signal wird hier eingestellt

Weiterhin gibt es eine Reihe von Buttons mit verschiedenen Funktionen. Die Buttons lösen verschiedene Funktionen aus und steuern den Programmablauf.

Voice
Start Startet die Stimmensynthese mit den aktuell eingestellten Parametern
Stop Stoppt die laufende Stimmensynthese

Settings
Save Setting Alle Parameter werden als Datensatz lokal gespeichert. Es muss kein Dateiname vergeben werden.
Load Setting Falls ein vormals gespeicherter Parameter Datensatz vorhanden ist, so wird dieser durch Klicken auf diesen Button geladen.

Aufnahme Das Programm bietet die Möglichkeit das erzeugte Stimmensignal als WAVE Datei aufzuzeichnen, so dass keine Aufnahme mit dem Mikrofon erfolgen muss.
Symbol "REC" Bei Klicken auf dieses Symbol startet der Aufnahmeprozes. Die Anzeige im Panel wechselt auf "RECORDING" und ein Bandzählwerk zeigt die Aufnahmezeit an. Weiterhin wird ein ablaufender Timer angezeigt, der die Aufnahme nach 600s automatisch beendet. Dieses dient dazu, dass die Aufnahmedatei nicht zu groß wird.
Symbol "STOP" Stoppt die laufende Aufnahme. Die Anzeige wechselt auf "STOPPED" und das Bandzählwerk hält an
Symbol "DISKETTE" Speichert die erzeugte Aufnahme. Diese wird mit dem Standardnamen "Vox-Occulta5.wav" in den Downloadbereich des Browsers heruntergeladen

Die App bietet die Möglichkeit die synthetische Stimme über die PC Lautsprecher abzuspielen oder über die eingebaute Aufnahmefunktion. Nach meinem Eindruck bringt die erstere Methode etwas bessere Ergebnisse. Die optimale Einstellung aller Parameter ist durchaus komplex und jeder hört Stimmen anders. Sie müssen also selbst die optimalen Parameter finden. Das Programm startet mit den Parametern, die ich selbst als optimal empfinde.

Wichtig: Das Programm hat einige Eigenarten, die ich selbst noch nicht ganz verstehe. Deshalb sollte man nach dem Start der Stimme einmal den Delay Regler verstellen. Die Stimmen werden dann lauter und deutlicher!

Hier geht es zur App