Awesome
TTSClient
Text To Speech(TTS)のクライアントソフトウェアです。 各種AIに対応していく計画です。(現時点ではGPT-SoVITSのみ)
- 対応 AI
- GPT-SoVITS
- coming soon...
https://github.com/user-attachments/assets/cdf33212-3077-4ff0-9fa2-8635ee5417f4
関連ソフトウェア
ダウンロード
Hugging Faceのリポジトリよりダウンロードしてください。
- win_stdエディション:Windows向けのCPUで動作するエディションです。cuda版と比較して低速ですが、最近のそれなりのスペックのCPUであれば動きます。
- win_cudaエディション:Windows向けのNVIDIAのGPUで動作するエディションです。GPUのハードウェアアクセラレーションにより高速に動きます。
- macエディション:Mac(Apple silicon(M1, M2, M3, etc))向けのエディションです。
使用方法
- zipファイルを展開後、
start_http.bat
を実行してください。表示された、URLにブラウザでアクセスしてください。 start_https.bat
を使用すると、リモートからでもアクセスすることができます。- (上級者向け)
start_http_with_ngrok.bat
を使用するとngrokを用いたトンネリングを使用してアクセスすることができます。
note: macエディションは.batを.commandで読み替えてください。
GPT-SoVITS
モデルの詳細はGPT-SoVITSの公式リポジトリを参照してください。
GPT-SoVITSでは、モデルと参照音声と参照テキストを選択してから、音声生成を行います。TTSClientでは参照話者という概念があり、参照話者に複数の参照音声と参照テキストを持たせることができます。
音声生成
- モデルと、参照話者を選択します((1), (2))。
- 参照話者に登録された参照音声と参照テキストを選択します(3)。
- 生成したいテキストを入力して音声を生成します(4)。
モデルの登録
モデル選択エリアの編集ボタンから登録してください。
参照話者の登録
参照話者登録エリアの編集ボタンから登録してください。
参照音声、テキストの登録
参照音声選択エリアで未登録のスロットを選択して登録してください。
リポジトリからの起動(Advanced)
$ git clone https://github.com/w-okada/ttsclient.git
$ cd ttsclient/
$ poetry install
$ poetry run main cui
---
リモートからアクセスする場合は`--https true`を付与してください。
---
$ poetry run main cui --https true
cudaを使用する場合
モジュールを入れ替えてください。
$ poetry add onnxruntime-gpu==1.19.2
$ poetry remove torch
$ poetry add torch==2.3.1 --source torch_cuda12
directmlを使用する場合
モジュールを入れ替えてください。
$ poetry add onnxruntime-directml==1.19.2