Home

Awesome

ASRClient

[日本語] [English] [한국어] [中文简体]

リアルタイム音声認識/Speech To Text/Automatic Speech Recognition(STT/ASR)のクライアントソフトウェアです。

認識したテキストをWebHook経由やWebsocoket経由でリアルタイムに取得することができます。

各種AIに対応していく計画です。

What's New

関連ソフトウェア

ダウンロード

Hugging Faceのリポジトリ

オンラインデモ

Colabでの実行が可能です。 こちらのノートにアクセスし、左上のOpen in Colabボタンをクリックして開いてください。

使用方法

note: macエディションは.batを.commandで読み替えてください。

リポジトリをクローンして使用する方法 (Advanced)

前提

準備

下記のコマンドを実行してください。

git clone https://github.com/w-okada/asrclient.git

cd asrclient
cd third_party
git clone https://github.com/reazon-research/ReazonSpeech
cd ..

poetry install

実行

下記のコマンドを実行してください。

poetry run main cui

下の画像のURLにアクセスしてください。 image

fatal error: Python.h: そのようなファイルやディ レクトリはありませんのようなエラーが出る場合は、pythonのソースコードをインストールしてください。

sudo apt install python3-dev

No such file or directory: 'cmake'のようなエラーが出る場合は、cmakeをインストールしてください。

sudo apt-get install cmake

NVIDIAのGPU(cuda)を使用する場合

poetry remove onnxruntime-directml torch-directml
poetry add torch==2.3.1 --source torch_cuda12
poetry add onnxruntime-gpu==1.17.1 --source ort_cuda12

webhook client sample

python

下記のコマンドを実行してください。 表示されるwebhookのurlをGUIに設定してください。

python .\client\webhook_server\generic_main.py

node

下記のコマンドを実行してください。 表示されるwebhookのurlをGUIに設定してください。

node .\client\webhook_server\generic_main.js

socketio client sample

下記のコマンドを実行してください。 http://localhost:20000の部分はASRClientの起動URLを指定してください。

poetry run python_socket_io http://localhost:20000