當你實現了文本式大模型得語音對話,接下來要做的其中一項任務是將回復得文本語音播報。那么就需要用到在線文本轉語音,將轉換得語音音頻文件進行播放即可。
最近對于大模型的對話研究一直在用DeepSeek何Kimi去幫助寫代碼,但是由于DeepSeek最近總是服務繁忙,所以主要使用Kimi,之前寫的文章ESP32C3接入DeepSeek大模型測試,就是Kimi幫忙完成的。(最近已經離不開大模型的使用,從去年覺的大模型一般,到現在離不開,后面會寫一篇大模型使用心得,為什么要使用大模型,什么樣的人可以用)。
回歸今天得主題,我這里是的是阿里云在線文本轉語音。其實也有很多其他的,但是我發現好多都已經關閉開發API,比如科大訊飛,已經關閉,下圖看嫂接口地址為wss,ESP32C3只能訪問http,如果有小伙伴有方法可以交流。(何Python版本也有關系)。
接下來看阿里云的在線文本轉語音,使用的是語音合成CosyVoice,也有很多去他的模型可以選擇。
就在上述界面下,即可得到Python代碼,注意加入自己的API Key。
這樣就輸出了output.mp3的音頻文件,再配合MAX98357即可播放音頻,但是要注意MAX98357播放的是WAV格式。
如下是語音可選擇得音色,有20種可選。其中包括中文普通話、東北口音、英語等。
歡迎在留言區互動。最近小智很火,需要套件玩耍的小伙伴可以入手。