总干事@2¹⁰ on Nostr: ...而且手机端要实时把录音转换成文字才能识别到关键词,asr也需要专门的ai模型才能做,成本不是一般的高。。。手机的算力是搞不定或者很费电的,需要服务器配合专业显卡才行。。。