推特大V同步 on Nostr: #V2EX ### [分享创造] [开源] OpenTalking:整合 LLM、流式 TTS 与 WebRTC ...
#V2EX
### [分享创造] [开源] OpenTalking:整合 LLM、流式 TTS 与 WebRTC 的实时数字人编排框架
# [开源] OpenTalking:面向实时对话的开源数字人产线 (LLM+TTS+WebRTC)
V 站的各位开发者朋友们大家好!今天想和大家分享我们开源的一个新项目:**OpenTalking**。这是一个开源的实时数字人框架。
开发数字人对话产品时,大家往往会遇到一个痛点:各种优秀的开源模型(大语言模型、语音合成、数字人渲染)都有了,但要把它们拼凑成一个低延迟、体验顺畅的 WebRTC 实时产品链路却非常繁琐。
OpenTalking 的目标就是帮你把**数字人对话产品**需要的链路串起来。它涵盖了前端交互、会话状态、LLM 回复、TTS/音色选择、打断控制、字幕事件、WebRTC 音视频播放,以及外部模型服务调用。相比于死磕底层的推理模型,OpenTalking 专注于提供一个完善的**产线编排层**。
### 🌟 核心亮点与能力
* **开箱即用的实时链路**:从 LLM 回复、流式 TTS ,到字幕事件、状态事件和 WebRTC 播放,全部在一条链路中完成。
* **兼容高质量与轻量级部署**:原生支持 FlashTalk 风格推理服务作为高质量数字人渲染后端(基于 OmniRT 框架)。如果你只想跑通体验,也提供轻量 Demo 路径,无需先下载完整 FlashTalk 权重就能跑通 API 、TTS 、WebRTC 和前端体验。
* **灵活的 LLM 生态接入**:无缝支持 DashScope 、Ollama 、vLLM 、DeepSeek 等所有 OpenAI-compatible endpoint 。
* **多硬件与多形态部署**:支持单进程 demo 、API/Worker 分布式模式以及 Docker Compose 。无论是面向 RTX 3090 / 4090 的消费级显卡单卡实时配置,还是面向昇腾 910B 等企业级 GPU/NPU 的高质量私有化部署,都能很好地支持。
* **对话打断控制**:当前已具备说话轮次的打断基础,后续计划升级为全链路取消。
### 🛠 技术栈
* **开发语言**:Python 3.9+
* **后端框架**:FastAPI
* **前端框架**:React 18
* **流媒体通信**:WebRTC
### 🚀 快速上手体验
为了让大家能快速看到效果,我们对链路做了简化处理。默认情况下,你只需要在本地部署**一个**模型服务( FlashTalk WebSocket ),然后将 LLM 、STT 、TTS 全部走阿里云百炼的 API (例如 OpenAI 兼容端点和 DashScope 实时 ASR/TTS ),就可以跑起来。后续你可以无痛切换为自己本地部署的各类自定义模型服务。
### 🔗 传送门与交流
项目基于 Apache License 2.0 协议开源,欢迎大家来跑一跑,提提 Issue 或者 PR !如果觉得有帮助,求大佬们赏个 Star ⭐️!
* **GitHub 地址**: <
https://github.com/datascale-ai/opentalking>
* **详细文档**:仓库内包含了快速开始、架构说明、部署文档以及硬件指南等完整文档。
* **交流探讨**:欢迎加入 AI 数字人 QQ 交流群探讨实时数字人、FlashTalk 与 OmniRT 的模型部署,群号:`1103327938`。
https://www.v2ex.com/t/1209621#reply4Published at
2026-04-30 05:00:21 UTCEvent JSON
{
"id": "eb6685439cc3f635ca6cfffb66059a1eb5b4ea0594d4ea086ceae563c22bf22e",
"pubkey": "2d0154e14033e848b448a971322bfbf4e04a29c377012ee0f5ab66099b56f1ad",
"created_at": 1777525221,
"kind": 1,
"tags": [
[
"t",
"v2ex"
]
],
"content": "#V2EX\n### [分享创造] [开源] OpenTalking:整合 LLM、流式 TTS 与 WebRTC 的实时数字人编排框架\n\n# [开源] OpenTalking:面向实时对话的开源数字人产线 (LLM+TTS+WebRTC)\n\nV 站的各位开发者朋友们大家好!今天想和大家分享我们开源的一个新项目:**OpenTalking**。这是一个开源的实时数字人框架。\n\n开发数字人对话产品时,大家往往会遇到一个痛点:各种优秀的开源模型(大语言模型、语音合成、数字人渲染)都有了,但要把它们拼凑成一个低延迟、体验顺畅的 WebRTC 实时产品链路却非常繁琐。\n\nOpenTalking 的目标就是帮你把**数字人对话产品**需要的链路串起来。它涵盖了前端交互、会话状态、LLM 回复、TTS/音色选择、打断控制、字幕事件、WebRTC 音视频播放,以及外部模型服务调用。相比于死磕底层的推理模型,OpenTalking 专注于提供一个完善的**产线编排层**。\n\n### 🌟 核心亮点与能力\n\n* **开箱即用的实时链路**:从 LLM 回复、流式 TTS ,到字幕事件、状态事件和 WebRTC 播放,全部在一条链路中完成。\n* **兼容高质量与轻量级部署**:原生支持 FlashTalk 风格推理服务作为高质量数字人渲染后端(基于 OmniRT 框架)。如果你只想跑通体验,也提供轻量 Demo 路径,无需先下载完整 FlashTalk 权重就能跑通 API 、TTS 、WebRTC 和前端体验。\n* **灵活的 LLM 生态接入**:无缝支持 DashScope 、Ollama 、vLLM 、DeepSeek 等所有 OpenAI-compatible endpoint 。\n* **多硬件与多形态部署**:支持单进程 demo 、API/Worker 分布式模式以及 Docker Compose 。无论是面向 RTX 3090 / 4090 的消费级显卡单卡实时配置,还是面向昇腾 910B 等企业级 GPU/NPU 的高质量私有化部署,都能很好地支持。\n* **对话打断控制**:当前已具备说话轮次的打断基础,后续计划升级为全链路取消。\n\n### 🛠 技术栈\n\n* **开发语言**:Python 3.9+\n* **后端框架**:FastAPI\n* **前端框架**:React 18\n* **流媒体通信**:WebRTC\n\n### 🚀 快速上手体验\n\n为了让大家能快速看到效果,我们对链路做了简化处理。默认情况下,你只需要在本地部署**一个**模型服务( FlashTalk WebSocket ),然后将 LLM 、STT 、TTS 全部走阿里云百炼的 API (例如 OpenAI 兼容端点和 DashScope 实时 ASR/TTS ),就可以跑起来。后续你可以无痛切换为自己本地部署的各类自定义模型服务。\n\n### 🔗 传送门与交流\n\n项目基于 Apache License 2.0 协议开源,欢迎大家来跑一跑,提提 Issue 或者 PR !如果觉得有帮助,求大佬们赏个 Star ⭐️!\n\n* **GitHub 地址**: \u003chttps://github.com/datascale-ai/opentalking\u003e\n* **详细文档**:仓库内包含了快速开始、架构说明、部署文档以及硬件指南等完整文档。\n* **交流探讨**:欢迎加入 AI 数字人 QQ 交流群探讨实时数字人、FlashTalk 与 OmniRT 的模型部署,群号:`1103327938`。\nhttps://www.v2ex.com/t/1209621#reply4",
"sig": "bb9d60bdae292852a3e6a6c733bcec39705fcb4852f51cdd118f0493647f4ee8e10e0ebf8f01757a5b62e13061a7a25b10641c636ffc0b862009f8295a5c6eca"
}