https://github.com/alexisxty/training-free-multimodal-large-language-model-orchestration

Science Score: 26.0%

This score indicates how likely this project is to be science-related based on various indicators:

○
CITATION.cff file
✓
codemeta.json file
Found codemeta.json file
✓
.zenodo.json file
Found .zenodo.json file
○
DOI references
○
Academic publication links
○
Academic email domains
○
Institutional organization owner
○
JOSS paper metadata
○
Scientific vocabulary similarity
Low similarity (7.2%) to scientific vocabulary

Last synced: 10 months ago · JSON representation

Repository

Basic Info

Host: GitHub
Owner: Alexisxty
Language: Python
Default Branch: main
Size: 60.5 KB

Statistics

Stars: 0
Watchers: 0
Forks: 0
Open Issues: 0
Releases: 0

Created 11 months ago · Last pushed 11 months ago

Metadata Files

Readme

training-free-mllm

![training-free-mllm](https://img.shields.io/badge/training-free-mllm-blueviolet?style=for-the-badge) ![Version](https://img.shields.io/badge/Version-1.0.0-blue?style=for-the-badge) ![Python](https://img.shields.io/badge/Python-3.10+-yellow?style=for-the-badge&logo=python) ![License](https://img.shields.io/badge/License-MIT-green?style=for-the-badge)

先进的免训练多模态实时交互智能助手系统

Advanced Real-time Multimodal Interaction Assistant

✨ 核心功能

| 功能模块 | 描述 | |---------|------| | 🎤 **语音识别** | 实时语音输入，支持动态降噪和多轮对话 | | 👁️ **视觉理解** | 摄像头实时图像分析，支持物体识别与场景理解 | | 🧠 **自然语言处理** | 基于大型语言模型的对话理解与生成 | | 🔊 **语音合成** | 高质量、高自然度的语音输出，支持情感表达 | | 🔄 **全双工交互** | 支持实时语音打断与响应，模拟自然人际对话 | | 📝 **对话记忆** | 长期记忆与上下文理解，支持复杂对话逻辑 | | 🛠️ **多模式部署** | 支持 GUI 与 CLI 两种运行模式 |

🔌 系统架构

training-free-mllm 采用模块化设计，各组件松耦合高内聚，实现了高效的数据流与控制流。

主要组件

对话系统 (Dialogue System): 整体控制中心，协调各模块的工作流
LLM 管理器 (LLM Manager): 负责大语言模型的请求和响应处理(包括控制器LLM、视觉、QVQ LLM)
ASR 处理器 (ASR Processor): 处理语音转文本，支持实时降噪和语音活动检测
TTS 处理器 (TTS Processor): 将文本转换为自然语音，支持多种引擎和声音定制
视频处理器 (Video Processor): 处理摄像头输入，支持实时图像分析
GUI 界面 (GUI Interface): 基于 PyQt5 的现代化用户界面

🚀 快速开始

系统要求

Python 3.10+
Windows/Linux/macOS

安装步骤

克隆项目

bash git clone https://github.com/Alexisxty/traninfree-omni.git

安装依赖

bash pip install -r requirements.txt

配置环境

```bash

复制并编辑环境变量文件

cp .env.example .env

编辑 .env 文件，填入您的 API 密钥

```

启动系统

```bash

图形界面模式

python main.py --mode=gui

命令行模式

python main.py --mode=cli ```

🧩 核心功能详解

智能对话系统

training-free-mllm 的对话系统基于大型语言模型，具有出色的自然语言理解和生成能力。系统采用多级 LLM 架构：

主对话 LLM: 负责核心对话管理与响应生成
视觉 LLM: 处理与视觉相关的多模态理解任务
QVQ LLM: 处理复杂的视觉问答和推理任务

全双工语音交互

系统实现了类似人类对话的全双工交互体验：

实时打断: 当用户开始说话时，系统能够自动停止当前输出并聆听
流式响应: LLM 的响应以流式方式传输，实现边思考边回答的体验
语音活动检测: 智能检测用户何时开始和结束说话

多模态视觉理解

系统整合了先进的视觉理解能力：

实时视频分析: 捕获环境中的视觉信息
物体识别与跟踪: 识别环境中的物体并进行跟踪
视觉问答: 回答关于视觉内容的问题
场景理解: 理解复杂的视觉场景和上下文

高质量语音合成

支持多种语音合成引擎，实现自然流畅的语音输出：

Edge TTS: Microsoft 的高质量语音合成服务
CosyVoice2: 先进的神经网络语音合成，支持丰富的情感表达
GPUStack TTS: 高性能本地部署语音合成引擎

📊 技术规格

| 模块 | 技术实现 | 特性 | |------|----------|------| | **LLM 引擎** | Qwen 2.5-32B, Qwen 2-VL-72B | 支持流式响应、上下文记忆、多轮对话 | | **语音识别** | FunAudioLLM/SenseVoiceSmall | 实时转录、降噪、VAD 活动检测 | | **语音合成** | EdgeTTS、CosyVoice2、GPUStack | 多引擎支持、情感表达、自然停顿 | | **视觉处理** | OpenCV、Qwen-VL、QVQ | 实时视频分析、多模态理解、视觉问答 | | **用户界面** | PyQt5、qasync | 响应式设计、异步处理、多线程优化 | | **内存系统** | 结构化存储、上下文管理 | 长期记忆、会话状态保持、知识整合 |

🔧 高级配置

系统支持丰富的配置选项，可通过 .env 文件自定义：

语言模型参数: 温度、最大长度、采样策略等
语音合成设置: 声音选择、语速、音量等
ASR 参数: 语言模型、采样率、降噪强度等
系统行为: 调试模式、响应策略、记忆长度等

🤝 贡献指南

我们欢迎各种形式的贡献，包括功能改进、文档完善、错误修复等。请遵循以下步骤：

Fork 项目并创建您的分支
实现您的修改并添加测试
确保所有测试通过
提交 Pull Request

📜 许可证

本项目采用 MIT 许可证进行授权。

🔗 相关链接

SiliconFlow - 提供 Qwen 模型和 CosyVoice 语音合成
Qwen AI - Qwen 大型语言模型
CosyVoice2 - 高质量语音合成引擎
FunASR - 先进的语音识别系统

Made with ❤️ by AI Enthusiasts

Owner

Login: Alexisxty
Kind: user

Repositories: 0
Profile: https://github.com/Alexisxty

GitHub Events

Total

Public event: 1
Push event: 1

Last Year

Public event: 1
Push event: 1

Issues and Pull Requests

Last synced: 11 months ago

Dependencies

requirements.txt pypi

PyQt5 >=5.15.0
aiohttp ==3.8.1
asyncio >=3.4.3
fastapi ==0.68.1
fastapi >=0.68.0
httpx ==0.25.2
numpy >=1.21.0
numpy ==1.21.5
openai >=0.27.0
openai ==1.3.5
opencv-python >=4.5.3
opencv-python ==4.5.5.64
python-dotenv >=0.19.0
python-dotenv ==0.19.2
python-multipart >=0.0.5
python-multipart ==0.0.5
pyttsx3 ==2.90
qasync >=0.23.0
requests >=2.26.0
sounddevice >=0.4.4
sounddevice ==0.4.4
soundfile ==0.10.3.post1
uvicorn >=0.15.0
uvicorn ==0.15.0
websockets >=10.0