https://github.com/alexisxty/training-free-multimodal-large-language-model-orchestration
https://github.com/alexisxty/training-free-multimodal-large-language-model-orchestration
Science Score: 26.0%
This score indicates how likely this project is to be science-related based on various indicators:
-
○CITATION.cff file
-
✓codemeta.json file
Found codemeta.json file -
✓.zenodo.json file
Found .zenodo.json file -
○DOI references
-
○Academic publication links
-
○Academic email domains
-
○Institutional organization owner
-
○JOSS paper metadata
-
○Scientific vocabulary similarity
Low similarity (7.2%) to scientific vocabulary
Repository
Basic Info
- Host: GitHub
- Owner: Alexisxty
- Language: Python
- Default Branch: main
- Size: 60.5 KB
Statistics
- Stars: 0
- Watchers: 0
- Forks: 0
- Open Issues: 0
- Releases: 0
Metadata Files
README.md
training-free-mllm
先进的免训练多模态实时交互智能助手系统
Advanced Real-time Multimodal Interaction Assistant
✨ 核心功能
🔌 系统架构
training-free-mllm 采用模块化设计,各组件松耦合高内聚,实现了高效的数据流与控制流。
主要组件
- 对话系统 (Dialogue System): 整体控制中心,协调各模块的工作流
- LLM 管理器 (LLM Manager): 负责大语言模型的请求和响应处理(包括控制器LLM、视觉、QVQ LLM)
- ASR 处理器 (ASR Processor): 处理语音转文本,支持实时降噪和语音活动检测
- TTS 处理器 (TTS Processor): 将文本转换为自然语音,支持多种引擎和声音定制
- 视频处理器 (Video Processor): 处理摄像头输入,支持实时图像分析
- GUI 界面 (GUI Interface): 基于 PyQt5 的现代化用户界面
🚀 快速开始
系统要求
- Python 3.10+
- Windows/Linux/macOS
安装步骤
- 克隆项目
bash
git clone https://github.com/Alexisxty/traninfree-omni.git
- 安装依赖
bash
pip install -r requirements.txt
- 配置环境
```bash
复制并编辑环境变量文件
cp .env.example .env
编辑 .env 文件,填入您的 API 密钥
```
- 启动系统
```bash
图形界面模式
python main.py --mode=gui
命令行模式
python main.py --mode=cli ```
🧩 核心功能详解
智能对话系统
training-free-mllm 的对话系统基于大型语言模型,具有出色的自然语言理解和生成能力。系统采用多级 LLM 架构:
- 主对话 LLM: 负责核心对话管理与响应生成
- 视觉 LLM: 处理与视觉相关的多模态理解任务
- QVQ LLM: 处理复杂的视觉问答和推理任务
全双工语音交互
系统实现了类似人类对话的全双工交互体验:
- 实时打断: 当用户开始说话时,系统能够自动停止当前输出并聆听
- 流式响应: LLM 的响应以流式方式传输,实现边思考边回答的体验
- 语音活动检测: 智能检测用户何时开始和结束说话
多模态视觉理解
系统整合了先进的视觉理解能力:
- 实时视频分析: 捕获环境中的视觉信息
- 物体识别与跟踪: 识别环境中的物体并进行跟踪
- 视觉问答: 回答关于视觉内容的问题
- 场景理解: 理解复杂的视觉场景和上下文
高质量语音合成
支持多种语音合成引擎,实现自然流畅的语音输出:
- Edge TTS: Microsoft 的高质量语音合成服务
- CosyVoice2: 先进的神经网络语音合成,支持丰富的情感表达
- GPUStack TTS: 高性能本地部署语音合成引擎
📊 技术规格
🔧 高级配置
系统支持丰富的配置选项,可通过 .env 文件自定义:
- 语言模型参数: 温度、最大长度、采样策略等
- 语音合成设置: 声音选择、语速、音量等
- ASR 参数: 语言模型、采样率、降噪强度等
- 系统行为: 调试模式、响应策略、记忆长度等
🤝 贡献指南
我们欢迎各种形式的贡献,包括功能改进、文档完善、错误修复等。请遵循以下步骤:
- Fork 项目并创建您的分支
- 实现您的修改并添加测试
- 确保所有测试通过
- 提交 Pull Request
📜 许可证
本项目采用 MIT 许可证 进行授权。
🔗 相关链接
- SiliconFlow - 提供 Qwen 模型和 CosyVoice 语音合成
- Qwen AI - Qwen 大型语言模型
- CosyVoice2 - 高质量语音合成引擎
- FunASR - 先进的语音识别系统
Powered by Intelligent Technology
Made with ❤️ by AI Enthusiasts
Owner
- Login: Alexisxty
- Kind: user
- Repositories: 0
- Profile: https://github.com/Alexisxty
GitHub Events
Total
- Public event: 1
- Push event: 1
Last Year
- Public event: 1
- Push event: 1
Issues and Pull Requests
Last synced: 11 months ago
Dependencies
- PyQt5 >=5.15.0
- aiohttp ==3.8.1
- asyncio >=3.4.3
- fastapi ==0.68.1
- fastapi >=0.68.0
- httpx ==0.25.2
- numpy >=1.21.0
- numpy ==1.21.5
- openai >=0.27.0
- openai ==1.3.5
- opencv-python >=4.5.3
- opencv-python ==4.5.5.64
- python-dotenv >=0.19.0
- python-dotenv ==0.19.2
- python-multipart >=0.0.5
- python-multipart ==0.0.5
- pyttsx3 ==2.90
- qasync >=0.23.0
- requests >=2.26.0
- sounddevice >=0.4.4
- sounddevice ==0.4.4
- soundfile ==0.10.3.post1
- uvicorn >=0.15.0
- uvicorn ==0.15.0
- websockets >=10.0