Tags: #multimodal-ai

Conversational AI Framework

11.6k

pipecat-ai/pipecat

An open-source Python framework for building real-time, voice-first, and multimodal conversational AI agents with composable pipelines.

conversational-ai voice-ai multimodal-ai

Details

AI/ML Serving Framework

NVIDIA GPUs

26.4k

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models, optimizing inference throughput and latency.

llm-serving high-performance multimodal-ai

Details

AI Agent Development Platform

Docker

4.4k

ModelEngine-Group/nexent

Nexent is a zero-code platform for auto-generating production-grade AI agents, unifying tools, skills, memory, and orchestration with built-in controls.

ai-agents zero-code llm-orchestration

Details

Conversational AI Framework

docker

10.5k

TEN-framework/ten-framework

An open-source framework for building real-time, multimodal conversational AI agents with advanced features like voice assistance, diarization, and lip-sync.

conversational-ai voice-ai multimodal-ai

Details

AI Data Lakehouse Format

python

6.4k

lance-format/lance

An open lakehouse format for multimodal AI, offering high-performance random access, vector indexing, and data versioning.

lakehouse multimodal-ai vector-search

Details

Multimodal AI Chatbot Framework

3.3k

OpenGVLab/Ask-Anything

An advanced multimodal AI chatbot framework that enables conversational interaction and deep understanding of video and image content, integrating various large language models.

video understanding multimodal ai large language models

Replaces:

ChatGPT

Details

AI Data Platform

python

10.1k

lancedb/lancedb

An open-source, developer-friendly embedded retrieval library and multimodal AI lakehouse for fast, scalable vector search and data management.

vector-database multimodal-ai retrieval-augmented-generation

Details

AI Data Curation Toolkit

NVIDIA NeMo

1.5k

NVIDIA-NeMo/Curator

A GPU-accelerated, scalable toolkit for multimodal data preprocessing and curation, designed to train better AI models faster.

llm data-curation gpu-acceleration

Details

AI Fine-tuning Tool

python

2.7k

roboflow/maestro

A streamlined tool to accelerate the fine-tuning of popular multimodal models like Florence-2, PaliGemma 2, and Qwen2.5-VL.

multimodal-ai fine-tuning vlm

Details

Open-source Large Language Model Framework

Hugging Face

8.3k

LianjiaTech/BELLE

BELLE is an open-source project dedicated to fostering the development of Chinese conversational large language models, aiming to make LLMs accessible to everyone.

llm chinese-nlp open-source

Replaces:

ChatGPT

Details

AI Agent Toolset / Generative Media Library

muapi-cli

3.2k

SamurAIGPT/Generative-Media-Skills

Provides a multimodal toolset for AI agents to generate, edit, and display professional-grade images, videos, and audio using a CLI-powered architecture.

ai-agents multimodal-ai generative-ai

Replaces:

Midjourney Doubao Video

Details

Multimodal AI Data Platform

python

1.5k

pixeltable/pixeltable

A declarative, transactional Python library for building multimodal AI applications with incremental data storage, transformation, indexing, and orchestration.

multimodal ai data infrastructure python

Details

AI Model Evaluation Framework

python

4.1k

EvolvingLMMs-Lab/lmms-eval

A unified, reproducible, and efficient multimodal evaluation toolkit for large language models across text, image, video, and audio tasks.

multimodal-ai llm-evaluation benchmarking

Details

On-device Multimodal AI Application

python

1.6k

fikrikarim/parlor

Parlor is an on-device, real-time multimodal AI that enables natural voice and vision conversations, running entirely on your local machine.

on-device ai multimodal ai real-time ai

Replaces:

ChatGPT

Details

AI/ML Research Framework

pytorch

5.6k

facebookresearch/mmf

A modular and scalable PyTorch-based framework for state-of-the-art vision and language multimodal research from Facebook AI Research.

multimodal-ai vision-language pytorch

Details

AI/ML Foundation Model

2.3k

OpenGVLab/InternVideo

A series of video foundation models and large-scale datasets designed for comprehensive multimodal video understanding and generation.

video-foundation-models multimodal-ai deep-learning

Details

AI Model Compilation

2.0k

chenking2020/FindTheChatGPTer

A curated directory of open-source alternatives to ChatGPT and GPT-4, encompassing text and multimodal large language models, designed to assist users in navigating the AI landscape.

chatgpt-alternatives llm multimodal-ai

Replaces:

ChatGPT GPT-4

Details

Foundation Model Research Hub

22.1k

microsoft/unilm

A comprehensive research hub for large-scale self-supervised pre-training of foundation models across diverse tasks, languages, and modalities.

foundation-models self-supervised-learning multimodal-ai

Details

Multimodal AI System

2.9k

InternLM/InternLM-XComposer

A comprehensive multimodal AI system specializing in long-term streaming video and audio interactions, offering advanced vision-language understanding and composition.

multimodal ai large vision language model video understanding

Replaces:

GPT-4V

Details

AI Service Framework

Docker

21.9k

jina-ai/serve

A cloud-native framework for building and deploying high-performance multimodal AI applications with built-in scaling and orchestration.

ai-services multimodal-ai llm-serving

Replaces:

FastAPI

Details

Multimodal AI Model

17.7k

Janus-Series is a family of unified autoregressive multimodal AI models designed for both understanding and generating content across various modalities, featuring a novel decoupled visual encoding strategy.

multimodal ai large language model image generation

Details

AI-powered Content Transformation Tool

python

5.1k

BIT-DataLab/Edit-Banana

Edit Banana transforms static, uneditable content like images of diagrams into fully manipulatable and editable assets using advanced AI.

ai multimodal-ai diagram-editor

Replaces:

Microsoft Visio Lucidchart

Details

Machine Learning Framework

pytorch

3.8k

open-mmlab/mmpretrain

MMPreTrain is an OpenMMLab project providing a comprehensive, open-source PyTorch-based toolbox for pre-training and benchmarking various computer vision and multi-modal models.

deep-learning pytorch computer-vision

Details

AI Interaction Platform

3.2k

OpenGVLab/InternGPT

InternGPT is an open-source, pointing-language-driven visual interactive system that significantly enhances user communication with AI models like ChatGPT, improving efficiency and accuracy in complex vision-centric tasks.

multimodal-ai visual-interaction llm-integration

Details

Multimodal AI Model

24.8k