Tags: #data-extraction

AI-powered Web Data API

111.8k

firecrawl/firecrawl

An API for AI agents to reliably search, scrape, and interact with the web, providing clean, LLM-ready data at scale.

web scraping api ai agents

Details

Document Processing and AI Data Preparation Library

python

58.5k

docling-project/docling

Docling simplifies document processing, parsing diverse formats including advanced PDF understanding, and provides seamless integrations with the generative AI ecosystem.

document processing pdf parsing generative ai

Details

Data Processing Library

python

14.6k

Unstructured-IO/unstructured

An open-source ETL solution for transforming complex documents into clean, structured data formats, optimized for language models.

etl document processing data extraction

Details

PDF Processing Library / Data Extraction Tool

Java

19.7k

opendataloader-project/opendataloader-pdf

An open-source PDF parser for AI-ready data extraction and automated PDF accessibility remediation, offering benchmark-leading accuracy.

pdf-parser data-extraction accessibility

Details

AI-powered Web Scraping Library

Node.js

6.4k

mishushakov/llm-scraper

A TypeScript library that leverages Large Language Models to extract structured data from any webpage.

llm web-scraping typescript

Details

AI-powered Knowledge Graph Builder

Python

4.6k

neo4j-labs/llm-graph-builder

A powerful application that transforms diverse unstructured data sources into structured Neo4j Knowledge Graphs using Large Language Models (LLMs) and LangChain.

llm knowledge-graph neo4j

Details

AI-powered Document Processing Platform

Python

5.2k