Извлечение данных из любых документов
Попробуй прямо сейчас — без регистрации.
Сгенерируй временный API-ключ и отправь до 10 тестовых запросов бесплатно. Без регистрации и привязки карты.
curl -X POST https://api.hotdoc.io/v1/process \
-H "Authorization: Bearer YOUR_API_KEY" \
-F "file=@invoice.pdf" \
-F 'prompt=Extract from this invoice:
- invoice_number
- date (ISO 8601)
- vendor_name
- total_amount (number, no currency)
- line_items: description, qty, unit_price, total
Return null for missing fields.' \
-F 'schema={
"invoice_number": "string",
"date": "string",
"vendor_name": "string",
"total_amount": "number",
"line_items": [{
"description": "string",
"qty": "number",
"unit_price": "number",
"total": "number"
}]
}' Пайплайн от импорта файлов
до JSON за один API-запрос.
Hotdoc — это слой оркестрации над OSS-библиотеками: мы берём на себя обработку архивов и документов 30+ форматов, extraction и enrichment по схеме. Ты передаёшь ссылку на документы и промпт со схемой. Остальное на нашей стороне.
Ты платишь за оркестратор, надёжность (ретраи, фолбэки, восстановление), инфраструктуру, поддержку и выверенные пайплайны под проблемные кейсы. Никаких наценок за OCR и токены.
Первичная обработка
Распаковываем архивы, читаем 30+ форматов нативно, а сканы и изображения обрабатываем через Vision OCR.
Извлечение данных
Извлекаем поля по твоей JSON-схеме. Промпт и модель ты определяешь самостоятельно в рамках запроса.
Обогащение данных
Обогащаем данные на ходу: каждый следующий документ дополняет и уточняет уже извлечённый результат.
Структурированный результат
Возвращаем JSON, CSV или MD без ограничений по объёму в рамках одной сессии.
Нужна классификация, чанкинг или свой кастомный флоу?
Напишите намНе OSS.
Не enterprise API.
Нечто другое.
| OSS
| Funded API
| hotdoc | |
|---|---|---|---|
| Полноценный флоу обработки | ✗ | ✓ | ✓ |
| Zero-ops (не деплоить) | ✗ | ✓ | ✓ |
| Контроль используемых инструментов | ✓ | ✗ | ✓ |
| BYOK | ✓ | ✗ | ✓ |
| Отсутствие переплат за токены | ✓ | ✗ | ✓ |
| Поддержка | ✗ | ✓ | ✓ |
| Скорость интеграции | недели | дни | часы |
Между «собери сам» и «переплати за токены» мы предлагаем третий вариант: готовый инструмент без наценки.
Hotdoc vs OSS (Docling, Marker и др.) Парсинг без extraction по схеме, enrichment и оркестрации. Разворачивать и держать GPU нужно самим. Затраты могут превышать $1000 ещё до первого результата. Мы предоставляем готовую инфраструктуру и проверенные решения без необходимости заниматься первичной обработкой документов.
Hotdoc vs funded API (Reducto, Unstructured и др.) Монетизация большинства продуктов строится на наценке на токены. Чем больше вы тратите — тем больше комиссий вы платите. Мы берём фиксированную стоимость за использование инструментов, а вы используете собственные API-ключи и не переплачиваете за токены.
Архитектура и
методы обработки
Детерминированный оркестратор и точечный AI. Каждый шаг управляем, каждая ошибка обрабатывается, каждый результат воспроизводим.
BYOK: твой ключ используется в runtime и не хранится на стороне Hotdoc.
Популярные сценарии
Частые задачи, которые закрываются «из коробки». Нестандартное — настроим флоу.
Invoice Extraction API
Инвойсы и счета любых форматов — в структурированный JSON по твоей схеме. Пакеты из почты или S3 за один вызов.
Resume / CV Parser API
Поток CV на любом языке — в унифицированные карточки кандидатов со скорингом по твоим критериям.
Bank Statement Extraction
Выписки из разных банков — в единый формат транзакций. Работает с PDF и Excel-экспортами.
Batch / Archive Processing
ZIP с сотнями файлов разных форматов — один запрос, один JSON. Статус каждого файла в батче.
Нестандартная задача? Настроим флоу.
написать намТребуются большие объёмы, self-hosted
или выделенная инфраструктура?
Что входит
Токены не дорогие сами по себе — дорогими их делают те, кто стоит между тобой и провайдером.
Funded-компании берут твои файлы, прогоняют через Claude или GPT и выставляют $10+ за тысячу страниц. На этом строится их маржа. Чем больше объёмы, тем больше переплата за токены.
Мы решили сделать иначе: подключаешь свой ключ, платишь провайдеру напрямую, а нам фиксированную стоимость за готовое решение. Не потому что мы не хотим заработать больше. А потому что согласно нашей картине мира так правильнее.
Документы не хранятся
Обрабатываются в runtime, не сохраняются после обработки (по умолчанию).
Шифрование на всех уровнях
TLS при передаче, шифрование at-rest. Доступ только по API-ключу.
BYOK — ключи не у нас
Твой ключ провайдера используется в runtime и не хранится на нашей стороне.
On-prem / VPC по запросу
Полная изоляция для Enterprise и self-host.
FAQ. Частые вопросы
Остались вопросы? Напишите на hello@hotdoc.io — ответим быстро.