Нейросеть от Amazon научилась сортировать миллионы документов за полцента за штуку

Детальный разбор, как Associa и AWS добились 95% точности в классификации документов с помощью GenAI, снизив стоимость до 0.55 цента за файл.

Нейросеть от Amazon научилась сортировать миллионы документов за полцента за штуку

Каждый день 15 тысяч сотрудников Associa, крупнейшей управляющей компании Северной Америки, вручную разгребали горы документов. Всего в их цифровых архивах скопилось 48 миллионов файлов на 26 терабайт — от договоров и страховых полисов до протоколов собраний. Процесс был медленным, дорогим и, как водится, полным ошибок. Теперь за них это делает нейросеть от Amazon — с точностью 95% и по цене полцента за страницу. И это, пожалуй, один из самых приземленных и оттого показательных кейсов внедрения генеративного ИИ в «реальном секторе».

Вместо того чтобы слепо верить в магию больших языковых моделей, Associa вместе с инженерами AWS устроила настоящий технологический «баттл». Они взяли готовое решение GenAI IDP Accelerator на базе облачной платформы Amazon Bedrock и начали методично искать золотую середину между точностью и стоимостью. Сначала инженеры решили простую, но неочевидную задачу: скармливать модели весь многостраничный PDF или только его первую страницу? Интуиция подсказывает, что больше данных — лучше результат. Но практика показала обратное. Анализ только первой страницы не только снизил стоимость обработки вдвое (с 1.1 до 0.55 цента), но и повысил общую точность с 91% до 95%. Оказалось, что последующие страницы часто содержат «шум» — черновики, вложенные письма, приложения, — который только сбивал модель с толку.

Следующий этап — промт-инжиниринг. Что лучше: отдать модели только картинку страницы или предварительно прогнать ее через систему распознавания текста (OCR) Amazon Textract и добавить текстовые данные? Подход «только картинка» был дешевле почти в три раза (0.18 цента), но провалил ключевой тест. Он отлично распознавал стандартные документы, но точность классификации «неизвестных» файлов (черновиков, писем и прочего мусора) упала с 85% до 50%. Для бизнеса, где важно отделить зерна от плевел, такая ошибка критична. Поэтому победил комбинированный, мультимодальный подход: и картинка, и текст.

Наконец, самое интересное — выбор модели. В соревновании участвовали три модели семейства Amazon Titan (Nova Pro, Lite, Premier) и Claude Sonnet от Anthropic. Результаты получились предсказуемыми для любого, кто хоть раз пытался прикрутить ИИ к реальным задачам. Самый точный результат показал Claude Sonnet (95% на «неизвестных» файлах), но и стоил он дороже всех — 1.21 цента. Самым дешевым был Titan Nova Lite (0.41 цента), но он плохо справлялся со сложными случаями. В итоге компания остановилась на «золотой середине» — Amazon Titan Nova Pro. Он обеспечил общую точность в 95% при стоимости в 0.55 цента за документ, что и стало финальной конфигурацией.

Этот кейс — не просто успех Associa. Это выстрел в продолжающейся войне облачных платформ. Amazon с их Bedrock, Google с Vertex AI и Microsoft с Azure OpenAI Service борются за корпоративных клиентов, для которых важны не красивые демо, а конкретные KPI: точность, стоимость, масштабируемость. Amazon демонстрирует, что их «зоопарк моделей» — это не просто витрина, а набор инструментов для решения утилитарных бизнес-задач. Они не обещают AGI, они предлагают осязаемую экономию на операционных расходах. И судя по результатам, этот подход работает.

Наш вердикт: это не технологический прорыв, но блестящий пример бизнес-прагматизма. Пока одни грезят о сверхразуме, другие молча автоматизируют рутину, экономя миллионы долларов на сортировке PDF-файлов. История Associa — это победа скучного, но эффективного инжиниринга над раздутым хайпом. Настоящая AI-революция происходит не в футуристических презентациях, а в бэк-офисах гигантских корпораций, где каждая сэкономленная доля цента в масштабе миллионов операций превращается в солидную прибыль. Похоже, будущее офисной работы — это не роботы-гуманоиды, а тихие и незаметные алгоритмы, сортирующие ваши документы.

Read more