Нейросеть от Amazon научилась сортировать миллионы документов за полцента за штуку
Детальный разбор, как Associa и AWS добились 95% точности в классификации документов с помощью GenAI, снизив стоимость до 0.55 цента за файл.
Каждый день 15 тысяч сотрудников Associa, крупнейшей управляющей компании Северной Америки, вручную разгребали горы документов. Всего в их цифровых архивах скопилось 48 миллионов файлов на 26 терабайт — от договоров и страховых полисов до протоколов собраний. Процесс был медленным, дорогим и, как водится, полным ошибок. Теперь за них это делает нейросеть от Amazon — с точностью 95% и по цене полцента за страницу. И это, пожалуй, один из самых приземленных и оттого показательных кейсов внедрения генеративного ИИ в «реальном секторе».
Вместо того чтобы слепо верить в магию больших языковых моделей, Associa вместе с инженерами AWS устроила настоящий технологический «баттл». Они взяли готовое решение GenAI IDP Accelerator на базе облачной платформы Amazon Bedrock и начали методично искать золотую середину между точностью и стоимостью. Сначала инженеры решили простую, но неочевидную задачу: скармливать модели весь многостраничный PDF или только его первую страницу? Интуиция подсказывает, что больше данных — лучше результат. Но практика показала обратное. Анализ только первой страницы не только снизил стоимость обработки вдвое (с 1.1 до 0.55 цента), но и повысил общую точность с 91% до 95%. Оказалось, что последующие страницы часто содержат «шум» — черновики, вложенные письма, приложения, — который только сбивал модель с толку.
Следующий этап — промт-инжиниринг. Что лучше: отдать модели только картинку страницы или предварительно прогнать ее через систему распознавания текста (OCR) Amazon Textract и добавить текстовые данные? Подход «только картинка» был дешевле почти в три раза (0.18 цента), но провалил ключевой тест. Он отлично распознавал стандартные документы, но точность классификации «неизвестных» файлов (черновиков, писем и прочего мусора) упала с 85% до 50%. Для бизнеса, где важно отделить зерна от плевел, такая ошибка критична. Поэтому победил комбинированный, мультимодальный подход: и картинка, и текст.
Наконец, самое интересное — выбор модели. В соревновании участвовали три модели семейства Amazon Titan (Nova Pro, Lite, Premier) и Claude Sonnet от Anthropic. Результаты получились предсказуемыми для любого, кто хоть раз пытался прикрутить ИИ к реальным задачам. Самый точный результат показал Claude Sonnet (95% на «неизвестных» файлах), но и стоил он дороже всех — 1.21 цента. Самым дешевым был Titan Nova Lite (0.41 цента), но он плохо справлялся со сложными случаями. В итоге компания остановилась на «золотой середине» — Amazon Titan Nova Pro. Он обеспечил общую точность в 95% при стоимости в 0.55 цента за документ, что и стало финальной конфигурацией.
Этот кейс — не просто успех Associa. Это выстрел в продолжающейся войне облачных платформ. Amazon с их Bedrock, Google с Vertex AI и Microsoft с Azure OpenAI Service борются за корпоративных клиентов, для которых важны не красивые демо, а конкретные KPI: точность, стоимость, масштабируемость. Amazon демонстрирует, что их «зоопарк моделей» — это не просто витрина, а набор инструментов для решения утилитарных бизнес-задач. Они не обещают AGI, они предлагают осязаемую экономию на операционных расходах. И судя по результатам, этот подход работает.
Наш вердикт: это не технологический прорыв, но блестящий пример бизнес-прагматизма. Пока одни грезят о сверхразуме, другие молча автоматизируют рутину, экономя миллионы долларов на сортировке PDF-файлов. История Associa — это победа скучного, но эффективного инжиниринга над раздутым хайпом. Настоящая AI-революция происходит не в футуристических презентациях, а в бэк-офисах гигантских корпораций, где каждая сэкономленная доля цента в масштабе миллионов операций превращается в солидную прибыль. Похоже, будущее офисной работы — это не роботы-гуманоиды, а тихие и незаметные алгоритмы, сортирующие ваши документы.