FilBench: Почему GPT-4 не сдал экзамен по филиппинскому языку

Новый бенчмарк FilBench доказывает: большие языковые модели не понимают филиппинский язык. Анализ, почему локальные AI побеждают гигантов.

FilBench: Почему GPT-4 не сдал экзамен по филиппинскому языку

Пока OpenAI и Google продолжают свою гонку вооружений, меряясь триллионами параметров и квадриллионами токенов в обучающих данных, из тени выходит тихая, но куда более показательная история. Группа филиппинских исследователей и AI-энтузиастов представила FilBench — первый по-настоящему комплексный бенчмарк для оценки понимания и генерации филиппинского языка. И его результаты — это холодный душ для тех, кто верит, что одна гигантская модель сможет одинаково хорошо обслуживать весь мир. Если вкратце: самые продвинутые LLM, от GPT-4 до Gemini, оказались на удивление некомпетентны, когда дело дошло до реальных языковых задач, с которыми сталкиваются более 110 миллионов носителей языка.

FilBench — это не очередной примитивный тест на перевод. Его создатели подошли к делу с душой и знанием локальной специфики. Бенчмарк включает в себя задачи, которые выводят модели из их «зоны комфорта», состоящей из вылизанных текстов из Википедии. Это и анализ тональности в отзывах на фильмы, написанных на «таглише» (повседневная смесь тагальского и английского), и распознавание сарказма в постах из соцсетей, и генерация деловых писем с учетом местных культурных норм вежливости. Моделям предлагается понять отсылки к местной поп-культуре, политическим реалиям и даже кулинарным традициям. Оказалось, что без понимания, почему упоминание сети Jollibee вызывает у филиппинцев теплые чувства, сгенерировать адекватный рекламный текст практически невозможно.

Проблема, которую вскрыл FilBench, носит системный характер. Современные LLM — это, по сути, статистические «попугаи», невероятно прожорливые до данных. А 90% данных в интернете, на которых они обучаются, — англоязычные. Остальные языки, особенно те, у которых нет огромного цифрового наследия, попадают в категорию «прочих». Модели вроде GPT-4 знают филиппинский не потому, что целенаправленно его учили, а потому, что он изредка попадался им среди гигантских массивов английского текста. Результат — поверхностное, «туристическое» знание языка. Модель может перевести фразу, но не уловит ее скрытый смысл, иронию или контекст, понятный любому школьнику в Маниле.

Это явление уже получило название «цифровой лингвистический колониализм». Технологические гиганты, базирующиеся в Кремниевой долине, по умолчанию создают мир, в котором английский язык является стандартом, а все остальные — лишь надстройкой. FilBench наглядно демонстрирует, к чему это приводит: к созданию инструментов, которые не просто бесполезны, но и могут быть вредны, искажая коммуникацию и культурные коды. Попытки GPT-4 шутить на таглише выглядели так же нелепо, как попытки экспата в шортах и сандалиях рассуждать о тонкостях местной политики после недели на курорте.

Но самое интересное в результатах тестов — это появление неожиданного чемпиона. Пока GPT-4 и Gemini демонстрировали посредственные результаты, их с легкостью обошла куда более скромная, но обученная на локальных данных модель с открытым исходным кодом. Это доказывает главный тезис: в мире AI размер — не всегда главное. Тщательно собранный и вычищенный датасет, отражающий языковое и культурное разнообразие конкретного региона, может дать куда лучший результат, чем бездумное скармливание модели всего интернета. Это тревожный звонок для корпораций и огромная возможность для локальных AI-сообществ по всему миру — от Индонезии до Польши.

Наш вердикт: FilBench — это не просто очередной научный проект. Это мощная политическая декларация и болезненная, но нужная прививка от гигантомании, охватившей AI-индустрию. Он доказывает, что будущее не за одной всезнающей «моделью-богом», а за федерацией специализированных, культурно-интегрированных систем. Это конец эпохи «один размер для всех» и начало эры настоящего лингвистического разнообразия в искусственном интеллекте. И хотя до победы над гегемонией английского языка еще далеко, первый и самый важный выстрел уже прозвучал с Филиппинских островов.

Read more