Чем больше доступных данных для обучения моделей, тем легче создать ML модель с высоким качеством. Однако, при изучении новых или редких явлений данные могут отсутствовать или быть в ограниченном количестве. Кроме того, даже если данные имеются в необходимом количестве, на их подготовку может не хватать времени или ресурсов. Так возникла идея минимизировать затраты на обучение моделей, используя новый способ подготовки данных — обобщение множества категорий. Тогда появились методы ML, распознающие новые классы с помощью нескольких обучающих примеров (Few-Shot Learning) или одного примера (One-Shot Learning).
Zero-shot обучение или «обучение без примеров» подразумевает способность искусственного интеллекта осваивать новые задачи без обучения на конкретных примерах. Вместо примеров необходимо описать тематику и подготовить вспомогательную информацию. Например, для обучения модели тематике «Баланс карты» нужно расписать все запросы, связанные с целью узнать баланс карты или остаток по счету.
Использование Zero-shot актуально при запуске проектов, когда у заказчика нет реальных данных для обучения модели или нет времени на подготовку данных. Ранее в таких ситуациях аналитики применяли синтетические данные, то есть искусственно созданные и имитирующие реальность. Модели, обученные методом Zero-shot, не уступают в качестве моделям, использующие синтетические данные. К тому же обучение на основе Zero-shot происходит значительно быстрее, т.к. нужно создать описание тематик, а не выдумывать искусственные примеры.
Для создания стартовой версии робота достаточно списка интентов (намерений, с которыми клиенты будут обращаться к голосовому помощнику) и их описание.
Модели на базе технологии Zero-shot используются в начале проектов, когда реальные данные для обучения ещё не собраны или отсутствуют. Это позволяет оперативно запустить первую версию виртуального ассистента. Следующие версии уже обучаются на реальных данных, собираемых в ходе общения робота с пользователями.
«Несмотря на то, что Zero-shot пока не может заменить обучение на примерах реальных реплик, использование этой технологии помогает обучать робота новым тематикам за часы (а иногда и минуты) с тем, чтобы после быстрого запуска нового навыка, собрать реальные реплики и обучить более тяжелую и качественную модель», – прокомментировал директор департамента голосовых цифровых технологий компании BSS Александр Крушинский.