Быстрое прототипирование в проектах анализа данных

13.12.2021

Проекты в области науки о данных, как следует из их названия, имеют научную составляющую. Основная задача проектов в данной области заключается в построении модели, которая предсказывает зависимость целевой переменной от имеющихся данных. Например, выявление зависимости цены товара, вероятности брака детали или покупки от информации о покупках, качестве исходных материалов и так далее.

Прототипирование позволяет снизить риски и проверить готовность процессов для использования модели машинного обучения. Это верно как для успешных проектов, где мы получаем высококачественную прогнозную или рекомендательную модель, так и для неудачных, когда не удается найти зависимости между исходными данными и целевой переменной. Этот подход важен для выявления потенциальных проблем, таких как недоступность данных, которые могут возникнуть на более поздних этапах проекта.

Рассмотрим на примере одного из проектов. Успешно построив прогнозную модель на комбинате и перейдя на стадию опытно-промышленной эксплуатации, мы столкнулись с проблемой того, что данные, использующиеся для прогноза, недоступны в нужный момент. Это обусловлено архитектурой хранилища и выгрузок, изменение которых существенно увеличило бы стоимость проекта. Такую проблему можно было выявить гораздо раньше и решить с меньшими затратами, зная о ней в момент создания системы.

Таким образом, полный список целей для прототипирования включил в себя:
  • проверку решаемости задачи;
  • проверку готовности данных;
  • составление списка задач для большого проекта;
  • проверку готовности бизнес-процессов;
  • оценку эффекта от внедрения модели;
  • понимание ситуаций, когда модель применима и когда неприменима.
При создании прототипа следует обратить внимание на несколько важных аспектов:

Во-первых, необходимо не только создать работающий прототип модели, но и объяснить, почему она работает таким образом. Это включает определение важности характеристик для модели в целом и для каждого конкретного случая.

Во-вторых, всегда нужна хотя бы минимальная, но работающая визуализация. Это позволяет иметь интерактивное и понятное для бизнеса представление о работе модели.

Третий важный аспект связан с ограничениями прототипа.Необходимо определить, какие специфические «кейсы» будут охватываться моделью, чтобы её можно было легко оценить и сравнить с реальными данными. Например, ограничение предсказаниями только в ограниченном температурном диапазоне или продажами определенного вида услуг.

Важнее иметь модель, которая работает четко на определенных позициях, чем иметь модель с низкой точностью на всем ассортименте на этапе прототипа.

Заключение

Быстрое прототипирование позволяет оценить потенциальный эффект решения и выявить возможные сложности заранее, что помогает улучшить систему и достичь успешного результата.

Построение прототипа модели несложно, если бизнес-задача, на которую она направлена, ясно сформулирована, а также если учитываются только"хорошие" данные, которые можно объяснить, проанализировать и прочитать. Кроме того, важно определить сферу применения системы и условия, а также показатели, которые будут учитываться.

Опираясь на опыт Softline Digital, быстрое прототипирование может занять от нескольких дней до недели. Модель строится с использованием необходимых данных. После завершения прототипа добавляется простая визуализация, чтобы заказчик мог видеть данные, прогнозы и процесс построения графиков.

Обычно для проверки эффективности работы системы используются реальные данные, что позволяет оценить точность модели, прогнозы, которые она делает, и принимаемые на их основе решения.

Если система не работает идеально сразу, с помощью быстрого прототипирования есть возможность разобраться и внести необходимые улучшения.Прототип, представляющий работающую модель, демонстрирует все возможности системы и позволяет сделать выводы о ее эффективности.

Прототип помогает понять, что действительно важно, какие данные влияют на корректность вычислений и прогнозов, чтобы проверить адекватность модели и понять, как улучшать систему. Таким образом, технология быстрого прототипирования позволяет более осознанно подходить к процессу внедрения машинного обучения и гарантированно достигать успешных результатов.

Николай Князев
Архитектор машинного обучения в Softline Digital