Let the Data tell the full story (MSU 2011)

This talk was given in Lecture Series on Soft Computing at the Chair of Mathematical Theory of Intelligent Systems of the faculty of Mathematics of Lomonosov Moscow State University.

Abstract (in Russian):

"Моделирования таблично-заданных функций высокой размерности на основе генетического программирования, или как заставить числа говорить." - Екатерина Владиславлева

Выявление значимых закономерностей и взаимосвязей в данных высокой размерности является основной задачей технологии data mining и новой дисциплины data science. Главная цель таких исследований - это получение максимума достоверной информации о сложно устроенной системе (такие системы встречаются, например, при разработках принципиально новых продуктов- лекарственных препаратов, композитов, катализаторов, и пр.) или построение упрощенных моделей-эмуляторов, имитирующих те или иные аспекты поведения сложной системы, доступ к которой ограничен вследствие высоких временных, вычислительных, денежных и других затрат. Модели-эмуляторы позволяют существенно ускорить моделирование процессов, протекающих в реальных системах и они все чаще находят применение в промышленности и бизнесе.

Для решения такого рода задач необходимо: выявление минимального набора измеряемых характеристик (входных
переменных) системы, которые существенно влияют на изменение поведения системы (представляемое одной или несколькими выходными переменными) на основе конечной таблицы измерений (часто неполной ) и нахождение взаимосвязей в виде вычислимой функции, желательно, заданной аналитически.

Сложность проблемы заключается в высокой размерности пространства переменных (20, 100, 1000 и больше входов системы) , в котором должен производится их отбор и моделирование, и в том, что входные переменные часто взаимосвязаны (соrrelated and coupled variables). Кроме того, исследователи (заказчики) предпочитают и запрашивают модели с минимально возможным числом переменных, минимальным числом параметров, задающих гладкие и обратимые функции, с высокой точностью приближения.

В докладе представлена символьная регрессия как подход к моделированию таблично-заданных функций высокой размерности на основе генетического программирования. Преимущества символьной регрессии заключаются в том, что она 1) производит множество конкурирующих прозрачных нелинейных регрессионных моделей, заданных аналитически на произвольном множестве порождающих функций, 2) естественным образом отфильтровывает ненужные входные переменные, и 3) позволяет учесть сразу несколько критериев оптимальности моделей - ошибки приближения, размер, нелинейность, вычислительную сложность, и т.п.

Доклад проиллюстрирован примерами, показывающими преимущества использования символьной регрессии в приложениях.