Модели обработки данных, типичные задачи, классификационных и числовых моделей

Одной из важных задач искусственного интеллекта является задача обобщения информации. Благодаря применению методов извлечения и обобщения информации в системах принятия решений возможно построение обобщенных моделей данных и обработка больших массивов экспериментальных данных, полученных в ходе различного рода процессов и явлений. Источники таких больших потоков данных имеются во многих областях: банковское дело, розничная торговля, управление и диагностика, маркетинг и т.д. Общим для всех этих данных является то, что они содержат большое количество скрытых закономерностей, являющихся весьма важными для принятия стратегических решений. Для выявления этих закономерностей и используются методы обобщения и компьютерные системы, реализующие эти методы.

Большинство специалистов по обработке экспериментальных данных сходятся в том, что разнообразные задачи анализа информации могут быть сведены к трем: классификации исходных данных, выбору информативных признаков, идентификации неизвестных наблюдений.

Схема информационных преобразований данных в классификационной задаче приведена на рис.1.

В общем случае эмпирические данные могут быть сведены в таблицу . Используя различные модели , лежащие в основе методов классификации, исследователь преобразует описание таблицы в вид адекватный этим моделям. В рамках геометрической модели таблицу можно представить в виде совокупности “векторов – строк” (объектов) в признаковом пространстве . Структура “векторов – строк” меняется в зависимости от моделей описания данных . В качестве описаний могут выступать матрицы близости, сходства, подобия.

Рис.1

Классический подход к оценке информативности параметров исходного описания данных в задаче классификации сводится к следующей процедуре:

- по всей совокупности параметров в рамках конкретного решающего правила оценивается ошибка классификации ;

- из исходной совокупности параметров

изымается параметр и повторно оценивается ошибка классификации ;

- путем сравнения этих ошибок и определения их разности :

выносится суждение о роли параметра в классификационной задаче. Так, если > 0, то параметр является “вредным” для классификации. Если < 0, то параметр – “полезен”, а, если =0, то “бесполезен”. Такой подход определяет необходимость последовательного перебора всех параметров, а также их возможных сочетаний, что влечет за собой значительные временные затраты.