443
значительной степени зависит окончательный вариант разбиения объектов на классы при данном
алгоритме разбиения. В каждом конкретном случае этот выбор должен производиться по-своему, в
зависимости от целей исследования, физической и статистической природы наблюдений, априорных
сведений о характере вероятностного распределения X.
Рассмотрим наиболее широко используемые в задачах
кластерного
анализа расстояния и меры
близости.
Обычное евклидово расстояние определяется по формуле
(53.43)
где x
il
, х
jl
значения l-го признака у i-го (j-го) объекта (l = 1, 2, ..., k, i,j = 1, 2, .... п).
Оно используется в следующих случаях:
а) наблюдения берутся из генеральной совокупности, имеющей многомерное нормальное
распределение с ковариационной матрицей вида
?
2
E
k
, где Е
k
единичная матрица, т.е. исходные
признаки взаимно независимы и имеют одну и ту же дисперсию;
б) исходные признаки однородны по физическому смыслу и одинаково важны для классификации.
Естественное с геометрической точки зрения евклидово пространство может оказаться
бессмысленным (с точки зрения содержательной интерпретации), если признаки измерены в разных
единицах. Чтобы исправить положение, прибегают к нормированию каждого признака путем деления
центрированной величины на среднее квадратическое
отклонение и переходят от матрицы Х к
нормированной матрице с элементами
где x
il
значение l-го признака у i-го объекта;
l
x
среднее значение l-го признака;
среднее квадратическое отклонение l-го признака.
Однако эта операция может привести к нежелательным последствиям. Если кластеры хорошо
разделимы по одному признаку и не разделимы по другому, то после нормирования
дискриминирующие возможности первого признака будут уменьшены в связи с усилением «шумового»
эффекта второго.
«Взвешенное» евклидово расстояние определяется из выражения
(53.44)
Оно применяется в тех случаях, когда каждой l-й компоненте вектора наблюдений Х удается
приписать некоторый «вес»
?
1
, пропорциональный степени важности признака в задаче классификации.
Обычно принимают 0
?
?
l
где
? 1,
l = 1,2, ..., k.
Определение весов, как правило, связано с дополнительными исследованиями, например с
организацией опроса экспертов и обработкой их мнений. Определение весов
?
l
только по данным
выборки может привести к ложным выводам.
Хеммингово расстояние используется как мера различия объектов, задаваемых дихотомическими
признаками. Это расстояние определяется по формуле
(53.45)
|