441
0,469;
)
(
f
= 9,99% <
(х) = 10,5% и
s²(f) = 1,91 <
s²(x) = 1,97. Кроме того, в уравнении (53.42) главные
компоненты являются линейными функциями всех исходных показателей, в то время как в уравнение (53.23)
входят только две переменные (x1 и х
4
). В ряде случаев приходится учитывать, что модель (53.42)
трудноинтерпретируема, так как в нее входит третья главная компонента f3, которая нами не интерпретирована и
вклад которой в суммарную дисперсию исходных показателей (x1, ..., х
5
) составляет всего 8,6%. Однако
исключение f3 из уравнения (53.42) значительно ухудшает аппроксимирующие свойства модели: r
2
)
(
f
y
=
0,349;
)
(
f
= 12,4% и s²(f) = 2,41. Тогда в качестве регрессионной модели урожайности целесообразно выбрать
уравнение (53.23).
53.4. Кластерный анализ
В статистических исследованиях группировка первичных данных является основным приемом
решения задачи классификации, а поэтому и основой всей дальнейшей работы с собранной
информацией.
Традиционно эта задача решается следующим образом. Из множества признаков, описывающих
объект, отбирается один, наиболее информативный, с точки зрения исследователя, и производится
группировка данных в соответствии со значениями этого признака. Если требуется провести
классификацию по нескольким признакам, ранжированным между собой по степени важности, то
сначала осуществляется классификация по первому признаку, затем каждый из полученных классов
разбивается на подклассы по второму признаку и т.д. Подобным образом строится большинство
комбинационных статистических группировок.
В тех случаях, когда не представляется возможным упорядочить классификационные признаки,
применяется наиболее простой метод многомерной группировки создание интегрального показателя
(индекса), функционально зависящего от исходных признаков, с последующей классификацией по
этому показателю.
Развитием этого подхода является вариант классификации по нескольким обобщающим показателям
(главным компонентам), полученным с помощью методов факторного или компонентного анализа.
При наличии нескольких признаков (исходных или обобщенных) задача классификации может быть
решена методами кластерного анализа, которые отличаются от других методов многомерной
классификации отсутствием обучающих выборок, т.е. априорной информации о распределении
генеральной совокупности.
Различия между схемами решения задачи по классификации во многом определяются тем, что
понимают под понятиями «сходство» и «степень сходства».
После того как сформулирована цель работы, естественно попытаться определить критерии качества,
целевую функцию, значения которой позволят сопоставить различные схемы классификации.
В экономических исследованиях целевая функция, как правило, должна минимизировать некоторый
параметр, определенный на множестве объектов (например, целью классификации оборудования может
явиться группировка, минимизирующая совокупность затрат времени и средств на ремонтные работы).
В случаях когда формализовать цель задачи не удается, критерием качества классификации может
служить возможность содержательной интерпретации найденных групп.
Рассмотрим следующую задачу. Пусть исследуется совокупность п объектов, каждый из которых
характеризуется
k измеренными признаками. Требуется разбить эту совокупность на однородные в
некотором смысле группы (классы). При этом практически отсутствует априорная информация о
характере распределения k-мерного вектора Х внутри классов.
Полученные в результате разбиения группы обычно называются кластерами* (таксонами**,
образами), методы их нахождения кластер-анализом (соответственно численной таксономией или
распознаванием образов с самообучением).
*
Clаster (англ.) группа элементов, характеризуемых каким-либо общим свойством.
**Тахоп (англ.) систематизированная группа любой категории.
Необходимо с самого начала четко представлять, какая из двух задач классификации подлежит
решению. Если решается обычная задача типизации, то совокупность наблюдений разбивают на
сравнительно небольшое число областей группирования (например, интервальный вариационный ряд в
случае одномерных наблюдений) так, чтобы элементы одной такой области находились друг от друга
по возможности на небольшом расстоянии.
|