КЛАСТЕРНЫЙ АНАЛИЗ КАК МЕТОД ОПРЕДЕЛЕНИЯ И ОБОСНОВАНИЯ АЛЬТЕРНАТИВНЫХ НАПРАВЛЕНИЙ РАЗВИТИЯ РЕГИОНОВ

В аттракторе концентрируются регионы с относительно слабыми различиями по социально-экономическому состоянию. Для принятия окончательного решения по реализации определенного направления в области сокращения региональных различий необходимо знать об имеющихся альтернативах, то есть регионах, которые имеют схожие условия развития. Кроме того, важно учитывать существование ограничений, которые накладывают сложившиеся условия в конкретном регионе, что определяет конечность набора возможных к реализации управленческих решений. Для получения информации о существующих альтернативах и ограничениях применяется кластерный анализ, который позволяет выделить по всему набору показателей однородные группы регионов и выявить их особенности.

Результатом кластерного анализа является разбиение имеющихся в исходной выборке объектов на некоторое количество кластеров. При этом каждый кластер включает в свой состав один или более объектов, которые характеризуются схожими изменениями исходных показателей, то есть регионы конкретного кластера дифференцированы в меньшей мере, при сравнении их с регионами других кластеров.

Главная цель кластерного анализа — нахождение групп схожих объектов в выборке данных. Эти группы удобно называть кластерами. Общепринятого определения понятия «кластер» не существует, однако очевидно, что кластер может быть охарактеризован рядом признаков, «...наиболее важными из которых являются плотность, дисперсия, размеры, форма и отделимость» [93, с. 165-166].

Б.Г. Миркин отмечает, что «самое естественное — это дать строгое определение компактной группы, после чего конструировать группировку как совокупность компактных в смысле данного определения групп» [136, с. 42-43]. Так, он предлагает называть группу объектов кластером, если максимальное расстояние между ее точками не превышает минимального расстояния «во вне», т.е. минимального расстояния между точками, попавшими в группу и не попавшими в нее. Возможно использование и более слабого требования к компактности группы: сгущением можно назвать такое множество точек, для которого среднее внутреннее расстояние меньше, чем среднее расстояние во вне.

Предлагаемый алгоритм структуризации основан на эвристическом подходе к кластеризации объектов. Его основой является формулировка понятия кластера и разбиение совокупности на части, каждая из которых представляет собой кластер в данном смысле 1131, с. 371.

Алгоритм кластерного анализа является по сути дела алгоритмом классификации регионов. «Часто утверждается, что классификация — один из фундаментальных процессов в науке. Факты и явления должны быть упорядочены, прежде чем мы сможем их понять и разработать общие принципы, объясняющие их появление и видимый порядок. С этой точки зрения, классификация является интеллектуальной деятельностью высокого уровня, необходимой нам для понимания природы» [194, с. 7- 19].

В рамках диагностики региональных различий характерна ситуация, когда «...собраны большие наборы многомерных данных, причем структура данных неизвестна или, в лучшем случае, проведено некоторое начальное предварительное исследование ее» [194, с. 7]. Методы, которые «...дают возможность при построении классификации идти от объекта во всем многообразии его свойств» [66, с. 26] называются методами ав-тематической классификации или кластерного анализа. С.А. Дубровский отмечает, что «...в зависимости от характера исследования формальные процедуры могут быть применены либо для группировки объектов, либо для классификации параметров, измеряемых на каком-то объекте или их наборе, либо для выделения классов идентичных условий» [63, с. 82].

Таким образом, кластер-анализ — «это способ группировки многомерных объектов, основанный на представлении результатов отдельных наблюдений точками подходящего геометрического пространства с последующим выделением групп как «сгустков» этих точек» [137, с. 4]. Данной группе методов классификации объектов посвящена обширная литература как учебного [6; 61; 170; 195], так и монографического [64; 66; 69; 71; 73; 131; 199] характера.

Рассмотрим шаги алгоритма выявления и характеристики аттрактора.

Алгоритм выявления аттрактора

Рис. 2.5. Алгоритм выявления аттрактора

Шаг 1. Матрица исходных данных имеет вид

/

V

/п

/12

/21

/22

• • •

/п

• • •

Л 2

1 р

пр у

(17)

где Р— матрица счетов размерностью пхр /. значение г-й исходного показателя на /'-м статистически обследованном объекте (так что

/-ая строка этой матрицы /у = [/пЛп’—’/ф') характеризует объект (регион) 0(., т.е. представляет результат его статистического обследования по всем р исходным показателям);

/ = 1;я; г = р.

Шаг 2. Количественное оценивание сходства (расстояний, близостей) отталкивается от понятия метрики. При этом подходе к сходству объекты представляются точками координатного пространства, причем замеченные сходства и различия между точками находятся в соответствии с метрическими расстояниями между ними [93, с. 151]. При этом размерность пространства определяется числом переменных, использованных для описания событий.

Для количественных шкал наиболее употребительными являются метрики, представленные в таблице 2.1.

Таблица 2.1

Характеристика близости объектов по набору признаков, измеренных

в количественной шкале [131, с. 31]

Показатели

Формула

Линейное расстояние

Р

^и=Цх'-х' (2.22) г=1

Евклидово расстояние

^ Е(і -

^=і )

  • 1
  • 2
  • (2.23)

Обобщенное степенное расстояние Минковского

іїрц =

уґ=1 )

1

Я

(2.24)

Расстояние Махаланобиса

^ Му -

(х,-ъ)ТГ'

(*/ -ху) (2.25)*

* В формуле (2.25): X, — вектор-столбец значений всех обобщенных показателей на /-том объекте; XV-1 — матрица, обратная ковариационной.

Мы полагаем, что целесообразно использовать евклидово расстояние, поскольку оно: 1) применимо для переменных, измеренных в одних единицах [107, с. 263]; 2) отвечает интуитивным представлениям о близости, удачно вписывается своей квадратичной формой в традиционно статистические конструкции; 3) геометрически лучше всего объединяет объекты в шарообразных скоплениях, которые весьма типичны для слабо коррелированных совокупностей [124, с. 32].

Шаг 3. И.И. Елисеева и О.В. Рукавишников отмечают, что «...традиционно различаются классификации иерархические и неиерархические (называемые иногда структурными)» [66, с. 37].

Методы кластеризации делятся на иерархические и итерационные. Достоинством иерархических методов является простота вычислений и интерпретации полученных результатов. Смысл иерархической процедуры заключается в следующем: перед началом кластеризации все объекты считаются отдельными кластерами, каждый из которых включает по одному элементу. На первом шаге алгоритма по ряду правил группировки (одиночная связь, полная связь, средняя связь, метод Уорда и др.) определяются два наиболее близких или сходных объекта, которые объединяются в один кластер, после чего общее количество объектов сокращается на единицу.

Общая схема иерархической группировки может быть представлена как повторяющееся приложение трех операции к мерам расстояния объект (кластер) — объект (кластер) [66]: 1) найти наименьшее расстояние с1рс1 между объектом (кластером) р и объектом (кластером) q, 2) объединить р и <7 в один кластер, присвоив общий индекс, например г, 3) вычислить расстояние (1ГЗ от кластера г до любого другого объекта (кластера) 5 по формуле

(18)

где а_,а^,р,у — параметры, определяющие конкретный алгоритм, с1 ^,(1^,(1 ря расстояния между соответствующими кластерами.

Эта процедура порождает число разбиений, равное числу объектов, подлежащих группировке. На каждом шаге процедуры происходит преобразование (снижение на единицу размерности и пересчет расстояний) матрицы расстояний. Работа алгоритма заканчивается, вообще говоря, когда все элементы объединены в один класс.

Специфицируя значения параметров в таблице 5 по вышеприведенной формуле, можно получить различные решающие правила. Каждое из приведенных в таблице решающих правил формирует кластеры с различающимися свойствами.

В таблице 2.2 осталась не рассмотренной стратегия Уорда. Идея данного метода состоит в том, чтобы проводить объединение, дающее минимальное приращение внутригрупповой суммы квадратов отклонений [26, с. 187|.

В расчетах в иерархических методах кластеризации используется правило одиночной связи, что не представляется целесообразным, так как по мере приближения к окончанию процесса кластеризации образуется один большой кластер, а все оставшиеся объекты добавляются к нему один за другим и создается «цепной эффект» [93; 171]. Процесс повторяется, пока на последнем шаге все объекты не объединятся. На каждом последующем шаге данной процедуры требуется пересчет расстояния от образованного кластера до каждого из оставшихся кластеров.

Итерационные методы (в отличие от иерархических) порождают кластеры одного ранга, которые не являются вложенными и поэтому не

Таблица 2.2

Основные решающие правила (стратегии классификации) и соответствующие им значения параметров уравнения пересчета расстояний [66, с. 39]

Название алгоритма

Значение параметра

аР

а4

р

У

«Ближайший сосед»

72

72

0

~'/2

«Дальний сосед»

%

'/2

0

72

Медиана

%

72

~/г

0

Простое среднее

'/2

'/2

0

0

Групповое среднее (средняя связь)

пр

пя

0

0

ПР + пс

Пр + пд

Центроид

ПР

пя

~прпд

0

+ Ид

пр+пс

К+% )2

могут быть частью иерархии. Выделение независимых кластеров, то есть не являющихся частью иерархии, в момент выявления аттрактора является главной положительной особенностью итерационных методов. Рассматривая регион, важно сохранить индивидуальность его характеристик, но в тоже время найти относительно идентичный по условиям развития регион, не допуская при этом искажения уровня характеристик под влиянием наиболее или наименее развитого региона. Кроме того, большинство итерационных методов не допускает перекрытия кластеров. Перекрытие кластеров означает, что при помощи математических процедур невозможно однозначно отнести регион к одному из кластеров. Такое положение нежелательно при выявлении альтернатив, так как попадание региона в несколько кластеров не позволяет точно выявить особенности полученного кластера, так как «нераспознанный» регион своим присутствием повлияет на характеристики кластеров.

Одним из видов итерационного метода кластеризации является метод к-теапБ. Алгоритм ^-средних строит к кластеров, расположенных на возможно больших расстояниях друг от друга. Основной тип задач, которые решает алгоритм ^-средних, — наличие предположений (гипотез) относительно числа кластеров, при этом они должны быть различны настолько, насколько это возможно. Метод разбивает исходное множество объектов на заданное исследователем число кластеров. Объединение объектов в кластеры происходит на основе вычисляемой меры сходства между ними. После первого назначения кластеров (первой итерации) происходит повторное вычисление мер сходства и перенос объекта из одного кластера в другой. Итерационный процесс продолжается до тех пор, пока не будет получено наилучшее разбиение объектов на кластеры или достигнуто максимальное число итераций. После выполнения очередного шага выясняется, достигнуто ли желательное разбиение. Критерием остановки процедуры кластеризации является получение заранее определенного количества кластеров, а также обладание кластерами требуемым соотношением внутренней однородности и разнородности между собой. Полное описание алгоритма можно найти в работе Хартигана и Вонга |220|.

Шаг 4. Когда кластеры уже сформированы, необходимо оценить значимость (в статистическом смысле) полученной классификации. Приведем некоторые наиболее часто используемые в таком случае процедуры, изложенные в работе [93, с. 192—196]: 1) расчет кофенетического коэффициента корреляции, 2) проведение дисперсионного анализа (А1МОУА), 3) сравнение кластерных решений для разных выборок из одной и той же генеральной совокупности, 4) выполнение теста значимости, с помощью которого сравниваются кластеры по признакам, не применявшимся при получении кластерного решения.

Шаг 5. Содержательная интерпретация кластеров предполагает, что в отношении каждого из полученных кластеров будет указано, как он относится к другим кластерам. В нашем случае, поскольку в качестве признаков используются показатели, отражающие социально-экономическое состояние региона и главной задачей является выявление возможных альтернатив, постольку полученные кластеры должны различаться по большему числу показателей, особенно по тем, из которых образуются обобщенные факторы.

Описание кластера проводится не просто как множества объектов, а как некоего единого комплекса, имеющего свои свойства и особенности, при этом учитываются различия между регионами (расстояние до центра кластера). Очевидно, при этом мы теряем часть информации об объекте, поскольку внутри кластеров объекты не идентичны. Но, чем лучше кластерная структура описывает реальные скопления объектов в признаковом пространстве, тем меньшая часть информации будет потеряна и тем большую ее часть будет нести в себе кластер, как представитель всех принадлежащих ему объектов, кроме того, большую часть информации о различиях мы получаем из факторного анализа. При этом решается задача выявления групп регионов со сравнительно идентичными условиями развития, что делает возможным описание особенностей кластера, то есть выявления ряда ограничений, необходимых мероприятиях по интенсификации развития региона и возможных к реализации инвестиционных проектов.

Кластером с наиболее благоприятными условиями развития является тот, для которого усредненное значение по большинству показателей наибольшее, при этом особое внимание необходимо уделить тем пока-

зателям, которые войдут в обобщенные факторы, так как последние составляют основу общего состояния региона и вызывают наибольшие различия между регионами.

При помощи кластерного анализа выявляются схожие регионы ЦФО по всему набору показателей, описывающих условия развития региона. Региональные различия определяют кластерную структуру, тогда как схожесть регионов обуславливает состав каждого кластера. Именно кластер выступает генератором альтернатив инвестирования и ориентиром для определения направлений развития региона.

 
< Пред   СОДЕРЖАНИЕ     След >