Использование методов многомерной статистики для сегментации клиентской базы торговой компании

Для иллюстрации методов рассмотрим пример[1].

Компания, торгующая продуктами питания в крупном областном центре РФ, столкнулась с падением своей рыночной доли на рынке вследствие обострения конкуренции и изменения потребительского поведения. Было принято решение сегментировать рынок для разработки «прицельной» маркетинговой стратегии. Для этого было принято решение провести сегментацию клиентской базы компании (995 клиентов). Данные из базы были выгружены в Excel, а затем импортированы в специальную программу для их обработки.

Торговый ассортимент компании включает семь товарных групп:

  • — рыба и рыбные полуфабрикаты;
  • — мясные полуфабрикаты;
  • — пельмени;
  • — колбасные изделия;
  • — бакалея;
  • — кондитерские изделия;
  • — йогурты.

В качестве переменной сегментирования был выбран показатель относительного уровня товарооборота по товарной группе — отношение объема закупок потребителя в текущем месяце по текущим ценам к объему его закупки по ценам продажи в базовом месяце. Исследователи исходили из того, что при анализе мотивов поведения покупателей данный показатель позволяет судить о деловой активности покупателя, его интересе к товарам фирмы и характеризует динамику потребительского поведения. Значение показателя, меньшее 1, показывает снижение закупок по товарной группе, а значение, большее 1, свидетельствует об увеличении объемов закупок.

Для каждого клиента рассчитывались семь переменных относительного товарооборота (по каждой товарной группе) (см. таблицу 3.4).

Таблица 3.4

Значения относительного уровня товарооборота (для 20 клиентов из 995)

Потребитель

Кондитерские

изделия

Йогурты

Бакалея

Колбаса

Мясо

Рыба

Пельмени

1

1,645

0,938

0,968

1,096

0,579

0,955

0,608

2

1,451

0,733

0,858

0,842

0,678

1,004

0,586

3

1,113

0,669

1,721

0,788

0,696

1,379

0,698

4

1,274

0,581

1,598

0,983

0,784

1,305

0,693

5

1,531

0,567

1,558

0,88

0,772

1,037

0,645

6

1,202

0,945

1,725

0,607

0,669

1,459

0,635

7

1,02

0,778

1,407

1,181

0,657

1,754

0,704

8

1,527

0,887

1,829

0,568

0,534

0,925

0,62

9

0,944

1,257

2,494

0,583

0,726

1,888

0,625

10

1,519

0,545

2,424

1,225

0,615

1,303

0,586

11

1,583

0,812

1,447

0,688

0,675

0,771

0,547

12

0,914

0,901

1,082

0,586

0,781

1,417

0,584

Окончание табл. 3.4

Потребитель

Кондитерские

изделия

Йогурты

Бакалея

Колбаса

Мясо

Рыба

Пельмени

13

1,512

1,035

1,45

0,55

0,572

0,888

0,608

14

1,732

0,609

1,506

1,232

0,729

1,269

0,651

15

1,077

1,037

1,448

1,257

0,761

1,483

0,78

16

1,341

1,227

2,34

0,722

0,669

1,131

0,656

17

1,273

0,664

1,588

0,823

0,664

1,401

0,658

18

1,44

0,801

1,764

1,14

0,811

1,305

0,785

19

0,994

1,1

1,546

0,539

0,68

1,343

0,61

20

1,294

0,786

2,081

0,665

0,674

0,901

0,584

Для сегментации была использована процедура автоматической кластеризации (так называемый метод /передних). Первый ее шаг — формулировка гипотезы о существовании конкретного набора кластеров, количество которых предполагается равным к. Второй шаг — для каждого кластера вычисляется центр (может быть выбран произвольный или известный объект). Третий шаг — автоматически просматривается вся совокупность потребителей, и выбираются те объекты, которые имеет наилучшую меру сходства по отношению к центрам кластеров. Мера сходства с учетом весовых коэффициентов (коэффициентов важности) переменных сегментирования рассчитывается по формуле:

где: j — переменная [/ от 1 до т (т = 7)];

х.., хр. — сравниваемые объекты [п сравниваемых объектов (я = 995)];

w — весовой коэффициент.

При этом сумма этих коэффициентов по всем переменным должна быть равной 1. Использование коэффициентов важности позволяет формальными средствами отразить знания аналитика о переменных сегментирования.

В нашем примере были выделены три кластера — «прообразы» будущих сегментов. В построении меры сходства участвовали все семь переменных сегментирования с равными коэффициентами важности (см. рисунок 3.7)

Результаты кластеризации представлены в пространстве трех выделенных факторов

Рисунок 3.7. Результаты кластеризации представлены в пространстве трех выделенных факторов

Чтобы кластеры стали сегментами, необходимо убедиться, что выделенные кластеры действительно содержат потребителей со схожими маркетинговыми свойствами.

На первом шаге для анализа используются математические параметры кластеров, автоматически вычисляемые при выполнении алгоритма кластеризации.

К ним относятся:

• центр кластера для одной переменной с учетом ее веса:

где: Wj — весу'-той переменной;

I — количество объектов в кластере к

• дисперсия:

• среднеквадратическое отклонение объектов от центра кластера (СКО) — квадратный корень из дисперсии:

• радиус кластера:

Необходимо дать некоторые пояснения.

Центр кластера — это среднее геометрическое место точек в пространстве переменных.

Дисперсия — это мера рассеяния точек относительно центра кластера.

СКО — это среднее расстояние, на котором находятся точки от центра кластера.

Радиус кластера — максимальное расстояние точек от центра (см. рисунок 3.8).

Параметры кластеров

Рисунок 3.8. Параметры кластеров

Параметры кластеров вычисляются по всем переменным кластеризации. В таблице 3.5 представлены данные по переменной «бакалея». Для потребителя № 19 вычислено расстояние до построенных кластеров. Рассматриваемый потребитель был отнесен к 3-му кластеру. Однако по значению расстояния от этого объекта до сегментов видно, что он находится в радиусе действия сразу двух сегментов — 1-го и 3-го (столбец «Расстояние»: до 1-го сегмента — 0,476, до 2-го — 0,308, что меньше радиусов этих сегментов). Если в качестве критерия размера кластеров брать их радиус, то принадлежность рассматриваемого объекта ставится под вопрос. Другими словами, 1-й и 3-й кластеры перекрываются, а объект для них является спорным.

Характеристики параметров выделенных кластеров и расстояние потребителя № 19 до построенных кластеров по переменной «бакалея»

Таблица 3.5

Сегмент

Число

объектов

Расстояние (потребителя № 19 до центра кластера)

Радиус

СКО

(среднеквадратическое

отклонение)

1-й сегмент

365

0,476

0,656

0,324

2-й сегмент

303

0,651

0,507

0,253

3-й сегмент

327

0,308

0,326

0,301

Переменная «бакалея»

Значение (для объекта 19): 1,546. Отнесен к 3-му кластеру

Сегмент

Минимум

Центр - СКО

Центр

Центр + СКО

Максимум

1-й сегмент

1,392

1,906

2,062

2,217

2,629

2-й сегмент

0,667

1,23

1,378

1,525

2,141

3-й сегмент

0,77

1,251

1,44

1,629

2,395

Если в качестве критерия размера кластеров брать среднеквадратическое отклонение (средний разброс) объектов в кластере, то объект не является спорным и кластеры не перекрываются. В нижней части таблицы значение переменной «бакалея» для потребителя № 19 равен 1,546 (см. таблицу 3.5) находится в интервале разброса средних значений (Центр — СКО, Центр + СКО) 3-го кластера (1,251—1,629). Значение этой переменной потребителя № 19 находится в интервале изменения значений данной переменной для 1-го кластера (от 1,392 до 2,629), но не входит в интервал разброса средних значений (Центр — СКО, Центр + СКО) для этого кластера (1,906—2,217). Поэтому в данном случае можно согласиться с результатами кластеризации и отнести объект № 19 к 3-му кластеру.

Объект может входить только в один кластер, хотя он может находиться в пределах окружностей, построенных для нескольких кластеров (в соответствии с их центром и радиусами). Для борьбы с перекрытием сегментов аналитик может прибегнуть к перераспределению объектов вручную, пожертвовав математическими мерами близости во имя выделения значимых сегментов с точки зрения экономического смысла.

На втором этапе анализа кластеров должна быть проведена проверка результатов кластеризации с помощью модели однофакторного дисперсионного анализа. Необходимо проверить нулевую гипотезу: выделенные кластеры не различаются между собой (имеют по анализируемой переменной одно и то же среднее значение). Если гипотеза будет опровергнута, то результаты кластеризации могут быть признаны статистически значимыми.

Различие между кластерами может быть оценено по отклонениям в средних значениях переменной, которая участвовала в кластеризации. Для проверки результатов кластеризации строится матрица дисперсионного анализа. Ее столбцы соответствуют кластерам (сегментам), а строки — значениям этой переменной для всех клиентов. Результаты дисперсионного анализа, полученные при обработке матрицы, представлены в таблицах 3.6 и 3.7.

При дисперсионном анализе для каждого сегмента вычисляются (см. таблицу 3.6):

  • 1) число объектов;
  • 2) сумма значений переменной по всем объектам сегмента;
  • 3) среднее значение переменной по кластеру, определяемое по формуле:

гд: к — количество выделенных кластеров;

п — количество объектов в кластере к.

В таблице 3.7 представлены оценки дисперсии переменной, обусловленные вариацией переменной между кластерами и внутри них:

• вариация переменной, обусловленная различиями между кластерами:

• дисперсия межгрупповая:

• вариация переменной внутри каждого кластера:

• дисперсия внутригрупповая:

Полная вариация состоит из межгрупповой и внутригрупповой вариации:

Нулевую гипотезу проверяют с помощью F-статистики, рассчитываемой как отношение между двумя оценками дисперсий:

где: к количество кластеров;

п — количество объектов наблюдения.

Если значение F-статистики больше критического значения F, то переменная оказывает статистически значимое влияние на результаты кластеризации. Если значение F-статистики меньше критического, то сегменты по данной переменной не различаются и делается вывод о незначительном влиянии переменной на выделение сегментов. Для нашего примера 871,5 > 3. Это означает, что выделенные сегменты действительно различаются между собой по переменной «бакалея».

Результаты однофакторного дисперсионного анализа выделенных кластеров по переменной «бакалея»

Таблица 3.6

Сегмент

Число

объектов

Сумма

Среднее

Дисперсия

1

365

762,73

2,089

0,0529

2

303

422,97

1,395

0,0775

3

327

452,45

1,383

0,0668

Результаты однофакторного дисперсионного анализа выделенных кластеров по переменной «бакалея» (продолжение)

Таблица 3.7

Источник

дисперсии

1ЕГ = SS Сумма квадратов отклонений

Df

Число степеней свободы (с-1) и (// — с)

ISS/DF = MSE Средний квадрат

F-статис-

тика

  • (56,649/
  • 0,065)

F- критическое

Между

группами

113,23

2

56,649

871,5

3,005

Внутри

групп

64,48

992

0,065

Итого

177,78

994

Следующим этапом сегментации выступает интерпретация выделенных сегментов. Когда выделение кластеров производится по одной-двум переменным, смысл схожести потребителей в кластере достаточно очевиден. Когда же сопоставление потребителей производится по многим переменным, требуются усилия, чтобы понять, в чем состоит сходство потребителей. Поняв маркетинговый смысл схожести и различия покупателей, можно дать названия кластерам, которые рассматриваются как основа для построения сегмента. Интерпретация — определение маркетингового смысла схожести потребителей в кластере.

Для этого строится гистограмма средних значений наиболее важных переменных по каждому выделенному сегменту. Профиль сегмента (профиль потребителя) отражает свойства среднего покупателя из сегмента. Это характеристика «типичного» покупателя (см. рисунок 3.9). По вертикальной оси — среднее значение переменной (среднее значение уровня товарооборота), по горизонтальной — средняя характеристика по каждому из семи товарных направлений деятельности фирмы. Расхождения в значениях средних — это свидетельство различий усредненных потребителей.

Профили сегментов

Рисунок 3.9. Профили сегментов

Для того чтобы сократить количество переменных, характеризующих поведение клиентов компании, был применен факторный анализ. Идея метода факторного анализа состоит в том, чтобы объяснить все многообразие корреляционных связей между переменными через несколько обобщенных гипотетических факторов. Связи между переменными сегментирования могут быть численно оценены с помощью коэффициентов корреляции.

Также необходимо построить так называемую матрицу факторных нагрузок. Строки матрицы соответствуют переменным сегментирования, а столбцы — факторам. Сначала количество столбцов совпадает с числом переменных (для нашего примера их семь). В ячейках матрицы — значения корреляции между факторами и переменными. Затем выделяются главные факторы.

Определение количества главных факторов происходит с использованием графика «каменистой осыпи» (см. рисунок 3.10).

График «каменистой осыпи»

Рисунок 3.10. График «каменистой осыпи»

По оси X на графике «каменистой осыпи» откладываются номера факторов, по оси Y— собственные значения факторов. Собственные значения факторов — это значения дисперсии значений переменных, обусловленные воздействием этих факторов. Обычно график имеет четкий разрыв между крутой частью кривой (собственные значения велики) и пологой (собственные значения стабилизируются на невысоком уровне). Точка, с которой начинается «осыпь», указывает на количество главных факторов. В нашем примере были выделены три главных фактора (см. таблицу 3.8).

Матрица факторных нагрузок

Таблица 3.9

Переменные

Фактор 1

Фактор 2

Фактор 3

Кондитерские

изделия

0,6263

-0,4602

-0,4998

Йогурты

0,0718

0,6578

-0,2531

Бакалея

-0,1826

0,3275

-0,7433

Колбаса

-0,2464

-0,7991

0,1524

Мясо

-0,6678

-0,1871

-0,4572

Рыба

-0,7980

0,3834

0,2731

Пельмени

-0,6102

-0,4668

-0,2386

Факторные нагрузки — это корреляция между каждым фактором и каждой переменной. Фактор объясняет значения тех переменных, которые имеют наибольшие по модулю факторные нагрузки. Отрицательные значения факторов связаны с их положительным воздействием на потребителей; положительные значения — с отрицательным воздействием.

По первому фактору видно, что наибольшие нагрузки (отрицательные по знаку) имеют переменные «мясо», «рыба» и «пельмени». А переменная «кондитерские изделия» имеет значительную положительную нагрузку. Это означает, что клиенты склонны покупать в основном замороженные продукты (мясо, рыбу и пельмени), и не склонны закупать кондитерские изделия. Смысл второго фактора: стремление клиентов торговать кондитерскими изделиями, колбасой, пельменями, но не закупать при этом товары из группы йогуртов. Третий фактор может быть объяснен как стремление клиентов торговать бакалейными товарами, мясными продуктами и кондитерскими изделиями.

Теперь от абстрактных факторов 1, 2 и 3 можно перейти к названиям сегментов:

  • — замороженные продукты («морозильщики» — сегмент 1);
  • — бакалея, мясо, кондитерские изделия («бакалейщики» — сегмент 2);
  • — колбаса, пельмени, кондитерские изделия («колбасники» — сегмент 3).

  • [1] См.: Костерим Л. Г. Практика сегментирования рынка. СПб.: Питер, 2002.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >