• 5

2.7.2. Метод группировки данных

Группировка - это расчленение совокупности данных на группы с целью изучения ее структуры или

взаимосвязей между компонентами. В процессе группировки единицы совокупности распределяются по

группам в соответствии со следующим принципом: различие между единицами, отнесенными к одной

группе, должно быть меньше, чем различие между единицами, отнесенными к разным группам.

Важнейший вопрос при проведении такого рода исследования - выбор интервала группировки.

Существуют два основных подхода (метода) к его решению.

Первый подход предполагает деление совокупности данных на группы с равными интервалами

значений. Этот метод используется наиболее часто, так как он лишен субъективизма при выборе границ

интервалов. При определении длины интервала i целесообразно пользоваться формулами Стерджеса:

где хmах - максимальное значение признака в изучаемой совокупности;

xmin - минимальное значение признака в изучаемой совокупности;

k - число групп;

N - число наблюдений.

Совершенно очевидно, что знаменатель дроби численно равен количеству групп или интервалов, на

которое разбивается исходная совокупность.

Таким образом, оптимальное количество групп, соответствующее некоторому числу наблюдений,

согласно формуле Стерджеса можно представить следующим образом:

Прямое применение формулы Стерджеса означает, что на параметры группировки не накладывается

каких-либо ограничений. Возможен и вариант, когда такие ограничения вводятся, - например, аналитик

уже имеет некоторое представление о числе групп (в частности, такое ограничение может быть вызвано

желанием обеспечить некоторую качественную однородность выделяемых групп единиц совокупности).

В последнем случае длина интервала группировки находится делением размаха вариации, т.е. разности

между максимальным и минимальным значениями группировочного признака, на предполагаемое число

групп.

Согласно второму подходу интервалы группировки можно выбрать и неравными (возрастающими

или убывающими). Этот подход обычно применяется при большой вариации и неравномерности

распределения признака по всему интервалу его изменения. При выборе размера интервала группировки

руководствуются здравым смыслом и логикой, опираясь при этом на распределения прошлых периодов

и традиционно сложившиеся подходы в группировке. При использовании этого подхода интервалы

часто выбирают таким образом, чтобы группы были равнозаполненными.

Иллюстрация использования обоих подходов к группировке приведена в примере 2.11.

Пример 2.11. Компания "Фарма" владеет сетью стационарных аптек, аптечных киосков и фармацевтических

отделов в различных магазинах города. Выручка 35 торговых точек, принадлежащих компании, за июль 1999 г.

составила (тыс. руб.):

Используя формулу Стерджеса, получим:

Округлив этот результат, в качестве длины интервала группировки выберем 140. Группировка будет иметь вид:

Группировка, по мнению аналитика, получилась не слишком удачная, поскольку не вполне отражает реальную

структуру совокупности. Из опыта известно, что все торговые точки, принадлежащие компании "Фарма", можно

условно разделить на четыре типа: киоски на улицах, киоски в магазинах, отделы в магазинах и стационарные

аптеки. Исходя из представления о том, что совокупность объектов следует разделить на четыре группы, интервал

группировки можно определить следующим образом:

Округлив, возьмем длину интервала группировки равной 200. Тогда группировка примет вид:

Эта группировка уже гораздо лучше соответствует истинному положению вещей.

Попытка применить подход равнозаполненных интервалов разной длины никакой содержательной

информации для анализа в данном случае не даст. Формально такая группировка могла бы выглядеть следующим

образом:

В этой группировке интервалы, начиная со второго, постоянно увеличиваются.

Как отмечалось выше, метод неравных интервалов достаточно обоснован в случае ощутимой

вариации группировочного признака. В этом случае применение формулы Стерджеса, предполагающей

определенную равномерность в распределении значений группировочного признака внутри интервала

варьирования, не дает логически приемлемых результатов. При построении неравных интервалов

необходимо ориентироваться на фактическое распределение анализируемой совокупности и пытаться

обеспечить достаточную наполненность всех интервалов группировки. Нахождение интервалов может

осуществляться методом последовательных итераций.

В некоторых ситуациях при группировке совокупности с ощутимо варьирующим признаком все же

возможно применение формулы Стерджеса. Представим себе ситуацию, когда торговая фирма имеет 100

магазинов торговой площадью, варьирующей от 10 до 400 кв. м, и два крупных универмага торговой

площадью соответственно 8000 и 12 000 кв. м. Если воспользоваться формулой Стерджеса, получим:

Вся совокупность, следовательно, должна быть разделена на восемь групп, например, следующего

вида:

Вряд ли такая группировка представляет интерес для аналитика, поскольку подавляющая часть

единиц совокупности попала в один интервал, а большинство других интервалов вообще оказались

незаполненными. Поэтому с очевидностью напрашивается вывод о необходимости обособления

крупных универмагов в отдельную группу и группировке оставшихся 100 магазинов. Если в этом случае

воспользоваться формулой Стерджеса, получим:

В этом случае совокупность рекомендуется разбить на девять интервалов: в первых восьми

интервалах (в соответствии с формулой Стерджеса) будет распределена основная масса магазинов (100),

в последний интервал войдут крупные универмаги. Один из вариантов группировки в этом случае

может иметь следующий вид:

В общем случае процесс группировки данных включает несколько этапов:

выбор группировочного признака;

упорядочивание совокупности по этому признаку;

определение (тем или иным способом) количества групп;

определение границ интервалов (обычно производится округление формально полученных данных).

Основное правило при проведении группировки состоит в следующем: не должно быть пустых или

малозаполненных интервалов. Иными словами, формула Стерджеса дает лишь ориентировочные

значения интервалов группировки; при принятии окончательного решения, как правило, значения

округляются или незначительно меняются.

В анализе финансово-хозяйственной деятельности используются в основном два вида группировок:

структурные и аналитические.

Структурные группировки предназначены для изучения структуры и состава совокупности,

происходящих в ней сдвигов относительно выбранного варьирующего признака. Структурная

группировка оформляется, как правило, в виде таблицы, в подлежащем которой находится

группировочный признак, а в сказуемом - показатели, характеризующие структуру совокупности либо в

динамике, либо в пространстве. Этот вид группировки характеризует структуру совокупности по

какому-то одному признаку (в примере 2.11 таким признаком является объем выручки торговых точек).

Изменение структуры группировки чаще всего описывается одним из двух показателей.

Показатель среднего абсолютного изменения структуры рассчитывается по формуле:

Показатель среднеквадратического изменения структуры рассчитывается по формуле:

Чем более значительны структурные сдвиги, тем больше значения этих показателей. При отсутствии

структурных сдвигов оба они равны нулю. Квадратичный коэффициент реагирует на изменение

структуры чуть более чутко. При расчете этих показателей следует помнить о том, что количество групп

в группировке и в базовом, и в отчетном периодах должно быть одинаковым.

Аналитические группировки предназначены для изучения взаимосвязей между двумя и более

показателями, характеризующими исследуемую совокупность. Один из показателей при этом

рассматривается как результативный, а остальные - как факторные. По аналитической группировке

можно рассчитать силу связи между факторами.

При оформлении результатов группировки в таблице признак-результат размещается в сказуемом,

группировочные признаки, рассматриваемые в качестве факторных, размещаются в подлежащем

таблицы.

Выбрать один признак в качестве группировочного зачастую бывает достаточно трудно. Анализ по

нескольким признакам довольно трудоемок и обладает принципиальным недостатком - размыванием

совокупности, поскольку даже комбинация двух признаков при попытке разбить совокупность на три

или четыре категории дает шесть или восемь подгрупп. В некоторых из них оказывается одно-два

наблюдения, что недостаточно для подготовки обоснованных выводов об этих подгруппах. Избежать

этого недостатка позволяют методы многомерных группировок. Широкое распространение они

получили благодаря использованию вычислительной техники при расчетах. При анализе деятельности

отдельных предприятий методы многомерной группировки используют нечасто из-за их сложности,

более распространены они при социологических и экономических исследованиях отраслей и регионов.

Наиболее разработанным методом многомерной классификации является кластерный анализ (см. раздел

2.8.3).

Авторы: 1379 А Б В Г Д Е З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Э Ю Я

Книги: 1908 А Б В Г Д Е З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Э Ю Я