Генеральная и выборочная совокупности. Понятие репрезентативности Выборочной совокупностью называется
Генеральная совокупность – множество тех людей, сведения о которых стремится получить социолог в своем исследовании. В зависимости от того, насколько широкой будет тема исследования, настолько же широка будет генеральная совокупность.
Выборочная совокупность – уменьшенная модель генеральной совокупности; те, кому социолог раздает анкеты, кого называют респондентами, кто, наконец, представляет собой объект социологического исследования.
Кого именно относить к генеральной совокупности, определяют цели исследования, а кого включать в выборочную совокупность решают математические методы. Если социолог намеревается взглянуть на афганскую войну глазами ее участников, в генеральную совокупность войдут все воины-афганцы, но опрашивать ему придется небольшую часть – выборочную совокупность. Для того чтобы выборка точно отражала генеральную совокупность, социолог придерживается правила: любой воин-афганец, независимо от места жительства, места работы, состояния здоровья и других обстоятельств, должен иметь одинаковую вероятность попасть в выборочную совокупность.
Как только социолог определился с тем, кого он хочет опросить, он определил основу выборки . После чего решается вопрос о типе выборки.
Выборки делятся на три больших класса:
а) сплошные (переписи, референдумы). Опрашиваются все единицы из генеральной совокупности;
б) случайные ;
в) неслучайные.
Случайный и неслучайный типы выборки в свою очередь подразделяются на несколько видов.
К случайным относят:
1) вероятностную;
2) систематическую;
3) районированную (стратифицированную);
4) гнездовую.
К неслучайным относят:
1) «стихийную»;
2) квотную;
3) метод «основного массива».
Полный и точный перечень единиц выборочной совокупности образует основу выборки . Элементы, предназначенные для отбора, называются единицами отбора . Единицы отбора могут совпадать с единицами наблюдения, поскольку единицей наблюдения считается элемент генеральной совокупности, с которого непосредственно ведется сбор информации. Обычно единица наблюдения – это отдельный человек. Отбор из списка лучше всего производить, нумеруя единицы и используя таблицу случайных чисел, хотя часто используется квази-случайный метод, когда из перечня простого берется каждый n-й элемент.
Если основа выборки включает список единиц отбора, то структура выборки подразумевает их группирование по каким-то важным признакам, например, распределение индивидов по профессии, квалификации, полу или возрасту. Если в генеральной совокупности, к примеру, 30% молодежи, 50% людей среднего возраста и 20% пожилых, то и в выборочной совокупности должны соблюдаться те же самые процентные пропорции трех возрастов. К возрастам могут добавиться классы, пол, национальность и т.д. Для каждой устанавливаются процентные пропорции в генеральной и выборочной совокупности. Таким образом, структура выборки – процентные пропорции признаков объекта, на основании которых составляется выборочная совокупность.
Если тип выборки говорит о том, как попадают люди в выборочную совокупность, то объем выборки сообщает о том, какое их количество попало сюда.
Объем выборки – количество единиц выборочной совокупности. Поскольку выборочная совокупность – это часть генеральной совокупности, отобранной с помощью специальных методов, ее объем всегда меньше объема генеральной. Поэтому так важно, чтобы часть не искажала представления о целом, то есть репрезентировала его.
На достоверность данных влияют не количественные характеристики выборочной совокупности (ее объем), а качественные характеристики генеральной совокупности – степень ее однородности. Расхождение между генеральной и выборочной совокупностью называется ошибкой репрезентативности , допустимое отклонение – 5%.
Вот некоторые способы избежать ошибки:
каждая единица генеральной совокупности должна иметь равную вероятность попасть в выборку;
отбор желательно производить из однородных совокупностей;
надо знать характеристики генеральной совокупности;
при составлении выборочной совокупности надо учитывать случайные и систематические ошибки.
Если выборочная совокупность (выборка) составлена правильно, то социолог получает надежные результаты, характеризующие всю генеральную совокупность.
Каковы же основные методы выборки ?
Метод механической выборки , когда из общего списка генеральной совокупности через равные промежутки отбирается необходимое число респондентов (например, каждый 10-й).
Метод серийной выборки . При этом генеральная совокупность разбивается на однородные части и из каждой пропорционально отбираются единицы анализа (например, по 20% мужчин и женщин на предприятии).
Метод гнездовой выборки . В качестве единиц отбора выступают не отдельные респонденты, а группы с последующим сплошным исследованием в них. Данная выборка будет представительна, если состав групп схож (например, по одной группе студентов из каждого потока какого-нибудь факультета вуза).
Метод основного массива – опрос 60–70% генеральной совокупности.
Метод квотной выборки . Наиболее сложный метод, требующий определения не менее четырёх признаков, по которым проводится отбор респондентов. Применяется обычно при большой генеральной совокупности.
Статистическая совокупность — множество единиц, обладающих массовостью, типичностью, качественной однородностью и наличием вариации.
Статистическая совокупность состоит из материально существующих объектов (Работники, предприятия, страны, регионы), является объектом .
Единица совокупности — каждая конкретная единица статистической совокупности.
Одна и та же статистическая совокупность может быть однородна по одному признаку и неоднородна по другому.
Качественная однородность — сходство всех единиц совокупности по какому-либо признаку и несходство по всем остальным.
В статистической совокупности отличия одной единицы совокупности от другой чаще имеют количественную природу. Количественные изменения значений признака разных единиц совокупности называются вариацией.
Вариация признака — количественное изменение признака (для количественного признака) при переходе от одной единицы совокупности к другой.
Признак — это свойство, характерная черта или иная особенность единиц, объектов и явлений, которая может быть наблюдаема или измерена. Признаки делятся на количественные и качественные. Многообразие и изменчивость величины признака у отдельных единиц совокупности называется вариацией .
Атрибутивные (качественные) признаки не поддаются числовому выражению (состав населения по полу). Количественные признаки имеют числовое выражение (состав населения по возрасту).
Показатель — это обобщающая количественно качественная характеристика какого-либо свойства единиц или совокупности в целом в конкретных условиях времени и места.
Система показателей — это совокупность показателей всесторонне отражающих изучаемое явление.
Например, изучается зарплата:- Признак — оплата труда
- Статистическая совокупность — все работники
- Единица совокупности — каждый работник
- Качественная однородность — начисленная зарплата
- Вариация признака — ряд цифр
Генеральная совокупность и выборка из нее
Основу составляет множество данных, полученных в результате измерения одного или нескольких признаков. Реально наблюдаемая совокупность объектов, статистически представленная рядом наблюдений случайной величины , является выборкой , а гипотетически существующая (домысливаемая) — генеральной совокупностью . Генеральная совокупность может быть конечной (число наблюдений N = const ) или бесконечной (N = ∞ ), а выборка из генеральной совокупности — это всегда результат ограниченного ряда наблюдений. Число наблюдений , образующих выборку, называется объемом выборки . Если объем выборки достаточно велик (n → ∞ ) выборка считается большой , в противном случае она называется выборкой ограниченного объема . Выборка считается малой , если при измерении одномерной случайной величины объем выборки не превышает 30 (n <= 30 ), а при измерении одновременно нескольких (k ) признаков в многомерном пространстве отношение n к k не превышает 10 (n/k < 10) . Выборка образует вариационный ряд , если ее члены являются порядковыми статистиками , т. е. выборочные значения случайной величины Х упорядочены по возрастанию (ранжированы), значения же признака называются вариантами .
Пример . Практически одна и та же случайно отобранная совокупность объектов — коммерческих банков одного административного округа Москвы, может рассматриваться как выборка из генеральной совокупности всех коммерческих банков этого округа, и как выборка из генеральной совокупности всех коммерческих банков Москвы, а также как выборка из коммерческих банков страны и т.д.
Основные способы организации выборки
Достоверность статистических выводов и содержательная интерпретация результатов зависит от репрезентативности выборки, т.е. полноты и адекватности представления свойств генеральной совокупности, по отношению к которой эту выборку можно считать представительной. Изучение статистических свойств совокупности можно организовать двумя способами: с помощью сплошного и несплошного . Сплошное наблюдение предусматривает обследование всех единиц изучаемой совокупности , а несплошное (выборочное) наблюдение — только его части.
Существуют пять основных способов организации выборочного наблюдения:
1. простой случайный отбор , при котором объектов случайно извлекаются из генеральной совокупности объектов (например с помощью таблицы или датчика случайных чисел), причем каждая из возможных выборок имеют равную вероятность. Такие выборки называются собственно-случайными ;
2. простой отбор с помощью регулярной процедуры осуществляется с помощью механической составляющей (например, даты, дня недели, номера квартиры, буквы алфавита и др.) и полученные таким способом выборки называются механическими ;
3. стратифицированный отбор заключается в том, что генеральная совокупность объема подразделяется на подсовокупности или слои (страты) объема так что . Страты представляют собой однородные объекты с точки зрения статистических характеристик (например, население делится на страты по возрастным группам или социальной принадлежности; предприятия — по отраслям). В этом случае выборки называются стратифицированными (иначе, расслоенными, типическими, районированными );
4. методы серийного отбора используются для формирования серийных или гнездовых выборок . Они удобны в том случае, если необходимо обследовать сразу "блок" или серию объектов (например, партию товара, продукцию определенной серии или население при территориально-административном делении страны). Отбор серий можно осуществить собственно-случайным или механическим способом. При этом проводится сплошное обследование определенной партии товара, или целой территориальной единицы (жилого дома или квартала);
5. комбинированный (ступенчатый) отбор может сочетать в себе сразу несколько способов отбора (например, стратифицированный и случайный или случайный и механический); такая выборка называется комбинированной .
Виды отбора
По виду различаются индивидуальный, групповой и комбинированный отбор. При индивидуальном отборе в выборочную совокупность отбираются отдельные единицы генеральной совокупности, при групповом отборе — качественно однородные группы (серии) единиц, а комбинированный отбор предполагает сочетание первого и второго видов.
По методу отбора различают повторную и бесповторную выборку.
Бесповторным называется отбор, при котором попавшая в выборку единица не возвращается в исходную совокупность и в дальнейшем выборе не участвует; при этом численность единиц генеральной совокупности N сокращается в процессе отбора. При повторном отборе попавшая в выборку единица после регистрации возвращается в генеральную совокупность и таким образом сохраняет равную возможность наряду с другими единицами быть использованной в дальнейшей процедуре отбора; при этом численность единиц генеральной совокупности N остается неизменной (метод в социально-экономических исследованиях применяется редко). Однако, при большом N (N → ∞) формулы для бесповторного отбора приближаются к аналогичным для повторного отбора и практически чаще используются последние (N = const ).
Основные характеристики параметров генеральной и выборочной совокупности
В основе статистических выводов проведенного исследования лежит распределение случайной величины , наблюдаемые же значения (х 1 , х 2 , … , х n) называются реализациями случайной величины Х (n — объем выборки). Распределение случайной величины в генеральной совокупности носит теоретический, идеальный характер, а ее выборочный аналог является эмпирическим распределением. Некоторые теоретические распределения заданы аналитически, т.е. их параметры определяют значение функции распределения в каждой точке пространства возможных значений случайной величины . Для выборки же функцию распределения определить трудно, а иногда невозможно, поэтому параметры оценивают по эмпирическим данным, а затем их подставляют в аналитическое выражение, описывающее теоретическое распределение. При этом предположение (или гипотеза ) о виде распределения может быть как статистически верным, так и ошибочным. Но в любом случае восстановленное по выборке эмпирическое распределение лишь грубо характеризует истинное. Важнейшими параметрами распределений являются математическое ожидание и дисперсия .
По своей природе распределения бывают непрерывными и дискретными . Наиболее известным непрерывным распределением является нормальное . Выборочными аналогами параметров идля него являются: среднее значение и эмпирическая дисперсия . Среди дискретных в социально-экономических исследованиях наиболее часто применяется альтернативное (дихотомическое) распределение. Параметр математического ожидания этого распределения выражает относительную величину (или долю ) единиц совокупности, которые обладают изучаемым признаком (она обозначена буквой ); доля совокупности, не обладающая этим признаком, обозначается буквой q (q = 1 — p) . Дисперсия же альтернативного распределения также имеет эмпирический аналог .
В зависимости от вида распределения и от способа отбора единиц совокупности по-разному вычисляются характеристики параметров распределения. Основные из них для теоретического и эмпирического распределений приведены в табл. 1.
Долей выборки k n называется отношение числа единиц выборочной совокупности к числу единиц генеральной совокупности:
k n = n/N .
Выборочная доля w — это отношение единиц, обладающих изучаемым признаком x к объему выборки n :
w = n n /n .
Пример. В партии товара, содержащей 1000 ед., при 5% выборке доля выборки k n в абсолютной величине составляет 50 ед. (n = N*0,05); если же в этой выборке обнаружено 2 бракованных изделия, то выборочная доля брака w составит 0,04 (w = 2/50 = 0,04 или 4%).
Так как выборочная совокупность отлична от генеральной, то возникают ошибки выборки .
Таблица 1. Основные параметры генеральной и выборочной совокупностейОшибки выборки
При любом (сплошном и выборочном) могут встретиться ошибки двух видов: регистрации и репрезентативности. Ошибки регистрации могут иметь случайный и систематический характер. Случайные ошибки складываются из множества различных неконтролируемых причин, носят непреднамеренный характер и обычно по совокупности уравновешивают друг друга (например, изменения показателей прибора при температурных колебаниях в помещении).
Систематические ошибки тенденциозны, так как нарушают правила отбора объектов в выборку (например, отклонения в измерениях при изменении настройки измерительного прибора).
Пример. Для оценки социального положения населения в городе предусмотрено обследовать 25% семей. Если при этом выбор каждой четвертой квартиры основан на ее номере, то существует опасность отобрать все квартиры только одного типа (например, однокомнатные), что обеспечит систематическую ошибку и исказит результаты; выбор же номера квартиры по жребию более предпочтителен, так как ошибка будет случайной.
Ошибки репрезентативности присущи только выборочному наблюдению, их невозможно избежать и они возникают в результате того, что выборочная совокупность не полностью воспроизводит генеральную. Значения показателей, получаемых по выборке, отличаются от показателей этих же величин в генеральной совокупности (или получаемых при сплошном наблюдении).
Ошибка выборочного наблюдения есть разность между значением параметра в генеральной совокупности и ее выборочным значением. Для среднего значения количественного признака она равна: , а для доли (альтернативного признака) — .
Ошибки выборки свойственны только выборочным наблюдениям. Чем больше эти ошибки, тем больше эмпирическое распределение отличается от теоретического. Параметры эмпирического распределения и являются случайными величинами, следовательно, ошибки выборки также являются случайными величинами, могут принимать для разных выборок разные значения и поэтому принято вычислять среднюю ошибку .
Средняя ошибка выборки есть величина , выражающая среднее квадратическое отклонение выборочной средней от математического ожидания. Эта величина при соблюдении принципа случайного отбора зависит прежде всего от объема выборки и от степени варьирования признака: чем больше и чем меньше вариация признака (следовательно, и значение ), тем меньше величина средней ошибки выборки . Соотношение между дисперсиями генеральной и выборочной совокупностей выражается формулой:
т.е. при достаточно больших можно считать, что . Средняя ошибка выборки показывает возможные отклонения параметра выборочной совокупности от параметра генеральной. В табл. 2 приведены выражения для вычисления средней ошибки выборки при разных методах организации наблюдения.
Таблица 2. Средняя ошибка (m) выборочных средней и доли для разных видов выборкиГде - средняя из внутригрупповых выборочных дисперсий для непрерывного признака;
Средняя из внутригрупповых дисперсий доли;
— число отобранных серий, — общее число серий;
,
где — средняя -й серии;
— общая средняя по всей выборочной совокупности для непрерывного признака;
,
где — доля признака в -й серии;
— общая доля признака по всей выборочной совокупности.
Однако о величине средней ошибки можно судить лишь с определенной, вероятностью Р (Р ≤ 1). Ляпунов А.М. доказал, что распределение выборочных средних , a следовательно, и их отклонений от генеральной средней, при достаточно большом числе приближенно подчиняется нормальному закону распределения при условии, что генеральная совокупность обладает конечной средней и ограниченной дисперсией.
Математически это утверждение для средней выражается в виде:
а для доли выражение (1) примет вид:
где - есть предельная ошибка выборки , которая кратна величине средней ошибки выборки , а коэффициент кратности — есть критерий Стьюдента ("коэффициент доверия"), предложенный У.С. Госсетом (псевдоним "Student"); значения для разного объема выборки хранятся в специальной таблице.
Значения функции Ф(t) при некоторых значениях t равны:Следовательно, выражение (3) может быть прочитано так: с вероятностью Р = 0,683 (68,3%) можно утверждать, что разность между выборочной и генеральной средней не превысит одной величины средней ошибки m (t = 1) , с вероятностью Р = 0,954 (95,4%) — что она не превысит величины двух средних ошибок m (t = 2) , с вероятностью Р = 0,997 (99,7%) — не превысит трех значений m (t = 3) . Таким образом, вероятность того, что эта разность превысит трехкратную величину средней ошибки определяет уровень ошибки и составляет не более 0,3% .
В табл. 3 приведены формулы для вычисления предельной ошибки выборки.
Таблица 3. Предельная ошибка (D) выборки для средней и доли (р) для разных видов выборочного наблюденияРаспространение выборочных результатов на генеральную совокупность
Конечной целью выборочного наблюдения является характеристика генеральной совокупности. При малых объемах выборки эмпирические оценки параметров ( и ) могут существенно отклоняться от их истинных значений ( и ). Поэтому возникает необходимость установить границы, в пределах которых для выборочных значений параметров ( и ) лежат истинные значения ( и ).
Доверительным интервалом какого-либо параметра θгенеральной совокупности называется случайная область значений этого параметра, которая с вероятностью близкой к 1 (надежностью ) содержит истинное значение этого параметра.
Предельная ошибка выборки Δ позволяет определить предельные значения характеристик генеральной совокупности и их доверительные интервалы , которые равны:
Нижняя граница доверительного интервала получена путем вычитания предельной ошибки из выборочного среднего (доли), а верхняя — путем ее добавления.
Доверительный интервал для средней использует предельную ошибку выборки и для заданного уровня достоверности определяется по формуле:
Это означает, что с заданной вероятностью Р
, которая называется доверительным уровнем и однозначно определяется значением t
, можно утверждать, что истинное значение средней лежит в пределах от ,а истинное значение доли — в пределах от
При расчете доверительного интервала для трех стандартных доверительных уровней Р = 95%, Р = 99% и Р = 99,9% значение выбирается по . Приложения в зависимости от числа степеней свободы . Если объем выборки достаточно велик, то соответствующие этим вероятностям значения t равны: 1,96, 2,58 и 3,29 . Таким образом, предельная ошибка выборки позволяет определить предельные значения характеристик генеральной совокупности и их доверительные интервалы:
Распространение результатов выборочного наблюдения на генеральную совокупность в социально-экономических исследованиях имеет свои особенности, так как требует полноты представительности всех ее типов и групп. Основой для возможности такого распространения является расчет относительной ошибки :
где Δ % - относительная предельная ошибка выборки; , .
Существуют два основных метода распространения выборочного наблюдения на генеральную совокупность: прямой пересчет и способ коэффициентов .
Сущность прямого пересчета заключается в умножении выборочного среднего значения!!\overline{x} на объем генеральной совокупности .
Пример . Пусть среднее число детей ясельного возраста в городе оценено выборочным методом и составило человека. Если в городе 1000 молодых семей, то число необходимых мест в муниципальных детских яслях получают умножением этой средней на численность генеральной совокупности N = 1000, т.е. составит 1200 мест.
Способ коэффициентов целесообразно использовать в случае, когда выборочное наблюдение проводится с целью уточнения данных сплошного наблюдения.
При этом используют формулу:
где все переменные — это численность совокупности:
Необходимый объем выборки
Таблица 4. Необходимый объем (n) выборки для разных видов организации выборочного наблюденияПри планировании выборочного наблюдения с заранее заданным значением допустимой ошибки выборки необходимо правильно оценить требуемый объем выборки . Этот объем может быть определен на основе допустимой ошибки при выборочном наблюдении исходя из заданной вероятности , гарантирующей допустимую величину уровня ошибки (с учетом способа организации наблюдения). Формулы для определения необходимой численности выборки n легко получить непосредственно из формул предельной ошибки выборки. Так, из выражения для предельной ошибки:
непосредственно определяется объем выборки n :
Эта формула показывает, что с уменьшением предельной ошибки выборки Δ существенно увеличивается требуемый объем выборки , который пропорционален дисперсии и квадрату критерия Стьюдента .
Для конкретного способа организации наблюдения требуемый объем выборки вычисляется согласно формулам, приведенным в табл. 9.4.
Практические примеры расчета
Пример 1. Вычисление среднего значения и доверительного интервала для непрерывного количественного признака.
Для оценки скорости расчета с кредиторами в банке проведена случайная выборка 10 платежных документов. Их значения оказались равными (в днях): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.
Необходимо с вероятностью Р = 0,954 определить предельную ошибку Δ выборочной средней и доверительные пределы среднего времени расчетов.
Решение. Среднее значение вычисляется по формуле из табл. 9.1 для выборочной совокупности
Дисперсия вычисляется по формуле из табл. 9.1.
Средняя квадратическая погрешность дня.
Ошибка средней вычисляется по формуле:
т.е. среднее значение равно x ± m = 12,0 ± 2,3 дней .
Достоверность среднего составила
Предельную ошибку вычислим по формуле из табл. 9.3 для повторного отбора, так как численность генеральной совокупности неизвестна, и для Р = 0,954 уровня достоверности.
Таким образом, среднее значение равно `x ± D = `x ± 2m = 12,0 ± 4,6, т.е. его истинное значение лежит в пределах от 7,4 до16,6 дней.
Использование таблицы Стьюдента. Приложения позволяет заключить, что для n = 10 — 1 = 9 степеней свободы полученное значение достоверно с уровнем значимости a £ 0,001, т.е. полученное значение среднего достоверно отличается от 0.
Пример 2. Оценка вероятности (генеральной доли) р.
При механическом выборочном способе обследования социального положения 1000 семей выявлено, что доля малообеспеченных семей составила w = 0,3 (30%) (выборка была 2% , т.е. n/N = 0,02 ). Необходимо с уровнем достоверности р = 0,997 определить показатель р малообеспеченных семей во всем регионе.
Решение. По представленным значениям функции Ф(t) найдем для заданного уровня достоверности Р = 0,997 значение t = 3 (см. формулу 3). Предельную ошибку доли w определим по формуле из табл. 9.3 для бесповторного отбора (механическая выборка всегда является бесповторной):
Предельная относительная ошибка выборки в % составит:
Вероятность (генеральная доля) малообеспеченных семей в регионе составит р=w±Δ w , а доверительные пределы р вычисляются исходя из двойного неравенства:
w — Δ w ≤ p ≤ w — Δ w , т.е. истинное значение р лежит в пределах:
0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.
Таким образом, с вероятностью 0,997 можно утверждать, что доля малообеспеченных семей среди всех семей региона составляет от 28,6% до 31,4%.
Пример 3. Вычисление среднего значения и доверительного интервала для дискретного признака, заданного интервальным рядом.
В табл. 5. задано распределение заявок на изготовление заказов по срокам их выполнения предприятием.
Таблица 5. Распределение наблюдений по срокам появленияРешение. Средний срок выполнения заявок вычисляется по формуле:
Средний срок составит:
= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 мес.
Тот же ответ получим, если используем данные о р i из предпоследней колонки табл. 9.5, используя формулу:
Заметим, что середина интервала для последней градации находится путем искусственного ее дополнения шириной интервала предыдущей градации равной 60 — 36 = 24 мес.
Дисперсия вычисляется по формуле
где х i - середина интервального ряда.
Следовательно!!\sigma = \frac {20^2 + 14^2 + 1 + 25^2 + 49^2}{4}, а средняя квадратическая погрешность .
Ошибка средней вычисляется по формуле мес., т.е. среднее значение равно!!\overline{x} ± m = 23,1 ± 13,4.
Предельную ошибку вычислим по формуле из табл. 9.3 для повторного отбора, так как численность генеральной совокупности неизвестна, для 0,954 уровня достоверности:
Таким образом, среднее значение равно:
т.е. его истинное значение лежит в пределах от 0 до 50 мес.
Пример 4. Для определения скорости расчетов с кредиторами N = 500 предприятий корпорации в коммерческом банке необходимо провести выборочное исследование методом случайного бесповторного отбора. Определить необходимый объем выборки n, чтобы с вероятностью Р = 0,954 ошибка среднего значения выборки не превышала 3-х дней, если пробные оценки показали, что среднее квадратическое отклонение s составило 10 дней.
Решение . Для определения числа необходимых исследований n воспользуемся формулой для бесповторного отбора из табл. 9.4:
В ней значение t определяется из для уровня достоверности Р = 0,954. Оно равно 2. Среднее квадратическое значение s = 10, объем генеральной совокупности N = 500, а предельная ошибка среднего значения Δ x = 3. Подставляя эти значения в формулу, получим:
т.е. выборку достаточно составить из 41 предприятия, чтобы оценить требуемый параметр — скорость расчетов с кредиторами.
В результате изучения материала главы 2 обучающийся должен:
знать
- основные понятия генеральной и выборочной совокупностей;
- методы оценивания, виды и свойства оценок параметров генеральной совокупности;
- основные методы статистической проверки гипотез относительно параметров одномерной и многомерной генеральных совокупностей;
уметь
- находить по выборочным данным оценки параметров одномерной и многомерной генеральных совокупностей;
- анализировать свойства параметров;
- проверять гипотезы относительно параметров и вида распределения генеральной совокупности;
- сравнивать параметры нескольких генеральных совокупностей;
владеть
- навыками статистического оценивания параметров одномерной и многомерной генеральных совокупностей;
- навыками проверки гипотез относительно параметров и вида распределения генеральной совокупности при проведении социально-экономических исследований с использованием аналитического программного обеспечения.
Распределение генеральной совокупности
Вероятностно-статистические методы анализа данных предполагают, что закономерности, которым подчиняется исследуемая переменная (случайная величина), полностью определяются комплексом условий ее наблюдения. Математически эти закономерности задаются соответствующим законом распределения вероятностей. Однако при проведении статистических исследований более удобным является понятие генеральной совокупности.
Таким образом, математические понятия "генеральная совокупность", "случайная величина" и "закон распределения вероятностей", соответствующие данному комплексу условий, можно считать в определенном смысле синонимами.
Генеральной совокупностью называют множество всех мыслимых наблюдений, которые могли бы быть произведены при данном комплексе условий .
Поскольку в определении речь идет о мысленно возможных наблюдениях (или объектах), то генеральная совокупность есть понятие абстрактное, и ее не следует смешивать с реальными совокупностями, подлежащими статистическому исследованию. Так, обследовав даже все предприятия подотрасли, мы можем рассматривать их как представителей гипотетически возможной более широкой совокупности предприятий, которые могли бы функционировать в рамках комплекса условий.
Генеральная совокупность может быть как конечной, так и бесконечной. Конечная совокупность имеет место, например, при обследовании семейных бюджетов, когда выборка берется из совокупности семей, фактически имеющихся в стране. Затем осуществляются наблюдения за доходами и расходами отобранных семей. Бесконечная генеральная совокупность наблюдается, например, в научных исследованиях, когда нас интересует средний результат большого числа экспериментов.
В простейшем случае генеральная совокупность есть одномерная случайная величина х с функцией распределения, которая определяет вероятность того, что х примет значение, меньшее фиксированного действительного числа.
В общем случае изучаются генеральные совокупности, включающие несколько признаков (обычно более двух). Рассматриваемое множество признаков обозначается вектором, имеющим k компонент, каждая из которых характеризует соответствующий признак. Для анализа вектора X используются многомерные статистические методы .
Таким образом, объектом исследования в многомерном анализе является случайный вектор X, или случайная точка в ft-мерном евклидовом пространстве, система к случайных (одномерных) величин, ft-мерная случайная величина
Функцией распределения случайного вектора называется детерминированная неотрицательная величина, определяемая по формуле
где-мерный вектор фиксированных действительных чисел.
Детерминированная неотрицательная величина F(X)
Различают:
- непрерывные k -мерные случайные величины, все компоненты которых – непрерывные (одномерные) случайные величины;
- дискретные k -мерные случайные величины, все компоненты которых – дискретные случайные величины;
- смешанные k -мерные случайные величины, среди компонент которых есть как дискретные, так и непрерывные случайные величины.
Функция распределения F(X) для непрерывной k -мерной случайной величины является непрерывной по определению.
Плотность распределения вероятностей непрерывной k -мерной случайной величины удовлетворяет условию
Плотность f(X) обладает следующими свойствами:
Площадь, ограниченная сверху графиком плотности, всегда равна единице:
где через k обозначено общее число (кратность) интегралов;
Вероятность попадания точки () в какую-нибудь область G равна
Из определения плотности следует, что если проинтегрировать совместную плотность распределения двух величин х 1, х 2 по одной, например в бесконечных пределах, то получим плотность распределения вероятностей другой величины:
Аналогично имеем
Плотности вероятностей, функции распределения подсистем, случайных величин системы к случайных величин называют частными или маргинальными распределениями .
Условными распределениями случайного вектора X называются распределения подсистемы, его компонент при условии, что остальные компоненты являются фиксированными. Эти компоненты будут отделяться от нефиксируемых косой чертой.
Для непрерывной случайной величины справедливы, например, формулы, определяющие плотность условного распределения двумерной случайной величины (), являющейся подсистемой системы () при условии, что в ней фиксированы три последние компоненты:
Подсистема, компонент и дополнительная подсистема компонент вектора X называются независимыми (стохастически, вероятностно), если справедливо равенство
В частности, компоненты вектора X называются независимыми , если
В случае независимости справедливы аналогичные формулы для произведений плотностей или вероятностей маргинальных распределений и совпадение условных распределений с соответствующими маргинальными (23].
Итак, закономерности, которым подчиняется исследуемая случайная величина, физически полностью обусловливаются реальным комплексом условий ее наблюдения (или эксперимента), а математически задаются соответствующим вероятностным пространством или, что то же, соответствующим законом распределения вероятностей. Однако при проведении статистических исследований несколько более удобной оказывается другая терминология, связанная с понятием генеральной совокупности.
Генеральной совокупностью называют совокупность всех мыслимых наблюдений (или всех мысленно возможных объектов интересующего нас типа, с которых «снимаются» наблюдения), которые могли бы быть произведены при данном реальном комплексе условий. Поскольку в определении речь идет о всех мысленно возможных наблюдениях (или объектах), то понятие генеральной совокупности есть понятие условно-математическое, абстрактное и его не следует смешивать с реальными совокупностями, подлежащими статистическому исследованию. Так, обследовав даже все предприятия подотрасли с точки зрения регистрации значений характеризующих их технико-экономических показателей, мы можем рассматривать обследованную совокупность лишь как представителя гипотетически возможной более широкой совокупности предприятий, которые могли бы функционировать в рамках того же самого реального комплекса условий
В практической работе удобнее выбор связывать с объектами наблюдения, чем с характеристиками этих объектов. Мы отбираем для изучения машины, геологические пробы, людей, но не значения характеристик машин, проб, людей. С другой стороны, в математической теории объекты и совокупность их характеристик не различаются и двойственность введенного определения исчезает.
Как видим, математическое понятие «генеральная совокупность» физически полностью обусловливается, так же как и понятия «вероятностное пространство», «случайная величина» и «закон распределения вероятностей», соответствующим реальным комплексом условий, а потому все эти четыре математических понятия можно считать в определенном смысле синонимами. Генеральная совокупность называется конечной или бесконечной в зависимости от того, конечна или бесконечна совокупность всех мыслимых наблюдений.
Из определения следует, что непрерывные генеральные совокупности (состоящие из наблюдений признаков непрерывной природы) всегда бесконечны. Дискретные же генеральные совокупности могут быть как бесконечными, так и конечными. Скажем, если анализируется партия из N изделий на сортность (см. пример в п. 4.1.3), когда каждое изделие может быть отнесено к одному из четырех сортов, исследуемой случайной величиной является номер сорта случайно извлеченного из партии изделия, а множество возможных значений случайной величины состоит соответственно из четырех точек (1, 2, 3 и 4) то, очевидно, генеральная совокупность будет конечной (всего N мыслимых наблюдений).
Понятие бесконечной генеральной совокупности есть математическая абстракция, как и представление о том, что измерение случайной величины можно повторить бесконечное число раз. Приближенно бесконечную генеральную совокупность можно истолковывать как предельный случай конечной, когда число объектов, порождаемых данным реальным комплексом условий, неограниченно возрастает. Так, если в только что приведенном примере вместо партий изделий рассматривать непрерывное массовое производство тех же изделий, то мы и придем к понятию бесконечной генеральной совокупности. Практически же такое видоизменение равносильно требованию
Выборка из данной генеральной совокупности - это результаты ограниченного ряда наблюдений случайной величины . Выборку можно рассматривать как некий эмпирический аналог генеральной совокупности, то, с чем мы чаще всего на практике имеем дело, поскольку обследование всей генеральной совокупности бывает либо слишком трудоемко (в случае больших N), либо принципиально невозможно (в случае бесконечных генеральных совокупностей).
Число наблюдений, образующих выборку, называют объемом выборки.
Если объем выборки велик и при этом мы имеем дело с одномерной непрерывной величиной (или с одномерной дискретной, число возможных значений которой достаточно велико, скажем больше 10), то часто удобнее, с точки зрения упрощения дальнейшей статистической обработки результатов наблюдений, перейти к так называемым «группированным» выборочным данным. Этот переход осуществляется обычно следующим образом:
а) отмечаются наименьшее и наибольшее значения в выборке;
б) весь обследованный диапазон разбивается на определенное число 5 равных интервалов группирования; при этом количество интервалов s не должно быть меньше 8-10 и больше 20-25: выбор количества интервалов существенно зависит от объема выборки для примерной ориентации в выборе 5 можно пользоваться приближенной формулой
которую следует воспринимать скорее как оценку снизу для s (особенно при больших
в) отмечаются крайние точки каждого из интервалов в порядке возрастания, а также их середины
г) подсчитываются числа выборочных данных, попавших в каждый из интервалов: (очевидно, ); выборочные данные, попавшие на границы интервалов, либо равномерно распределяются по двум соседним интервалам, либо условливаются относить их только к какому-либо одному из них, например к левому.
В зависимости от конкретного содержания задачи в данную схему группирования могут быть внесены некоторые видоизменения (например, в некоторых случаях целесообразно отказаться от требования равной длины интервалов группирования).
Во всех дальнейших рассуждениях, использующих выборочные данные, будем исходить из только что описанной системы обозначений.
Напомним, что сущность статистических методов состоит в том, чтобы по некоторой части генеральной совокупности (т.е. по выборке) выносить суждения о ее свойствах в целом.
Один из важнейших вопросов, от успешного решения которого зависит достоверность получаемых в результате статистической обработки данных выводов, является вопрос репрезентативности выборки, т.е. вопрос полноты и адекватности представления ею интересующих нас свойств анализируемой генеральной совокупности. В практической работе одна и та же группа объектов, взятых для изучения, может рассматриваться как выборка из разных генеральных совокупностей. Так, группу семей, наудачу отобранных из кооперативных домов одной из жилищноэксплуатационных контор (ЖЭК) одного из районов города для подробного социологического обследования, можно рассматривать и как выборку из генеральной совокупности семей (с кооперативной формой жилья) данной ЖЭК, и как выборку из генеральной совокупности семей данного района, и как выборку из генеральной совокупности всех семей города, и, наконец, как выборку из генеральной совокупности всех семей города, проживающих в кооперативных домах. Содержательная интерпретация результатов апробации существенно зависит от того, представителем какой генеральной совокупности мы рассматриваем отобранную группу семей, для какой генеральной совокупности эту выборку можно считать представительной (репрезентативной). Ответ на этот вопрос зависит от многих факторов. В приведенном выше примере, в частности, от наличия или отсутствия специального (быть может, скрытого) фактора, определяющего принадлежность семьи к данной ЖЭК или району в целом (таким фактором может быть, например, среднедушевой доход семьи, географическое расположение района в городе, «возраст» района и т. п.).
Понятие репрезентативности. Концептуальный объект и генеральная совокупность. Проектируемый объект. Проектируемая и реальная генеральная совокупности.
Мы знаем, что социологическая наука имеет дело не с текучей непосредственностью жизни, а с данными, организованными по определенным правилам в пространстве признаков. Под данными имеются в виду значения переменных, приписанные единицам исследования - объектам. Эти объекты - сообщества, институции, люди, тексты, вещи - образуют в пространстве признаков многообразные и нередко причудливые конфигурации, давая исследователю возможность высказывать обобщающие суждения о действительности.
Как только речь заходит о действительности, обнаруживается, что полученные данные относятся, строго говоря, только к регистрационным документам (анкетам, бланкам интервью, протоколам наблюдения и т. п.). Нет никаких гарантий, что действительность за окнами лаборатории (скажем, по ту сторону шкал) не окажется иной. До выборочной процедуры мы еще не дошли, но уже встает вопрос о репрезентативности данных: можно ли распространить сведения, полученные в процессе обследования, на объекты, находящиеся за пределами нашего конкретного опыта? Ответ однозначен: можно. В противном случае наши наблюдения не выходили бы за рамки «здесьи-теперь-совокупности». Они относились бы не к москвичам, а к тем, кто только что был опрошен по телефону в Москве; не к читателям газеты «Неделя», а к тем, кто прислал в редакцию по почте заполненный отрывной купон. После завершения опроса мы обязаны считать, что и «москвичи», и «читатели» остались прежними. Мы верим в стабильность мира потому, что научные наблюдения обнаруживают удивительное постоянство.
Любое единичное наблюдение распространяется на более широкую сферу наблюдений, и проблема репрезентации заключается в том, чтобы установить степень соответствия между параметрами обследованной совокупности и «реальными» характеристиками объекта. Выборочная процедура предназначена как раз для того, чтобы реконструировать реальный объект исследования и генеральную совокупность из отдельных моментных наблюдений.
Понятие выборочной репрезентативности близко понятию внешней валидности; только в первом случае производится экстраполяция одной и той же характеристики на более широкую совокупность единиц, а во втором - переход из одного смыслового контекста в другой. Выборочная процедура осуществляется каждым человеком тысячу раз на дню, при этом никто особенно не задумывается над репрезентативностью наблюдений. Опыт заменяет калькуляцию. Чтобы узнать, хорошо ли посолена каша, вовсе не обязательно съедать всю кастрюлю - здесь более эффективны методы неразрушающего контроля, в том числе выборочная проверка: нужно попробовать одну ложечку. При этом надо быть уверенным, что каша хорошо перемешана. Если каша перемешана плохо, имеет смысл провести не один замер, а серию, т. е. попробовать в разных местах кастрюли - это уже выборка. Сложнее убедиться в том, что ответ студента на экзамене репрезентирует его знания, а не является случайной удачей либо неудачей. Для этого и задаются несколько вопросов. Предполагается, что, если бы студент ответил на все возможные вопросы по предмету, результат был бы «истинный», т. е. отражал реальные знания. Но тогда никто не смог бы выдержать экзамен.
В основании выборочной процедуры всегда лежит «если бы» - предположение о том, что экстраполяция наблюдений существенноне изменит полученный результат. Поэтому генеральную совокупность можно определить как «объективную возможность» выборочной совокупности.
Проблема несколько усложняется, если разобраться в том, что имеется в виду под объектом исследования. Изучив достаточно многочисленную совокупность людей, социолог приходит к выводу, что переменная «радикализм-консерватизм» положительно коррелирует с возрастом: в частности, старшие поколения обнаруживают скорее консервативность, чем революционность. Но обследованный объект - выборочная совокупность - не существует в реальности как таковой. Он сконструирован процедурой отбора респондентов и проведения интервью, а затем сразу же исчезает, растворяется в массиве. Действительно, выборочная совокупность, с которой непосредственно «снимаются» данные, порождается процедурой, но в то же время она растворена в большой совокупности, которую представляет или репрезентирует с разной степенью точности и надежности. Социологические заключения относятся не к обследованным на прошлой неделе респондентам, а к идеализированным объектам: «старшим поколениям», «молодежи», тем, кто обнаруживает «радикализм» или «консерватизм». Речь идет о категориальных обобщениях, не ограниченных пространственно-временными обстоятельствами. В этом отношении выборочная процедура помогает освободиться от наблюдений и перейти в мир идей.
Таким образом, у нас есть возможность провести разграничение объекта исследования и генеральной совокупности: объект - не просто совокупность единиц, а понятие, в соответствии с которым осуществляется идентификация и отбор единиц исследования. В этом отношении справедливо гегелевское предписание считать истинным только то бытие, которое соответствует своему понятию. Теоретически объем понятия, обозначающего объект исследования, должен соответствовать объему генеральной совокупности. Однако такое соответствие достигается крайне редко.
Нам понадобится понятие концептуального объекта - идеального конструкта, обозначающего рамки темы. «Россияне», «аудитория центральных газет», «электорат», «демократическая общественность» - таковы типичные объекты исследовательского интереса социологов. Несомненно, концептуальному объекту должна соответствовать вполне реальная генеральная совокупность. Для этого необходимо предусмотреть еще один объект исследования - проектируемый объект. Проектируемый объект - это совокупность доступных исследователю единиц. Задача состоит в том, чтобы установить группы, являющиеся недоступными либо труднодоступными для сбора данных.
Очевидно, что обследовать объект, обозначаемый как «россияне», практически невозможно. Среди россиян немало людей находится в тюрьмах, исправительно-трудовых учреждениях, в следственных изоляторах и иных труднодоступных для интервьюера местах. Эту группу придется «вычесть» из проектируемого объекта. «Вычесть» придется и многих пациентов психиатрических больниц, детей, часть престарелых. Вряд ли гражданскому социологу удастся обеспечить нормальные шансы на попадание в выборку и военнослужащим. Аналогичные проблемы сопровождают обследование читателей, избирателей, жителей малых городов, посетителей театров.
Перечисленные затруднения - лишь малая часть тех, зачастую непреодолимых препятствий, с которыми сталкивается социолог на полевой стадии исследования. Специалист должен предвидеть эти затруднения и не строить иллюзий по поводу полной реализации проектируемого объекта. В противном случае его ждут разочарования.
Итак, объект исследования не совпадает с генеральной совокупностью примерно так же, как карта местности не совпадает с самой местностью.
Долго думали-гадали, Генералы все писали на большом листу. Было гладко на бумаге, да забыли про овраги, А по ним ходить, -
эти слова из старинной солдатской песни вполне применимы к проектированию выборки, если учесть, что ходить придется по квартирам.
Несомненно, генеральная совокупность - это та совокупность, из которой производится выборка единиц. Однако так только кажется. Выборка производится из той совокупности, из которой производится фактический отбор респондентов. Назовем ее реальной. Различия между проектируемой и реальной совокупностями можно увидеть воочию, сравнив списки «проектированных» респондентов и опрошенных фактически.
Реальный объект - та совокупность, которая сформировалась на стадии полевого исследования с учетом ограничений в доступности первичной социологической информации. Помимо заключенных, военнослужащих и больных, меньшую вероятность попасть в выборку имеют жители удаленных от транспортных коммуникаций сел, особенно если обследование производится осенью; те, кого, как правило, нет дома, не склонны к разговорам с посторонними людьми и т. п. Бывает, что интервьюеры, пользуясь отсутствием контроля, пренебрегают точным исполнением своих обязанностей и опрашивают не тех, кого положено опрашивать по инструкции, а тех, кого легче «достать». Например, посещать квартиры респондентов интервьюерам приказано по вечерам, когда легче застать их дома. Если исследование проводится, предположим, в ноябре, то уже в пять часов вечера в средней полосе России на улице совершенно темно. Во многих городах таблички с названиями улиц и номерами домов встречаются не часто. Если обязанности интервьюеров выполняют студентки местного пединститута, можно представить степень отклонения реального объекта от проектируемого. Иногда исследователи поступают еще проще: заполняют анкеты сами. Эти затруднения являются одним из источников так называемых систематических ошибок выборки.
Существуют достаточно эффективные способы контроля заполнения вопросников и приемы ремонта выборки, в частности «взвешивание» основных типологических групп респондентов: группы тех, кого не хватает, увеличиваются, а избыточные группы уменьшаются. Так реальный массив подгоняется под проектируемый и это вполне оправданно.