Генеральна та вибіркова сукупності. Поняття репрезентативності Вибірковою сукупністю називається
Генеральна сукупність - безліч тих людей, відомості про які прагне отримати соціолог у своєму дослідженні. Залежно від того, наскільки широкою буде тема дослідження, настільки широка буде генеральна сукупність.
Вибіркова сукупність - Зменшена модель генеральної сукупності; ті, кому соціолог роздає анкети, кого називають респондентами, хто, нарешті, є об'єктом соціологічного дослідження.
Кого саме відносити до генеральної сукупності, визначають цілі дослідження, а кого включати у вибіркову сукупність вирішують математичні методи. Якщо соціолог має намір подивитись афганську війну очима її учасників, у генеральну сукупність увійдуть усі воїни-афганці, але опитувати йому доведеться невелику частину – вибіркову сукупність. Щоб вибірка точно відображала генеральну сукупність, соціолог дотримується правила: будь-який воїн-афганець, незалежно від місця проживання, місця роботи, стану здоров'я та інших обставин, повинен мати однакову ймовірність потрапити у вибіркову сукупність.
Як тільки соціолог визначився з тим, кого хоче опитати, він визначив основу вибірки. Після цього вирішується питання про тип вибірки.
Вибірки поділяються на три великі класи:
а) суцільні(Переписи, референдуми). Опитуються всі одиниці із генеральної сукупності;
б) випадкові;
в) невипадкові.
Випадковий і невипадковий типи вибірки своєю чергою поділяються кілька видів.
До випадкових відносять:
1) імовірнісні;
2) систематичну;
3) районовану (стратифіковану);
4) гніздову.
До невипадкових відносять:
1) "стихійну";
2) квотну;
3) метод "основного масиву".
Повний та точний перелік одиниць вибіркової сукупності утворює основу вибірки . Елементи, призначені для відбору, називаються одиницями відбору . Одиниці відбору можуть збігатися з одиницями спостереження, оскільки одиницею спостереження вважається елемент генеральної сукупності, з якого безпосередньо ведеться збирання інформації. Зазвичай одиниця спостереження – це окрема людина. Відбір зі списку найкраще проводити, нумеруючи одиниці та використовуючи таблицю випадкових чисел, хоча часто використовується квазі-випадковий метод, коли з переліку простого береться кожен n-й елемент.
Якщо основа вибірки включає список одиниць відбору, то структура вибірки передбачає їхнє групування за якимись важливими ознаками, наприклад, розподіл індивідів за професією, кваліфікацією, статтю або віком. Якщо в генеральній сукупності, наприклад, 30% молоді, 50% людей середнього віку і 20% літніх, то і у вибірковій сукупності повинні дотримуватися ті самі відсоткові пропорції трьох віків. До віків можуть додатись класи, стать, національність тощо. Для кожної встановлюються відсоткові пропорції у генеральній та вибірковій сукупності. Таким чином, структура вибірки - Відсоткові пропорції ознак об'єкта, на підставі яких складається вибіркова сукупність.
Якщо тип вибірки говорить про те, як потрапляють люди у вибіркову сукупність, то обсяг вибірки повідомляє про те, яка їхня кількість потрапила сюди.
Обсяг вибірки - Кількість одиниць вибіркової сукупності. Оскільки вибіркова сукупність – це частина генеральної сукупності, відібраної за допомогою спеціальних методів, її обсяг завжди менший за обсяг генеральної. Тому так важливо, щоб частина не спотворювала уявлення про ціле, тобто репрезентувала його.
На достовірність даних впливають не кількісні показники вибіркової сукупності (її обсяг), а якісні показники генеральної системи – ступінь її однорідності. Розбіжність між генеральною та вибірковою сукупністю називається помилкою репрезентативності , Припустиме відхилення - 5%.
Ось деякі способи уникнути помилки:
кожна одиниця генеральної сукупності повинна мати рівну можливість потрапити у вибірку;
відбір бажано проводити із однорідних сукупностей;
треба знати показники генеральної сукупності;
при складанні вибіркової сукупності треба враховувати випадкові та систематичні помилки.
Якщо вибіркову сукупність (вибірка) складено правильно, то соціолог отримує надійні результати, що характеризують всю генеральну сукупність.
Які ж основні методи вибірки?
Метод механічної вибірки, коли із загального списку генеральної сукупності через рівні проміжки відбирається необхідну кількість респондентів (наприклад, кожен 10-й).
Метод серійної вибірки. При цьому генеральна сукупність розбивається на однорідні частини та з кожної пропорційно відбираються одиниці аналізу (наприклад, по 20% чоловіків та жінок на підприємстві).
Метод гніздової вибірки. Як одиниці відбору виступають не окремі респонденти, а групи з наступним суцільним дослідженням у них. Ця вибірка буде представницькою, якщо склад груп схожий (наприклад, по одній групі студентів з кожного потоку якогось факультету вузу).
Метод основного масиву- Опитування 60-70% генеральної сукупності.
Метод квотної вибірки. Найбільш складний метод, що вимагає визначення не менш як чотирьох ознак, за якими проводиться відбір респондентів. Застосовується зазвичай за великої генеральної сукупності.
Статистична сукупність- безліч одиниць, що мають масовість, типовість, якісну однорідність і наявність варіації.
Статистична сукупність складається з матеріально існуючих об'єктів (працівники, підприємства, країни, регіони), є об'єктом .
Одиниця сукупності- Кожна конкретна одиниця статистичної сукупності.
Одна і та ж статистична сукупність може бути однорідною за однією ознакою і неоднорідною за іншою.
Якісна однорідність- подібність всіх одиниць сукупності за якоюсь ознакою і несхожість по всіх інших.
У статистичній сукупності відмінності однієї одиниці сукупності з іншого частіше мають кількісну природу. Кількісні зміни значень ознаки різних одиниць сукупності називаються варіацією.
Варіація ознаки- Кількісне зміна ознаки (для кількісної ознаки) при переході від однієї одиниці сукупності до іншої.
Ознака- це властивість, характерна риса або інша особливість одиниць, об'єктів та явищ, яка може бути спостерігається або виміряна. Ознаки поділяються на кількісні та якісні. Різноманітність та мінливість величини ознаки в окремих одиниць сукупності називається варіацією.
Атрибутивні (якісні) ознаки не піддаються числовому виразу (склад населення за статтю). Кількісні ознаки мають числове вираження (склад населення віком).
Показник- це узагальнююча кількісно якісна характеристика будь-якої властивості одиниць або сукупності загалом у конкретних умовах часу та місця.
Система показників- Це сукупність показників всебічно відображають явище, що вивчається.
Наприклад, вивчається зарплата:- Ознака - оплата праці
- Статистична сукупність – усі працівники
- Одиниця сукупності – кожен працівник
- Якісна однорідність - нарахована зарплата
- Варіація ознаки – ряд цифр
Генеральна сукупність та вибірка з неї
Основу становить безліч даних, отриманих у результаті виміру однієї чи кількох ознак. Реально спостерігається сукупність об'єктів, статистично представлена рядом спостережень випадкової величини вибіркою, А гіпотетично існуюча (що домислюється) - генеральною сукупністю. Генеральна сукупність може бути кінцевою (кількість спостережень N = const) або нескінченною ( N = ∞), а вибірка з генеральної сукупності - це завжди результат обмеженого ряду спостережень. Число спостережень, що утворюють вибірку, називається обсягом вибірки. Якщо обсяг вибірки досить великий ( n → ∞) вибірка вважається великий, інакше вона називається вибіркою обмеженого обсягу. Вибірка вважається малоїякщо при вимірюванні одновимірної випадкової величини обсяг вибірки не перевищує 30 ( n<= 30 ), а при вимірі одночасно декількох ( k) ознак у багатовимірному просторі відношення nдо kне перевищує 10 (n/k< 10) . Вибірка утворює варіаційний ряд, якщо її члени є порядковими статистиками, Т. е. вибіркові значення випадкової величини Хупорядковані за зростанням (ранжовані), значення ж ознаки називаються варіантами.
приклад. Практично одна й та сама випадково відібрана сукупність об'єктів - комерційних банків одного адміністративного округу Москви, може розглядатися як вибірка з генеральної сукупності всіх комерційних банків цього округу, і як вибірка з генеральної сукупності всіх комерційних банків Москви, а також як вибірка з комерційних банків країни та і т.д.
Основні способи організації вибірки
Достовірність статистичних висновків та змістовна інтерпретація результатів залежить від репрезентативностівибірки, тобто. повноти та адекватності уявлення властивостей генеральної сукупності, стосовно якої цю вибірку вважатимуться представницької. Вивчення статистичних властивостей сукупності можна організувати двома способами: за допомогою суцільногоі несплошного. Суцільне спостереженняпередбачає обстеження всіх одиницьвивчається сукупності, а несуцільне (вибіркове) спостереження- Тільки його частини.
Існують п'ять основних способів організації вибіркового спостереження:
1. простий випадковий відбір, при якому об'єкти випадково вилучаються з генеральної сукупності об'єктів (наприклад, за допомогою таблиці або датчика випадкових чисел), причому кожна з можливих вибірок мають рівну ймовірність. Такі вибірки називаються власне-випадковими;
2. простий відбір за допомогою регулярної процедуриздійснюється за допомогою механічної складової (наприклад, дати, дня тижня, номера квартири, літери алфавіту та ін.) та отримані таким способом вибірки називаються механічними;
3. стратифікованийВідбір полягає в тому, що генеральна сукупність обсягу підрозділяється на підсукупність або шари (страти) обсягу так що . Страти є однорідними об'єктами з погляду статистичних характеристик (наприклад, населення ділиться на страти по віковим групам чи соціальної власності; підприємства — по галузях). У цьому випадку вибірки називаються стратифікованим(інакше, розшарованими, типовими, районованими);
4. методи серійноговідбору використовуються для формування серійнихабо гніздових вибірок. Вони зручні у разі, якщо необхідно обстежити відразу " блок " чи серію об'єктів (наприклад, партію товару, продукцію певної серії чи населення при територіально-адміністративному розподілі країни). Відбір серій можна здійснити власно-випадковим чи механічним способом. При цьому проводиться суцільне обстеження певної партії товару або цілої територіальної одиниці (житлового будинку чи кварталу);
5. комбінований(ступінчастий) відбір може поєднувати в собі відразу кілька способів відбору (наприклад, стратифікований та випадковий або випадковий та механічний); така вибірка називається комбінованої.
Види відбору
за видурозрізняються індивідуальний, груповий та комбінований відбір. При індивідуальному відборіу вибіркову сукупність відбираються окремі одиниці генеральної сукупності, груповий відбір- якісно однорідні групи (серії) одиниць, а комбінований відбірпередбачає поєднання першого та другого видів.
за методомвідбору розрізняють повторну та безповторнувибірку.
Безповторнимназивається відбір, у якому що потрапила вибірку одиниця не повертається у вихідну сукупність й у подальшому виборі бере участь; при цьому чисельність одиниць генеральної сукупності Nскорочується у процесі відбору. При повторномувідборі потрапилау вибірку одиниця після реєстрації повертається в генеральну сукупність і таким чином зберігає рівну можливість поряд з іншими одиницями використовуватися в подальшій процедурі відбору; при цьому чисельність одиниць генеральної сукупності Nзалишається незмінною (метод у соціально-економічних дослідженнях застосовується рідко). Однак, за великого N (N → ∞)формули для безповторноговідбору наближаються до аналогічних для повторноговідбору та практично частіше використовуються останні ( N = const).
Основні характеристики параметрів генеральної та вибіркової сукупності
В основі статистичних висновків проведеного дослідження лежить розподіл випадкової величини (х 1, х 2, …, х n)називаються реалізаціями випадкової величини Х(n - Обсяг вибірки). Розподіл випадкової величини в генеральній сукупності має теоретичний, ідеальний характер, а її вибірковий аналог є емпіричнимрозподілом. Деякі теоретичні розподіли задані аналітично, тобто. їх параметривизначають значення функції розподілу у кожній точці простору можливих значень випадкової величини. Для вибірки функцію розподілу визначити важко, а іноді неможливо, тому параметриоцінюють за емпіричними даними, а потім їх підставляють в аналітичний вираз, що описує теоретичний розподіл. При цьому припущення (або гіпотеза) Про вид розподілу може бути як статистично вірним, так і хибним. Але в будь-якому випадку відновлений за вибіркою емпіричний розподіл лише грубо характеризує справжнє. Найважливішими параметрами розподілу є математичне очікуваннята дисперсія.
За своєю природою розподілу бувають безперервнимиі дискретними. Найбільш відомим безперервним розподілом є нормальне. Вибірковими аналогами параметрів і для нього є: середнє значення та емпірична дисперсія. Серед дискретних у соціально-економічних дослідженнях найчастіше застосовується альтернативне (дихотомічне)Розподіл. Параметр математичного очікування цього розподілу виражає відносну величину (чи частку) одиниць сукупності, які мають досліджувану ознаку (вона позначена буквою ); частка сукупності, що не має цієї ознаки, позначається буквою q (q = 1 - p). Дисперсія альтернативного розподілу також має емпіричний аналог .
Залежно від виду розподілу та від способу відбору одиниць сукупності по-різному обчислюються характеристики параметрів розподілу. Основні з них для теоретичного та емпіричного розподілів наведені у табл. 1.
Часткою вибірки k nназивається відношення числа одиниць вибіркової сукупності до одиниць генеральної сукупності:
k n = n/N.
Вибіркова частка w- Це відношення одиниць, що володіють ознакою, що вивчається xдо обсягу вибірки n:
w = n n /n.
приклад.У партії товару, що містить 1000 од., при 5% вибірці частка вибірки k nв абсолютній величині складає 50 од. (n = N * 0,05); якщо ж у цій вибірці виявлено 2 браковані вироби, то вибіркова частка шлюбу wстановитиме 0,04 (w = 2/50 = 0,04 або 4%).
Так як вибіркова сукупність відмінна від генеральної, то виникають помилки вибірки.
Таблиця 1. Основні параметри генеральної та вибіркової сукупностейПомилки вибірки
При будь-якому (суцільному та вибірковому) можуть зустрітися помилки двох видів: реєстрації та репрезентативності. Помилки реєстраціїможуть мати випадковийі систематичнийхарактер. Випадковіпомилки складаються з безлічі різних неконтрольованих причин, носять ненавмисний характер і зазвичай за сукупністю врівноважують один одного (наприклад, зміни показників приладу при температурних коливаннях у приміщенні).
Систематичніпомилки тенденційні, тому що порушують правила відбору об'єктів у вибірку (наприклад, відхилення у вимірах при зміні налаштування вимірювального приладу).
приклад.Для оцінки соціального становища населення місті передбачено обстежити 25% сімей. Якщо при цьому вибір кожної четвертої квартири ґрунтується на її номері, то існує небезпека відібрати всі квартири лише одного типу (наприклад, однокімнатні), що забезпечить систематичну помилку та спотворить результати; вибір же номера квартири за жеребом кращий, оскільки помилка буде випадковою.
Помилки репрезентативностіпритаманні лише вибірковому спостереженню, їх неможливо уникнути і вони виникають внаслідок того, що вибіркова сукупність в повному обсязі відтворює генеральну. Значення показників, одержуваних за вибіркою, відрізняються від показників цих самих величин у генеральній сукупності (або одержуваних при суцільному спостереженні).
Помилка вибіркового спостереженняє різниця між значенням параметра в генеральній сукупності та її вибірковим значенням. Для середнього значення кількісної ознаки вона дорівнює: , а частки (альтернативного ознаки) — .
Помилки вибірки властиві лише вибірковим спостереженням. Чим більше ці помилки, тим більше емпіричний розподіл відрізняється від теоретичного. Параметри емпіричного розподілу і є випадковими величинами, отже, помилки вибірки також є випадковими величинами, можуть приймати різні вибірки різні значення і тому прийнято обчислювати середню помилку.
Середня помилка вибіркиє величина, що виражає середнє квадратичне відхилення вибіркової середньої від математичного очікування. Ця величина за дотримання принципу випадкового відбору залежить передусім від обсягу вибірки і зажадав від ступеня варіювання ознаки: що більше і менше варіація ознаки (отже, і значення ), тим менше величина середньої помилки вибірки . Співвідношення між дисперсіями генеральної та вибіркової сукупностей виражається формулою:
тобто. при досить великих вважатимуться, що . Середня помилка вибірки показує можливі відхилення параметра вибіркової сукупності від генерального параметра. У табл. 2 наведено вирази для обчислення середньої помилки вибірки за різних методів організації спостереження.
Таблиця 2. Середня помилка (m) вибіркових середньої та частки для різних видів вибіркиДе - середня із внутрішньогрупових вибіркових дисперсій для безперервної ознаки;
Середня із внутрішньогрупових дисперсій частки;
- Кількість відібраних серій, - Загальна кількість серій;
,
де - Середня серії;
- загальна середня по всій вибірковій сукупності для безперервної ознаки;
,
де - частка ознаки в серії;
- Загальна частка ознаки по всій вибірковій сукупності.
Однак про величину середньої помилки можна судити лише з певною ймовірністю Р (Р ≤ 1). Ляпунов О.М. довів, що розподіл вибіркових середніх , а отже, та його відхилень від генеральної середньої, за досить великому числі приблизно підпорядковується нормальному закону розподілу за умови, що генеральна сукупність має кінцевої середньої та обмеженої дисперсією.
Математично це твердження для середньої виражається у вигляді:
а для частки вираз (1) набуде вигляду:
де - є гранична помилка вибіркияка кратна величині середньої помилки вибірки , а коефіцієнт кратності - є критерій Стьюдента ("коефіцієнт довіри"), запропонований У.С. Держсетом (псевдонім "Student"); значення для різного обсягу вибірки зберігаються у спеціальній таблиці.
Значення функції Ф(t) при деяких значеннях t дорівнюють:Отже, вираз (3) може бути прочитаний так: з ймовірністю Р = 0,683 (68,3%)можна стверджувати, що різниця між вибірковою та генеральною середньою не перевищить однієї величини середньої помилки m (t = 1)з ймовірністю Р = 0,954 (95,4%)що вона не перевищить величини двох середніх помилок m (t = 2) ,з ймовірністю Р = 0,997 (99,7%)- не перевищить трьох значень m (t = 3).Таким чином, ймовірність того, що ця різниця перевищить триразову величину середньої помилки, визначає рівень помилкиі становить не більше 0,3% .
У табл. 3 наведено формули для обчислення граничної помилки вибірки.
Таблиця 3. Гранична помилка (D) вибірки для середньої та частки (р) для різних видів вибіркового спостереженняПоширення вибіркових результатів на генеральну сукупність
Кінцевою метою вибіркового спостереження є характеристика генеральної сукупності. При малих обсягах вибірки емпіричні оцінки параметрів (і) можуть суттєво відхилятися від їх справжніх значень (і). Тому виникає необхідність встановити межі, у яких для вибіркових значень параметрів ( і ) лежать справжні значення ( і ).
Довірчим інтерваломбудь-якого параметра θгенеральної сукупності називається випадкова область значень цього параметра, яка з ймовірністю близькою до 1 ( надійністю) містить справжнє значення цього параметра.
Гранична помилкавибірки Δ дозволяє визначити граничні значення характеристик генеральної сукупності та їх довірчі інтервали, які рівні:
Нижня границя довірчого інтервалуотримана шляхом віднімання граничної помилкиз вибіркового середнього (частки), а верхня – шляхом її додавання.
Довірчий інтервалдля середньої використовує граничну помилку вибірки та для заданого рівня достовірності визначається за формулою:
Це означає, що із заданою ймовірністю Ряка називається довірчим рівнем і однозначно визначається значенням t, можна стверджувати, що справжнє значення середньої лежить у межах від а справжнє значення частки - в межах від
Під час розрахунку довірчого інтервалу для трьох стандартних довірчих рівнів Р = 95%, Р = 99% та Р = 99,9%значення вибирається за . Програми в залежності від числа ступенів свободи. Якщо обсяг вибірки досить великий, то відповідні цим імовірностям значення tрівні: 1,96, 2,58 і 3,29 . Таким чином, гранична помилка вибірки дозволяє визначити граничні значення характеристик генеральної сукупності та їх довірчі інтервали:
Поширення результатів вибіркового спостереження на генеральну сукупність у соціально-економічних дослідженнях має свої особливості, оскільки потребує повноти представництва всіх її типів та груп. Основою для можливості такого розповсюдження є розрахунок відносної помилки:
де Δ % - відносна гранична помилка вибірки; , .
Існують два основні методи поширення вибіркового спостереження на генеральну сукупність: прямий перерахунок та спосіб коефіцієнтів.
Сутність прямого перерахункуполягає у множенні вибіркового середнього значення!! \ overline (x) на обсяг генеральної сукупності .
приклад. Нехай середня кількість дітей ясельного віку в місті оцінена вибірковим методом і склала людину. Якщо місті 1000 молодих сімей, кількість необхідних місць у муніципальних дитячих яслах отримують множенням цієї середньої чисельність генеральної сукупності N = 1000, тобто. становитиме 1200 місць.
Спосіб коефіцієнтівдоцільно використовувати у разі, коли вибіркове спостереження проводиться з метою уточнення даних суцільного спостереження.
При цьому використовують формулу:
де всі змінні - це чисельність сукупності:
Необхідний обсяг вибірки
Таблиця 4. Необхідний обсяг (n) вибірки для різних видів організації вибіркового спостереженняПри плануванні вибіркового спостереження із заздалегідь заданим значенням припустимої помилки вибірки необхідно правильно оцінити необхідний обсяг вибірки. Цей обсяг може бути визначений на основі припустимої помилки при вибірковому спостереженні, виходячи із заданої ймовірності, що гарантує допустиму величину рівня помилки (з урахуванням способу організації спостереження). Формули визначення необхідної чисельності вибірки n легко отримати безпосередньо з формул граничної помилки вибірки. Так, з висловлювання для граничної помилки:
безпосередньо визначається обсяг вибірки n:
Ця формула показує, що зі зменшенням граничної помилки вибірки Δ істотно збільшується необхідний обсяг вибірки, який пропорційний дисперсії та квадрату критерію Стьюдента.
Для конкретного способу організації спостереження необхідний обсяг вибірки обчислюється згідно з формулами, наведеними в таблиці. 9.4.
Практичні приклади розрахунку
Приклад 1. Обчислення середнього значення та довірчого інтервалу для безперервної кількісної ознаки.
Для оцінки швидкості розрахунку з кредиторами у банку проведено випадкову вибірку 10 платіжних документів. Їх значення виявилися рівними (у днях): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.
Необхідно з ймовірністю Р = 0,954визначити граничну помилку Δ вибіркової середньої та довірчі межі середнього часу розрахунків.
Рішення.Середнє значення обчислюється за такою формулою з табл. 9.1 для вибіркової сукупності
Дисперсія обчислюється за такою формулою з табл. 9.1.
Середня квадратична похибка дня.
Помилка середньої обчислюється за такою формулою:
тобто. середнє значення дорівнює x ± m = 12,0 ± 2,3 дні.
Достовірність середнього склала
Граничну помилку обчислимо за такою формулою з табл. 9.3 для повторного відбору, оскільки чисельність генеральної сукупності невідома, та Р = 0,954рівня достовірності.
Таким чином, середнє значення дорівнює x ± D = x ± 2m = 12,0 ± 4,6, тобто. його справжнє значення лежить у межах від 7,4 до 16,6 днів.
Використання таблиці Стьюдента. Додатки дозволяє зробити висновок, що з n = 10 — 1 = 9 ступенів свободи отримане значення достовірно з рівнем значимості a £ 0,001, тобто. отримане значення середнього вірогідно відрізняється від 0.
Приклад 2. Оцінка ймовірності (генеральної частки) нар.
При механічному вибірковому способі обстеження соціального стану 1000 сімей виявлено, що частка малозабезпечених сімей склала w = 0,3 (30%)(вибірка була 2% , тобто. n/N = 0,02). Необхідно з рівнем достовірності р = 0,997визначити показник рмалозабезпечених сімей у всьому регіоні.
Рішення.За представленими значеннями функції Ф(t)знайдемо для заданого рівня достовірності Р = 0,997значення t = 3(Див. формулу 3). Граничну помилку частки wвизначимо за формулою із табл. 9.3 для безповторного відбору (механічна вибірка завжди є безповторною):
Гранична відносна помилка вибірки в % складе:
Імовірність (генеральна частка) малозабезпечених сімей у регіоні становитиме р=w±Δw, а довірчі межі р обчислюються виходячи з подвійної нерівності:
w - Δ w ≤ p ≤ w - Δ w, тобто. справжнє значення р лежить у межах:
0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.
Таким чином, із ймовірністю 0,997 можна стверджувати, що частка малозабезпечених сімей серед усіх сімей регіону становить від 28,6% до 31,4%.
приклад 3.Обчислення середнього значення та довірчого інтервалу для дискретної ознаки, заданої інтервальним рядом.
У табл. 5. задано розподіл заявок виготовлення замовлень за термінами їх виконання предприятием.
Таблиця 5. Розподіл спостережень щодо термінів появиРішення. Середній термін виконання заявок обчислюється за такою формулою:
Середній термін складе:
= (3 * 20 + 9 * 80 + 24 * 60 + 48 * 20 + 72 * 20) / 200 = 23,1 міс.
Та ж відповідь отримаємо, якщо використовуємо дані про р i з передостанньої колонки табл. 9.5, використовуючи формулу:
Зауважимо, що середина інтервалу для останньої градації знаходиться шляхом її штучного доповнення шириною інтервалу попередньої градації, що дорівнює 60 - 36 = 24 міс.
Дисперсія обчислюється за формулою
де х i- Середина інтервального ряду.
Отже!!\sigma = \frac (20 2 + 14 2 + 1 + 25 2 + 49 2) (4), а середня квадратична похибка .
Помилка середньої обчислюється за такою формулою міс., тобто. середнє значення дорівнює!! \ overline (x) ± m = 23,1 ± 13,4.
Граничну помилку обчислимо за такою формулою з табл. 9.3 для повторного відбору, оскільки чисельність генеральної сукупності невідома, для 0,954 рівня достовірності:
Таким чином, середнє значення дорівнює:
тобто. його справжнє значення лежить у межах від 0 до 50 місяців.
приклад 4.Для визначення швидкості розрахунків із кредиторами N = 500 підприємств корпорації у комерційному банку необхідно провести вибіркове дослідження методом випадкового безповторного відбору. Визначити необхідний обсяг вибірки n, щоб із ймовірністю Р = 0,954 помилка середнього значення вибірки не перевищувала 3-х днів, якщо пробні оцінки показали, що середнє відхилення квадратне s склало 10 днів.
Рішення. Для визначення кількості необхідних досліджень n скористаємося формулою для відбору безповторного з табл. 9.4:
У ній значення t визначається з рівня достовірності Р = 0,954. Воно дорівнює 2. Середнє квадратичне значення s = 10, обсяг генеральної сукупності N = 500, а гранична помилка середнього значення Δ x = 3. Підставляючи ці значення формулу, отримаємо:
тобто. вибірку достатньо скласти із 41 підприємства, щоб оцінити необхідний параметр — швидкість розрахунків із кредиторами.
В результаті вивчення матеріалу глави 2 учень повинен:
знати
- основні поняття генеральної та вибіркової сукупностей;
- методи оцінювання, види та властивості оцінок параметрів генеральної сукупності;
- основні методи статистичної перевірки гіпотез щодо параметрів одновимірної та багатовимірної генеральних сукупностей;
вміти
- знаходити за вибірковими даними оцінки параметрів одновимірної та багатовимірної генеральних сукупностей;
- аналізувати властивості параметрів;
- перевіряти гіпотези щодо параметрів та виду розподілу генеральної сукупності;
- порівнювати параметри кількох генеральних сукупностей;
володіти
- навичками статистичного оцінювання параметрів одновимірної та багатовимірної генеральних сукупностей;
- навичками перевірки гіпотез щодо параметрів та виду розподілу генеральної сукупності під час проведення соціально-економічних досліджень з використанням аналітичного програмного забезпечення.
Розподіл генеральної сукупності
Імовірнісно-статистичні методи аналізу даних припускають, що закономірності, яким підпорядковується змінна (випадкова величина), що досліджується, повністю визначаються комплексом умов її спостереження. Математично ці закономірності задаються відповідним законом розподілу ймовірностей. Однак під час проведення статистичних досліджень зручнішим є поняття генеральної сукупності.
Таким чином, математичні поняття "генеральна сукупність", "випадкова величина" та "закон розподілу ймовірностей", що відповідають даному комплексу умов, можна вважати у певному сенсі синонімами.
Генеральною сукупністюназивають безліч всіх можливих спостережень, які б бути зроблені за даного комплексі умов .
Оскільки у визначенні йдеться про подумки можливі спостереження (або об'єкти), то генеральна сукупність є поняття абстрактне, і її не слід змішувати з реальними сукупностями, що підлягають статистичному дослідженню. Так, обстеживши навіть усі підприємства підгалузі, ми можемо розглядати їх як представників гіпотетично можливої ширшої сукупності підприємств, які б функціонувати у межах комплексу умов.
Генеральна сукупність може бути як кінцевою, і нескінченною. Кінцевасукупність має місце, наприклад, під час обстеження сімейних бюджетів, коли вибірка береться із сукупності сімей, що фактично є в країні. Потім здійснюються спостереження за доходами та витратами відібраних сімей. Нескінченнагенеральна сукупність спостерігається, наприклад, у наукових дослідженнях, коли нас цікавить середній результат великої кількості експериментів.
У найпростішому випадку генеральна сукупність є одновимірною випадковою величиною хз функцією розподілу, яка визначає ймовірність того, що хнабуде значення, менше фіксованого дійсного числа.
У випадку вивчаються генеральні сукупності, які включають кілька ознак (зазвичай понад два). Багато ознак, що розглядається, позначається вектором, що має kкомпонент, кожна з яких характеризує відповідну ознаку. Для аналізу вектора Xвикористовуються багатовимірні статистичні методи.
Таким чином, об'єктом дослідження в багатовимірному аналізі є випадковий вектор X,або випадкова точка у ft-вимірному евклідовому просторі, система довипадкових (одномірних) величин, ft-вимірна випадкова величина
Функція розподілу випадкового вектора називається детермінована невід'ємна величина, яка визначається за формулою
де-мірний вектор фіксованих дійсних чисел.
Детермінована невід'ємна величина F(X)
Розрізняють:
- безперервні k-вимірні випадкові величини, всі компоненти яких - безперервні (одномірні) випадкові величини;
- дискретні k-вимірні випадкові величини, всі компоненти яких - дискретні випадкові величини;
- змішані k-мірні випадкові величини, серед компонент яких є дискретні, і безперервні випадкові величини.
Функція розподілу F(X)для безперервної k-вимірної випадкової величини є безперервною за визначенням.
Щільність розподілу ймовірностей безперервної k-мірної випадкової величини задовольняє умову
густина f(X)має такі властивості:
Площа, обмежена зверху графіком щільності, завжди дорівнює одиниці:
де через kпозначено загальну кількість (кратність) інтегралів;
Імовірність влучення точки () в якусь область Gдорівнює
З визначення густини слід, що якщо проінтегрувати спільну густину розподілу двох величин х 1х 2 по одній, наприклад, у нескінченних межах, то отримаємо щільність розподілу ймовірностей іншої величини:
Аналогічно маємо
Щільності ймовірностей, функції розподілу підсистем, випадкових величин системи довипадкових величин називають приватнимиабо маргінальними розподілами .
Умовними розподіламивипадкового вектора Xназиваються розподіл підсистеми, його компонент за умови, що інші компоненти є фіксованими. Ці компоненти будуть відокремлюватися від нефіксованих косою межею.
Для безперервної випадкової величини справедливі, наприклад, формули, що визначають щільність умовного розподілу двовимірної випадкової величини (), що є підсистемою системи () за умови, що в ній фіксовані останні три компоненти:
Підсистема, компонент та додаткова підсистема компонент вектора Xназиваються незалежними(стохастично, ймовірно), якщо справедлива рівність
Зокрема, компоненти вектора Xназиваються незалежними, якщо
У разі незалежності справедливі аналогічні формули для творів густин або ймовірностей маргінальних розподілів та збіг умовних розподілів з відповідними маргінальними (23).
Отже, закономірності, яким підпорядковується досліджувана випадкова величина, фізично повністю зумовлюються реальним комплексом умов її спостереження (або експерименту), а математично задаються відповідним ймовірнісним простором або, що те саме, відповідним законом розподілу ймовірностей. Однак при проведенні статистичних досліджень дещо зручнішою виявляється інша термінологія, пов'язана з поняттям генеральної сукупності.
Генеральною сукупністю називають сукупність всіх мислимих спостережень (чи всіх подумки можливих об'єктів типу, що цікавить нас, з яких «знімаються» спостереження), які могли б бути зроблені при даному реальному комплексі умов. Оскільки у визначенні йдеться про всі подумки можливі спостереження (або об'єкти), то поняття генеральної сукупності є поняття умовно-математичне, абстрактне і його не слід змішувати з реальними сукупностями, що підлягають статистичному дослідженню. Так, обстеживши навіть всі підприємства підгалузі з точки зору реєстрації значень техніко-економічних показників, що характеризують їх, ми можемо розглядати обстежену сукупність лише як представника гіпотетично можливої більш широкої сукупності підприємств, які могли б функціонувати в рамках того ж самого реального комплексу умов
У практичній роботі зручніше вибір пов'язувати з об'єктами спостереження, ніж із характеристиками цих об'єктів. Ми відбираємо вивчення машини, геологічні проби, людей, але з значення характеристик машин, проб, людей. З іншого боку, в математичній теорії об'єкти та сукупність їх характеристик не розрізняються та двоїстість введеного визначення зникає.
Як бачимо, математичне поняття «генеральна сукупність» фізично повністю обумовлюється, так само як і поняття «імовірнісний простір», «випадкова величина» та «закон розподілу ймовірностей», відповідним реальним комплексом умов, а тому всі ці чотири математичні поняття можна вважати у певному сенсі синонімами. Генеральна сукупність називається кінцевою чи нескінченною залежно від цього, кінцева чи нескінченна сукупність всіх мислимих спостережень.
З визначення слід, що безперервні генеральні сукупності (що з спостережень ознак безперервної природи) завжди нескінченні. Дискретні ж генеральні сукупності може бути як нескінченними, і кінцевими. Скажімо, якщо аналізується партія з N виробів на сортність (див. приклад п. 4.1.3), коли кожен виріб може бути віднесено до одного з чотирьох сортів, досліджуваною випадковою величиною є номер сорту випадково витягнутого з партії виробу, а безліч можливих значень випадкової величини складається відповідно з чотирьох точок (1, 2, 3 і 4), то, очевидно, генеральна сукупність буде кінцевою (всього N мислимих спостережень).
Поняття нескінченної генеральної сукупності є математична абстракція, як і уявлення про те, що вимір випадкової величини можна повторити нескінченну кількість разів. Приблизно нескінченну генеральну сукупність можна тлумачити як граничний випадок кінцевої, коли кількість об'єктів, що породжуються цим реальним комплексом умов, необмежено зростає. Тож якщо у щойно наведеному прикладі замість партій виробів розглядати безперервне масове виробництво тих самих виробів, ми й дійдемо поняття нескінченної генеральної сукупності. Практично ж така видозміна рівносильна вимогі
Вибірка з цієї генеральної сукупності - це результати обмеженого ряду спостережень випадкової величини. Вибірку можна розглядати як якийсь емпіричний аналог генеральної сукупності, те, з чим ми найчастіше на практиці маємо справу, оскільки обстеження всієї генеральної сукупності буває або дуже трудомістким (у разі великих N), або принципово неможливо (у разі нескінченних генеральних сукупностей).
Число спостережень, що утворюють вибірку, називають обсягом вибірки.
Якщо обсяг вибірки великий і при цьому ми маємо справу з одновимірною безперервною величиною (або з одновимірною дискретною, кількість можливих значень якої досить велика, скажімо більше 10), то часто зручніше, з точки зору спрощення подальшої статистичної обробки результатів спостережень, перейти до так званих «групованим» вибірковим даним. Цей перехід здійснюється зазвичай так:
а) відзначаються найменше та найбільше значення у вибірці;
б) весь обстежений діапазон розбивається на кілька рівних інтервалів групування; при цьому кількість інтервалів s не повинна бути меншою за 8-10 і більше 20-25: вибір кількості інтервалів істотно залежить від обсягу вибірки для зразкової орієнтації у виборі 5 можна користуватися наближеною формулою
яку слід сприймати швидше як оцінку знизу для s (особливо при великих
в) відзначаються крайні точки кожного з інтервалів у порядку зростання, а також їх середини
г) підраховуються числа вибіркових даних, що потрапили до кожного з інтервалів: (очевидно, ); вибіркові дані, що потрапили на межі інтервалів, або рівномірно розподіляються по двох сусідніх інтервалах, або призначаються відносити їх тільки до одного з них, наприклад до лівого.
Залежно від конкретного змісту завдання до цієї схеми групування можуть бути внесені деякі видозміни (наприклад, у деяких випадках доцільно відмовитися від вимоги рівної довжини інтервалів групування).
У всіх подальших міркуваннях, що використовують вибіркові дані, виходитимемо з щойно описаної системи позначень.
Нагадаємо, що сутність статистичних методів полягає в тому, щоб по деякій частині генеральної сукупності (тобто за вибіркою) виносити судження про її властивості загалом.
Одне з найважливіших питань, від успішного вирішення якого залежить достовірність одержуваних результаті статистичної обробки даних висновків, є питання репрезентативності вибірки, тобто. питання повноти і адекватності уявлення нею цікавлять нас властивостей аналізованої генеральної сукупності. У практичній роботі одна і та ж група об'єктів, взятих для вивчення, може розглядатися як вибірка з різних генеральних сукупностей. Так, групу сімей, навмання відібраних з кооперативних будинків однієї з житлово-експлуатаційних контор (ЖЕК) одного з районів міста для докладного соціологічного обстеження, можна розглядати і як вибірку з генеральної сукупності сімей (з кооперативною формою житла) цієї ЖЕК, і як вибірку з генеральної сукупності сімей даного району, як вибірку з генеральної сукупності всіх сімей міста, і, нарешті, як вибірку з генеральної сукупності всіх сімей міста, що у кооперативних будинках. Змістовна інтерпретація результатів апробації істотно залежить від того, представником якоїсь генеральної сукупності ми розглядаємо відібрану групу сімей, для якої генеральної сукупності цю вибірку можна вважати представницькою (репрезентативною). Відповідь це питання залежить від багатьох чинників. У наведеному вище прикладі, зокрема, від наявності або відсутності спеціального (може бути, прихованого) фактора, що визначає приналежність сім'ї до даної ЖЕК або району в цілому (таким фактором може бути, наприклад, середньодушовий дохід сім'ї, географічне розташування району в місті, « вік» району тощо).
Поняття репрезентативності. Концептуальний об'єкт та генеральна сукупність. Проектований об'єкт. Проектована та реальна генеральна сукупності.
Ми знаємо, що соціологічна наука має справу не з плинною безпосередністю життя, а з даними, організованими за певними правилами у просторі ознак. Під даними мають на увазі значення змінних, приписані одиницям дослідження - об'єктам. Ці об'єкти - спільноти, інституції, люди, тексти, речі - утворюють у просторі ознак різноманітні і нерідко химерні зміни, даючи досліднику можливість висловлювати узагальнюючі судження реальність.
Як тільки мова заходить про дійсність, виявляється, що отримані дані відносяться, строго кажучи, лише до реєстраційних документів (анкет, бланків інтерв'ю, протоколів спостереження тощо). Немає жодних гарантій, що реальність за вікнами лабораторії (скажімо, по той бік шкал) не виявиться іншою. До вибіркової процедури ми ще не дійшли, але вже постає питання репрезентативності даних: чи можна поширити відомості, отримані в процесі обстеження, на об'єкти, що знаходяться за межами нашого конкретного досвіду? Відповідь однозначна: можна. Інакше наші спостереження не виходили б за рамки «тут-тепер-сукупності». Вони ставилися б не до москвичів, а до тих, хто щойно був опитаний телефоном у Москві; не до читачів газети «Тиждень», а до тих, хто надіслав до редакції поштою заповнений відривний купон. Після завершення опитування ми повинні вважати, як і «москвичі», і «читачі» залишилися колишніми. Ми віримо у стабільність світу тому, що наукові спостереження виявляють дивовижну сталість.
Будь-яке одиничне спостереження поширюється більш широку сферу спостережень, і проблема репрезентації у тому, щоб встановити ступінь відповідності між параметрами обстеженої сукупності і «реальними» характеристиками об'єкта. Вибіркова процедура призначена саме для того, щоб реконструювати реальний об'єкт дослідження та генеральну сукупність окремих моментних спостережень.
Поняття вибіркової репрезентативності близьке до поняття зовнішньої валідності; Тільки першому випадку виробляється екстраполяція однієї й тієї ж характеристики більш широку сукупність одиниць, тоді як у другому - перехід із одного смислового контексту на другий. Вибіркова процедура здійснюється кожною людиною тисячу разів на день, при цьому ніхто особливо не замислюється над репрезентативністю спостережень. Досвід замінює калькуляцію. Щоб дізнатися, чи добре посолена каша, зовсім не обов'язково з'їдати всю каструлю - тут ефективніші методи неруйнівного контролю, у тому числі вибіркова перевірка: потрібно скуштувати одну ложечку. При цьому треба бути впевненим, що каша добре перемішана. Якщо каша перемішана погано, має сенс провести не один вимір, а серію, тобто спробувати у різних місцях каструлі – це вже вибірка. Складніше переконатися, що відповідь студента на іспиті репрезентує його знання, а чи не є випадковою удачею чи невдачею. Для цього й задаються кілька запитань. Передбачається, що, якби студент відповів на всі можливі питання з предмета, результат був би «справжнім», тобто відображав реальні знання. Але тоді ніхто не міг би витримати іспит.
В основі вибіркової процедури завжди лежить «якби» - припущення про те, що екстраполяція спостережень істотно не змінить отриманий результат. Тому генеральну сукупність можна як «об'єктивну можливість» вибіркової сукупності.
Проблема дещо ускладнюється, якщо дати раду тому, що мають на увазі під об'єктом дослідження. Вивчивши досить численну сукупність людей, соціолог дійшов висновку, що змінна «радикалізм-консерватизм» позитивно корелює із віком: зокрема, старші покоління виявляють скоріш консервативність, ніж революційність. Але обстежений об'єкт - вибіркова сукупність - не існує насправді як такої. Він сконструйований процедурою відбору респондентів та проведення інтерв'ю, а потім одразу ж зникає, розчиняється у масиві. Дійсно, вибіркова сукупність, з якою безпосередньо «знімаються» дані, породжується процедурою, але в той же час вона розчинена у великій сукупності, яку репрезентує або представляє з різним ступенем точності і надійності. Соціологічні висновки стосуються не обстежених минулого тижня респондентів, а ідеалізованих об'єктів: «старших поколінь», «молоді», тих, хто виявляє «радикалізм» чи «консерватизм». Йдеться про категоріальні узагальнення, не обмежені просторово-часовими обставинами. Щодо цього вибіркова процедура допомагає звільнитися від спостережень і перейти у світ ідей.
Таким чином, ми маємо можливість провести розмежування об'єкта дослідження та генеральної сукупності: об'єкт - не просто сукупність одиниць, а поняття, відповідно до якого здійснюється ідентифікація та відбір одиниць дослідження. У цьому плані справедливо гегелівське припис вважати істинним лише буття, яке відповідає своєму поняттю. Теоретично обсяг поняття, що означає об'єкт дослідження, повинен відповідати обсягу генеральної сукупності. Однак така відповідність досягається вкрай рідко.
Нам знадобиться поняття концептуального об'єкта -ідеальний конструкт, що позначає рамки теми. "Росіяни", "аудиторія центральних газет", "електорат", "демократична громадськість" - такі типові об'єкти дослідницького інтересу соціологів. Безперечно, концептуальному об'єкту має відповідати цілком реальна генеральна сукупність. Для цього необхідно передбачити ще один об'єкт дослідження – проектований об'єкт.Проектований об'єкт - це сукупність доступних досліднику одиниць. Завдання у тому, щоб встановити групи, є недоступними чи важкодоступними збору даних.
Очевидно, що обстежити об'єкт, який позначають як «росіяни», практично неможливо. Серед росіян чимало людей перебуває у в'язницях, виправно-трудових установах, слідчих ізоляторах та інших важкодоступних для інтерв'юера місцях. Цю групу доведеться «відняти» з об'єкта, що проектується. «Відняти» доведеться і багатьох пацієнтів психіатричних лікарень, дітей, частину людей похилого віку. Навряд чи громадянському соціологу вдасться забезпечити нормальні шанси на потрапляння у вибірку та військовослужбовцям. Аналогічні проблеми супроводжують обстеження читачів, виборців, мешканців малих міст, відвідувачів театрів.
Перелічені труднощі - лише мала частина тих, найчастіше непереборних перешкод, із якими стикається соціолог на польовий стадії дослідження. Фахівець повинен передбачати ці труднощі і не будувати ілюзій щодо повної реалізації об'єкта, що проектується. В іншому випадку на нього чекають розчарування.
Отже, об'єкт дослідження не збігається з генеральною сукупністю приблизно так само, як карта місцевості не збігається з місцевістю.
Довго думали-гадали, Генерали все писали на великому аркуші. Було гладко на папері, та забули про яри, А по них ходити, -
ці слова зі старовинної солдатської пісні цілком застосовні до проектування вибірки, зважаючи на те, що ходити доведеться по квартирах.
Безсумнівно, генеральна сукупність - це сукупність, з якої виробляється вибірка одиниць. Проте так лише здається. Вибірка провадиться з тієї сукупності, з якої провадиться фактичний відбір респондентів. Назвемо її реальною.Відмінності між проектованою та реальною сукупностями можна побачити на власні очі, порівнявши списки «проектованих» респондентів та опитаних фактично.
Реальний об'єкт - та сукупність, що сформувалася на стадії польового дослідження з урахуванням обмежень у доступності первинної соціологічної інформації. Крім ув'язнених, військовослужбовців та хворих, меншу ймовірність потрапити у вибірку мають мешканці віддалених від транспортних комунікацій сіл, особливо якщо обстеження проводиться восени; ті, кого, як правило, немає вдома, не схильні до розмов з сторонніми людьми тощо. Буває, що інтерв'юери, користуючись відсутністю контролю, нехтують точним виконанням своїх обов'язків і опитують не тих, кого належить опитувати за інструкцією, а тих, кого легше «дістати». Наприклад, відвідувати квартири респондентів інтерв'юерам наказано вечорами, коли легше застати їхні будинки. Якщо дослідження проводиться, припустимо, у листопаді, то вже о п'ятій годині вечора в середній смузі Росії на вулиці зовсім темно. У багатьох містах таблички з назвами вулиць та номерами будинків зустрічаються не часто. Якщо обов'язки інтерв'юерів виконують студентки місцевого педінституту, можна надати ступінь відхилення реального об'єкта від проектованого. Іноді дослідники роблять ще простіше: заповнюють анкети самі. Ці складнощі є одним із джерел так званих систематичних помилок вибірки.
Існують досить ефективні способи контролю заповнення запитань і прийоми ремонту вибірки, зокрема зважування основних типологічних груп респондентів: групи тих, кого не вистачає, збільшуються, а надлишкові групи зменшуються. Так реальний масив підганяється під проектований, і це цілком виправдано.