Решение задач по статистике
Содержание:
- Элементы математической статистики
- Генеральная и выборочная совокупности
- Статистическое распределение выборки
- Графическое изображение статистических распределений
- Эмпирическая функция распределения
- Числовые характеристики статистического распределения выборки
- Статистические оценки параметров генеральной совокупности
- Статистические оценки неизвестных параметров распределения и их свойства
- Статистическая оценка математического ожидания
- Статистическая оценка дисперсии. Исправленная дисперсия
- Метод моментов статистического оценивания параметров распределения
- Метод максимума правдоподобности статистического оценивания параметров распределения
- Интервальные оценки параметров распределения
- Распределение x2 - "хи-квадрат"
- Распределение Стьюдента
- Интервальные оценки для математического ожидания
- Оценка истинного значения измеряемой величины
- Доверительные интервалы для среднего квадратического отклонения нормально распределенной случайной величины
- Оценка точности измерений
- Элементы теории корреляции
- Выборочный коэффициент корреляции
- Основные понятия и методы регрессионного анализа
- Метод наименьших квадратов
- Статистическая проверка статистических гипотез
- Статистический критерий проверки нулевой гипотезы
- Проверка гипотезы про закон распределения. Критерия согласия Пирсона
- Проверка гипотезы про сравнение среднего значения признака генеральной совокупности со стандартом
- Проверка гипотезы про равенство дисперсий двух независимых случайных величин
- Проверка гипотезы про значимость коэффициента корреляции
- Определение размаха вариации
- Определение среднего линейного отклонения по индивидуальным данным и в рядах распределения
- Расчет дисперсии и среднего квадратического отклонения по индивидуальным данным и в рядах распределения
- Расчет дисперсии по формуле По индивидуальным данным и в рядах распределения
- Расчет дисперсии по способу моментов
- Определение коэффициента вариации
- Математическая статистика для университета
- Статистический и вариационный ряды
- Полигон и гистограмма
- Числовые оценки параметров распределения
- Статистическое описание и вычисление параметров распределения двумерного случайного вектора
- Уравнение регрессии
- Нелинейные регрессии
- Метод максимального правдоподобия
- Распределения, которые используются в статистике
- Интервальные оценки
- Построение группировки типологической, структурной и аналитической
- Приемы вторичной группировки
- Методические указания и решение типовых задач
- Статистические таблицы

Ответы на вопросы по заказу заданий по статистике:
Сколько стоит помощь?
- Цена зависит от объёма, сложности и срочности. Присылайте любые задания по любым предметам - я изучу и оценю.
Какой срок выполнения?
- Мне и моей команде под силу выполнить как срочный заказ, так и сложный заказ. Стандартный срок выполнения – от 1 до 3 дней. Мы всегда стараемся выполнять любые работы и задания раньше срока.
Если требуется доработка, это бесплатно?
- Доработка бесплатна. Срок выполнения от 1 до 2 дней.
Могу ли я не платить, если меня не устроит стоимость?
- Оценка стоимости бесплатна.
Каким способом можно оплатить?
- Можно оплатить любым способом: картой Visa / MasterCard, с баланса мобильного, google pay, apple pay, qiwi и т.д.
Какие у вас гарантии?
- Если работу не зачли, и мы не смогли её исправить – верну полную стоимость заказа.
В какое время я вам могу написать и прислать задание на выполнение?
- Присылайте в любое время! Я стараюсь быть всегда онлайн.

Элементы математической статистики
Предмет и основные задачи математической статистики:
Математическая статистика - это раздел математики, в котором изучаются методы, сбора, систематизации и анализа результатов наблюдений массовых случайных явлений с целью выявления существующих закономерностей с помощью методов теории вероятностей.
Основными задачами математической статистики являются такие:
указать способы сбора и группировки статистических данных, полученных в результате наблюдений;
разработать методы анализа статистических данных в зависимости от цели исследования.
Генеральная и выборочная совокупности
Генеральной совокупностью называется множество всех реально существующих или только условно возможных однородных объектов, которые изучаются с точки зрения их распределения по некоторому признаку.
Например:
- а) множества частных банков России по прибыли;
- б) множества производств определенного товара по качеству;
- в) множества людей по возрасту.
С теоретико-вероятностной точки зрения генеральная совокупность - это случайная величина которая задана в пространстве элементарных событий
Генеральная совокупность может быть конечной или бесконечной. Полное описание закона распределения случайной величины можно получить, только выяснив значение признака для всех представителей данной совокупности.
В случае, если исследовать данный признак у всех предметов этой совокупности не невозможно (или их очень много, ил по другим причинам), пользуются выборочным методом, в соответствии с которым из данной генеральной совокупности случайно выбираются элементов
Часть объектов, которая отобрана случайным образом для непосредственного изучения из генеральной совокупности, называется выборочной совокупностью или выборкой.
С теоретико-вероятностного взгляда выборка из данной генеральной совокупности - это результаты ограниченного ряда наблюдений случайной величины
Число которое отвечает количеству наблюдений, образующих выборку, называют объемом выборки, а числа
- элементами или вариантами выборки.
Размахом вариации называется разница между максимальным вариантом выборки
и минимальным вариантом
В статистике интерпретация выборки и ее отдельных элементов допускает в зависимости от контекста два разных подхода - практический и теоретический.
В практическом подходе под понимают фактически наблюдаемые в данном конкретном
-кратном эксперименте значение исследуемой случайной величины
то есть конкретные числа.
Согласно теоретическому подходу, под выборкой понимают последовательность случайных величин,
член которой
только означает результат наблюдения, который мы могли бы получить
шаге
-кратного эксперимента, связанного с наблюдением исследуемой случайной величины
Выборка называется случайной, если (в пределах теоретического подхода) серия наблюдений образует последовательность независимых и одинаково распределенных случайных величин. Далее всегда буде считать, что выборка случайная.
Различают повторную и бесповторную выборки.
Во время повторной выборки объект, который берется из генеральной совокупности, после его исследования возвращается в генеральную совокупность. При этом один и тот же объект может исследоваться несколько раз.
Во время бесповторной выборки объекты, которые брались из генеральной совокупности на исследование, не возвращаются. На практике чаще всего пользуются бесповторным случайном отбором.
Разница между повторной и бесповторной выборками практически отсутствует в случае, если объем генеральном совокупности достаточно большой, а выборка составляет лишь незначительную ее часть. Когда рассматривается бесконечная генеральная совокупность, а выборка имеет конечный объем, эта разница полностью исчезает.
Необходимо, чтобы выборка правильно представляла пропорции генеральной совокупности, то есть была репрезентативной. В соответствии с законом больших чисел можно утверждать, что выборка - репрезентативная, если она - случайная.
Статистическое распределение выборки
Статистическим рядом называют выборку объема полученную из генеральной совокупности. Он подлежит дальнейшей обработке и анализу.
Первый этап обработки статистического ряда - ранжирование - запись элементов в порядке их возрастания, в результате которого получают так называемый простой вариационный ряд, элементами которого являются где
Следующий этап обработки - построение статистического (эмпирического) закона распределения.
Если - дискретная случайная величина, наиболее природная форма статистического закона распределения выборки описывается с помощью сгруппированного вариационного ряда.
Сгруппированный вариационный ряд получен на основе простого вариационного ряда путем отбора всех разных элементов, и размещения их в порядке возрастания где
Для выделенных вариантов одновременно вычисляют частоты которые им соответствуют, или относительные частоты
Очевидно, что
Дискретным статистическим распределением выборки называется соответствие между вариантами и их частотами ил относительными частотами.
Дискретное статистическое распределение подают в форме таблиц 3.1-3.2.
дискретное статистическое распределение частот:
Таблица 3.1.
дискретное статистическое распределение относительных частот:
Таблица 3.2.
Если - непрерывная случайная величина (а также в случае, когда случайная величина дискретная и объем выборки относительно большой:
) статистический закон распределения выборки записывают, как интервальный вариационный ряд частот или относительных частот.
Интервальным статистическим распределением выборки называется соответствие между интервалами вариационного ряда и их частотами или относительными частотами (или плотностью относительных частот).
Схема построения интервального статистического распределения выборки:
статистические данные ранжируют;
определяют оптимальный интервал длиной
- такой, при котором интервальный ряд не был бы большим м в то же время позволял выявить характерные черты исследуемого явления.
Длину интервала находим как отношение размаха вариации
к числу интервалов
где число интервалов приближенно вычисляем с помощью формулы Стерджесса:
Если дробное, то за величину
можно принять или ближайшее целое число или ближайшее несложное дробное значение. За начало первого интервала рационально взять
начало второго интервала совпадает с концом первого и равно
и т.д. Этот процесс продолжают, пока начало следующего интервала не meltn большим (если равно, в интервальном вариационном ряду последний промежуток - отрезок), чем
определяют частоту
для каждого интервала, то есть число значений случайной величины, которое принадлежит этому интервалу, включая и значения, совпадающие с нижней границей, но меньше верхней границы;
определяют относительные частоты:
Интервальное статистическое распределение выборки, как и дискретное, записывают в виде таблиц 3.3-3.4.
интервальное статистическое распределение частот:
Таблица 3.3
интервальное статистическое распределение относительных частот:
Таблица 3.4.
Интервальное статистическое распределение выборки по необходимости можно заменить дискретным, для этого в каждом интервале выбирают его "представителя", то есть находят среднее арифметическое:
а соответствующие значения частот (относительных частот) оставляют без изменений.
Пример 3.1. Рассмотрим построение ряда распределения по начальным данным о размере прибыли 20-ти коммерческих банков региона за месяц (в млн. ден. ед.):
Решение. Поскольку варианты значений признака не повторяются, строим интервальное статистическое распределение частот.
Определяем число интервалов:
тогда величина интервала составит 0,9 млн. ден. ед. :
В результате подсчетов количества банков в каждой группе, получим ряд распределения банков по величине прибыли за месяц - интервальное статистическое распределение частот и относительных частот (табл. 3.5-3.6).
Таблица 3.5.
Таблица 3.6.
где и .т.д.
Графическое изображение статистических распределений
Для наглядности используют графическое изображение статистических распределений - полигон и гистограмму.
Полигон распределения выборки используется для изображения как дискретных, так и интервальных вариационных рядов, а гистограмма - только для интервальных рядов.
Полигоном частот называют ломанную, отрезки которой последовательно соединяют точки координатной плоскости.
Полигоном относительных частот называют ломанную, отрезки которой последовательно соединяют точки координатной плоскости.
Схема построения полигона частот (относительных частот):
на оси абсцисс откладывают варианты
на ост ординат - соответствующие частоты
(относительные частоты
);
точки
соединяют отрезками прямых.
Гистограммой частот называется ступенчатая фигура, которая состоит из прямоугольников, основами которых являются частные интервалы а их высоты:
Гистограммой частот называется ступенчатая фигура, которая состоит из прямоугольников, основами которых являются частные интервалы , а их высоты:
Схема построения гистограмм частот (относительных частот):
на оси абсцисс откладывают частные интервалы
на этих интервалах, как на основе, строят прямоугольники с высотами
Площадь каждого такого прямоугольника равна
а площадь гистограммы частот равна объему выборки
(единице).
Пример 3.2. Построить гистограмму частот по данным примера 3.1, потом заменить интервальное статистическое распределение частот дискретным, начертить полигон частот.
Решение. Рассчитаем высоты по формуле (3.11) и данным таблицы 3.5:
Заменим интервальное статистическое распределение частот дискретным. Для этого в каждом интервале выберем его "представителя", то есть найдем среднее арифметическое
а соответствующие значения частот оставим без изменения:
Построим гистограмму частот:
Рис. 3.1. Гистограмма частот по данным примера 3.1
Начертим полигон частот:
Рис. 3.2. Полигон частот по данным таблицы 3.6
Эмпирическая функция распределения
Теоретической функцией распределения генеральной совокупности или просто функцией распределения случайной величины
называют функция, которая определяется равенством
Эмпирической функцией распределения случайной величины (функцией распределения выборки) называют функцию.
которая определяет для любого действительного числа
относительную частоту события
то есть
где - зафиксированное произвольное число;
- количество элементов выборки, которое меньше, чем
- объем выборки;
- относительная частота события
Свойства эмпирической функции распределения
1) значения эмпирической функции распределения принадлежат отрезку
2) - неубывающая функция;
3) если - наименьший вариант, то
если
- наибольший вариант, то
4) - функция, непрерывная слева.
Связь между функциями и
устанавливает теорема Гливенка Для любого действительного числа
при условии неограниченного возрастания объема выборки
функция распределения
совпадает по вероятности с теоретической функцией распределения
то есть для
и для
Кумулятивная кривая (кумулята) используется для изображения вариационных рядов, если количество наблюдений большое.
Накопленными называются частоты, которые показывают сколько единиц совокупности имеют значения признака не больше, чем значение, которое рассматривается, и определяются последовательным сложением частот интервалов.
Для построения кумулятивной кривой необходимо рассчитать накопленные частоты так, что:
границе первого интервала соответствует частота, равная нулю, а верхней границе - вся частота данного интервала;
верхней границе второго интервала соответствует накопленная частота, равная сумме частот первых двух интервалов и т.д.
Кумуляту считают приближенным графиком эмпирической функции распределения.
Изображение вариационного ряда в виде кумуляты особенно удобно при сравнении вариационных рядов.
Числовые характеристики статистического распределения выборки
На практике часто вместо полного изучения данных выборки бывает достаточно ограничиться нахождением их числовых характеристик. Допустим, что статистические данные сгруппированы в дискретный вариационный ряд.
Выборочным средним статистического распределения выборки называется среднее арифметическое значение ее вариантов
с учетом их частот:
Если все элементы выборки разные, то выборочное среднее является средним арифметическим значением признака выборочной совокупности:
Выборочное среднее является основной характеристикой статистического распределения выборки. Его обобщением является понятие начального эмпирического момента.
Начальным эмпирическим моментом порядка
статистического распределения выборки называется среднее арифметическое значение степеней порядка
вариантов
В частности,
Перейдем к определению основных характеристик рассеивания значений случайной величины вокруг ее среднего значения. Самым простым показателем рассеивания вариационного ряда является размах
Размахом выборки называют разницу между наибольшим значением ее вариантов:
Выборочной дисперсией статистического распределения выборки называется среднее арифметическое значений квадратов отклонений вариантов
от выборочного среднего
Для вычисления выборочной дисперсии удобнее использовать другую формулу:
Размерность дисперсии равна квадрату размерности значений случайной величины, которая немного неудобна, для устранения которой за характеристику рассеивания значений случайной величины принимают выборочное среднее квадратическое отклонение которое определяется равенством:
Коэффициентом ковариации статистического распределения выборки называется выраженное в процентах отношение выборочного среднего квадратического отклонения к выборочному среднему
Центральным эмпирическим моментом порядка
статистического распределения выборки называется среднее арифметическое значение степеней порядка
отклонений вариантов
от среднего выборочного значения:
В частности,
Для оценки отклонения статистического распределения выборки от нормального распределения используют числовые характеристики - асимметрию и эксцесс.
Асимметрией (коэффициентом асимметрии) статистического распределения выборки называется отношение центрального эмпирического момента 3-го порядка
к среднему квадратическому отклонению в кубе
Эксцессом статистического распределения выборки называется разница между отношением центрального эмпирического момента 4-го порядка
к среднему квадратическому отклонению в четвертой степени
и тройкой:
Если случайная величина распределена по нормальному закону, то ее асимметрия и эксцесс равны нулю.
В случаях, когда эмпирические данные сгруппированы с помощью интервального вариационного ряда, для вычисления соответствующих числовых характеристик выборки используют формулы (3.15)-(3.25) остаются без изменений, если считать, что у них - середины частных промежутков
Существуют другие числовые характеристики, такие как: мода и медиана.
Модой статистического распределения выборки называет вариант, который имеет наибольшую частоту.
В случае дискретного вариационного ряда мода может определяться неоднозначно, поэтому говорят, про одно- и многомодальное распределение.
В случае интервального вариационного ряда, моду определяют таким образом:
правую вершину так называемого модального прямоугольника (прямоугольник, который имеет наибольшую высоту) соединяют с правым верхним углом предыдущего прямоугольника;
левую вершину модального прямоугольника - с левым верхним углом следующего прямоугольника;
абсцисса точки пересечения этих прямых является модой распределения.
Медианой статистического распределения выборки называют вариант, который делит вариационный ряд на две части, одинаковые по количеству вариантов.
Если число вариантов дискретного статистического распределения выборки нечетное, то есть при четном
медиана
Определение медианы интервального вариационного ряда по кумуляте:
высоту наибольшей ординаты, которая соответствует общей численности совокупности, делят пополам;
через полученную точку проводят прямую, параллельную оси абсцисс, до ее пересечения с кумулятой;
абсцисса точки пересечения является медианой.
Пример 3.3. Исследуемый признак - количество работников на предприятии имеет распределение, заданное таблицей 3.8. Вычислить числовые характеристики случайной величины
Таблица 3.8.
Решение. Для расчета числовых характеристик данного распределения удобно воспользоваться таблицей 3.9.
Таблица 3.9.
Вычислим выборочное среднее:
(чел.) - среднее количество работников на предприятии.
Дисперсию рассчитаем двумя способами - по формулам (3.19) и (3.20):
Вычислим выборочное среднее квадратическое отклонение:
Таким образом, количество работников на каждом предприятии отклоняется от среднего количества в среднем на 124 лица.
Размах вариации равен:
(чел.).
Рассчитаем коэффициент вариации статистического распределения выборки:
Как видно из распределения, приведенного в таблице 3.8, модой статистического распределения выборки является а медиана в данном случае совпадает с модой.
Статистические оценки параметров генеральной совокупности
Изучая определенный признак генеральной совокупности, мы можем знать характер распределения случайной величины
но параметры этого законы остаются неизвестными. Тогда стает дальнейшее задание: на основании полученной выборки определить приближенные числовые значения неизвестных параметров распределения - точечные статистические оценки или просто статистические оценки.
Статистические оценки неизвестных параметров распределения и их свойства
Статистической оценкой неизвестного параметра теоретического распределения называется любая однозначная функция от случайных величин, которые наблюдаются:
Для того, чтобы оценка имела практическую ценность, она должна удовлетворять определенные условия. Статистическая оценка является сама случайной величиной.
Статистическая оценка неизвестного параметра распределения
случайной величины
называется несмещенной, если ее математическое ожидание равно точному значению этого параметра:
Если оценка не удовлетворяет этому условию, то она называется смещенной.
Статистическая оценка неизвестного параметра распределения
случайной величины
называется эффективной, если она имеет наименьшую дисперсию среди всех несмещенных оценок параметра
вычисленных по выборкам одного и того же объема.
Во время рассмотрения выборок большого объема к статистическим оценкам добавляется требование состоятельности (или содержательности или конзистентности).
Статистическая оценка неизвестного параметра распределения
случайной величины
называется состоятельной (или содержательной или конзистентной), если
совпадает по вероятности с оценочным параметром при неограниченном возрастании объема выборки, то есть выполняет такое равенство:
где - сколь угодно малое число.
Статистическая оценка математического ожидания
Допустим, что - выборка, полученная в результате
независимых испытаний над случайной величиной
- некоторым признаком генеральной совокупности, который имеет математическое ожидание
За статистическую оценку математического ожидания принимают выборочное среднее:
Оценка является несмещенной, то есть
Допустим дополнительно, что случайная величина имеет конечную дисперсию
Тогда оценка
является состоятельной для параметра
Утверждение. Если случайная величина нормально распределена с параметрами
и
то оценка
имеет в классе всех несмещенных оценок математического ожидания
минимальную дисперсию, которая равна
поэтому
является эффективной оценкой параметра
Статистическая оценка дисперсии. Исправленная дисперсия
Если случайная выборка состоит из
независимых испытаний над случайной величиной
с математическим ожиданием
и дисперсией
то за статистическую оценку дисперсии берут выборочную дисперсию
которая является смещенной оценкой параметра
или исправленную выборочную дисперсию
которая является несмещенной оценкой параметра
Тот факт, что является смещенной оценкой для
следует из равенства:
Учитывая соотношение получим:
то есть, исправленная дисперсия является несмещенной оценкой для дисперсии
Соответственно несмещенной точечной оценкой среднего квадратического отклонения является число - исправленное среднее квадратическое отклонение:
Дробь называют поправкой Бесселя. Для малых
поправка Бесселя значительно отличается от единицы. Для
и
отличаются мало. На практике пользуются исправленной дисперсией, если объем
Оценки и
являются состоятельными и не являются эффективными.
В случае, если математическое ожидание известна и случайная величина
распределена нормально, состоятельной и эффективной оценкой дисперсии
является:
Пример 3.4. В результате исследования получен статистический ряд: Вычислить статистическую оценку математического ожидания, несмещенную оценку дисперсии и исправленное среднее квадратическое отклонение.
Решение. Для вычисления статистических оценок построим дискретный вариационный ряд:
Вычислим статистическую оценку математического ожидания:
Поскольку объем выборки вычислим несмещенную оценку дисперсии и исправленное среднее квадратическое отклонение:
Метод моментов статистического оценивания параметров распределения
На основании данных выборки полученной вследствие наблюдений над случайной величиной
необходимо оценить неизвестный параметр
Допустим, что закон распределения случайной величины
известен с точность до параметра
и определяется с помощью функции
которая в случае дискретной случайной величины
задает вероятность события
а в случае непрерывной случайной величины
- плотность ее распределения. Тогда все моменты случайной величины
являются функциями от
где если
- дискретная случайная величина, а
- возможные значения
и
если
- непрерывная случайная величина.
Схема статистической оценки параметров по методу моментов:
1) вычисляем теоретических начальных моментов;
2) на основании выборки вычисляем
соответствующих выборочных начальных моментов.
В случае, если выборка задана выходным статистическим рядом, это будут эмпирические моменты:
В случае, если выборка задана сгруппированным вариационным рядом, это будут эмпирические моменты:
3) приравниваем теоретические и соответствующие эмпирические моменты и получаем систему уравнений относительно компонент оцениваемого параметра:
4) решая полученную систему уравнений (точно или приблизительно), находим искомые оценки Эти оценки, очевидно, являются функциями от выборочных значений
Необходимо заметить, что:
схема в случае выбора центральных или начальных и центральных моментов в совокупности остается без изменений;
теоретическим обоснованием метода моментов является закон больших чисел;
методом моментов получают состоятельные статистические оценки параметров распределения, которые, однако, условия несмещенности вообще не удовлетворяют;
приравнивая функции от теоретических и эмпирических моментов, можно получить статистические оценки для характеристик случайной величины, которые являются функциями от теоретических моментов.
Пример 3.5. Найти методом моментов по выборке статистические оценки неизвестных параметров
и
нормального распределения:
Решение. Приравняем начальные теоретические и эмпирические моменты первого порядка, а также центральные и эмпирические моменты второго порядка: Учитывая, что
получим:
Принимая во внимание, что математическое ожидание нормального распределения равно параметру дисперсия равна
получим:
Таким образом, искомые статистические оценки параметров нормального распределения:
Метод максимума правдоподобности статистического оценивания параметров распределения
На основании данных выборки полученной вследствие наблюдений над случайной величиной
необходимо оценить неизвестный параметр
Допустим, что закон распределения случайной величины
известен с точностью до параметра
и определяется с помощью функции
которая в случае дискретной случайной величины
задает вероятность события
а в случае непрерывной случайной величины
- плотность ее распределения.
Функцией правдоподобности называют функцию .
которая изображает совместное распределение случайного вектора с независимыми компонентами, каждая из которых имеет такое же распределение, что и случайная величина
Идея метода максимума правдоподобности: за статистическую оценку неизвестного параметра принимают такое его значение
для которого функция правдоподобности
рассматриваемая как функция от
при фиксированных значениях
достигает максимума.
Схема статистического оценивания параметра методом максимума правдоподобности:
1) исследуем функцию правдоподобности на максимум с помощью методов дифференциального исчисления: находим критические точки
из системы уравнений:
Для упрощения вычислений удобно вместо функции рассматривать логарифмическую функцию правдоподобности
поскольку точки экстремума для функций
и
совпадают, так как
Находим критические точки функции
из системы уравнений:
решение которой
2) используя достаточные условия экстремума функции, находим точку максимума.
Метод максимума правдоподобности статистического оценивания параметров распределения имеет серию важных преимуществ:
они состоятельные, асимптотически нормально распределены (при большом объеме выборки
их распределение приближается к нормальному) и имеют наименьшую дисперсию по сравнению с другими асимптотически нормальными оценками;
наиболее полно используются данные выборки для оценки параметров, поэтому этот метод особенно полезный при малых объемах выборки.
Недостаток метода в том, что он часто требует сложных вычислений.
Чаще всего этот метод используется при биномиальном, показательном распределениях и распределении Пуассона.
В случае биномиального распределения функция правдоподобности имеет вид:
где
После логарифмирования и приравнивания к нулю производной от получаем выражение для оценки параметра
В случае, если вариант имеет частоту
то оценка параметра
такая:
где - количество исследования по
испытаний в каждом.
Интервальные оценки параметров распределения
Статистическая точечная оценка параметра
тем точнее, чем меньше величина разницы
Если бы удалось установить, что
то число
характеризовало бы точность статистической точечной оценки
параметра
Но статистические методы не позволяют категорически утверждать, что
так как
является случайной величиной. Можно только говорить про вероятность
с которой это неравенство выполняется.
Надежностью статистической точечной оценки параметра
называется вероятность
с которой выполняется неравенство
то есть
На практике надежность оценки задается наперед, по крайней мере число выбирают близким к единице:
Например, надежность оценки означает, что при достаточно большом количестве выборок 95% из них определяют такие доверительные интервалы, в которых действительно находится неизвестный параметр.
Соотношение (3.32) перепишем в таком виде:
Интервал для которого выполняется равенство (3.32), называется доверительным интервалом (надежным интервалом), а его пределы
и
- надежными пределами для параметра распределения
Способ нахождения доверительного интервала - решить уравнение (3.32), из которого и определяют число
Для этого необходимо вычислить вероятность Это можно сделать, если известен закон распределения статистической оценки
или связанной с ней другой случайной величины, так как тогда можно использовать известные формулы из теории вероятностей:
где - функция распределения;
- плотность распределения случайной величины
Распределение x2 - "хи-квадрат"
Распределение - "хи-квадрат"
Для решения уравнения вместе с рассмотренными распределениями случайных величин в статистике применяют еще распределения "хи-квадрат", Стьюдента и Фишера-Снедекора. Рассмотрим эти распределения.
Допустим, что - независимые и нормально распределенные случайные величины, по крайней мере их математические ожидания
и средние квадратические отклонения
для любого
Случайная величина
имеет распределение с
степенями свободы.
Распределение "хи-квадрат" зависит от одного параметра
и при
оно приближается к нормальному закону.
Распределение Стьюдента
Допустим, что - нормально распределенная случайная величина, по крайней мере ее математическое ожидание
и средние квадратические отклонения
- независимая от
случайная величина, которая распределена по закону
с
степенями свободы. Тогда случайная величина:
имеет распределение Стьюдента с степенями свободы.
Распределение Стьюдента также зависит от одного параметра и при
оно приближается к нормальному закону.
3.8.4. Распределение Фишера-Снедекора
Допустим, что и
- независимые случайные величины, которые имеют
распределение с
и
степенями свободы соответственно. Случайная величина
зависит от двух параметров - степеней свободы и
Это распределение получило название -распределения, или распределения Фишера-Стедекора.
В частности, -распределению подчиняется отношение дисперсий двух независимых выборок объемов
и
из двух, нормально распределенных генеральных совокупностей с равными дисперсиями. В этом случае
и
Интервальные оценки для математического ожидания
Теорема. Допустим, что - нормально распределенный признак генеральной совокупности,
- выборочное среднее, найденное по выборке объема
из этой генеральной совокупности. Тогда
- нормально распределенная случайная величина.
Теорема. Допустим, что нормально распределенный признак генеральной совокупности, для которой
- выборочное среднее, вычисленное по выборке объема
из этой генеральной совокупности. Тогда для
где
Теорема. Допустим, что нормально распределенный признак генеральной совокупности, для которой
- выборочное среднее, вычисленное по выборке объема
из этой генеральной совокупности. Тогда для
Допустим, что - результаты
независимых наблюдений за случайной величиной
на основании которых необходимо найти доверительный интервал для неизвестного параметра
Поскольку для математического ожидания статистической точечной оценкой является выборочное среднее то для нахождения доверительного интервала
нужно решить уравнение:
Если среднее квадратическое отклонение случайной величины
известно, то решение уравнения (3.35) можно найти, используя равенство (3.33) ил (3.34).
Так, если - нормально распределенная случайна величина с известным средним квадратическим отклонением
то можно записать, что:
Тогда, если - решение уравнения
с надежностью
то интервал
является доверительным интервалом математического ожидания
Если среднее квадратическое отклонение - неизвестно, но объем выборки значительный
то доверительный интервал можно записать в виде:
где - исправленное среднее квадратическое отклонение, найденное по выборке объемом
Если среднее квадратическое отклонение - неизвестно, но объем выборки незначительный
- нормально распределенная случайная величина, то доверительный интервал также записывают с помощью формулы (3.36), где значение
находят по таблицам как решение уравнения
где - случайная величина, распределенная по закону Стьюдента с
степенями свободы.
Распределение Стьюдента зависит только от одного параметра и при
приближается к нормальному распределению. Поэтому даже если среднее квадратическое отклонение
случайной величины
неизвестно, но объем выборки значительный
то можно пользоваться формулами (3.33) или (3.34).
Если необходимо оценить математическое ожидание с заранее заданной точностью и надежностью
то минимальный объем выборки, который обеспечит эту точность, находят по формуле
(как следствие равенства ).
Пример 3.6 Случайная величина распределена нормально с известным средним квадратическим отклонением
Найти доверительный интервал с надежностью
для оценки неизвестного математического ожидания
если выборочное среднее
найдено по данным выборки объема
Решение. Из уравнения с помощью таблицы значений функции Лапласа (приложение Б) находим
Пределы доверительного интервала ищем по формулам:
Следовательно, с надежностью
Пример 3.7. Признак генеральной совокупности распределен нормально. По выборке объемом
найдено выборочное среднее
и исправленное среднее квадратическое отклонение
Оценить неизвестное математическое ожидание
с помощью доверительного интервала с надежностью
Решение. Поскольку объем выборки незначительный и среднее квадратическое отклонение неизвестно, то для нахождения пределов доверительного интервала воспользуемся формулой (3.36), где значение
находим с помощью таблицы (приложение Г):
Тогда
Следовательно, с надежностью
Пример 3.8. Найти минимальный объем выборки, на основании которой можно было бы оценить математическое ожидание случайной величины с погрешностью, которая не превышает 0,2 и надежность. 0,98, если случайная величина распределена нормально с
Решение. Из уравнения с помощью таблицы функции Лапласа (см. прил. Б) находим
По формуле (3.37) находим
Оценка истинного значения измеряемой величины
Допустим, что одним прибором проводят независимых измерений некоторой физической величины с одинаковой точностью прибора, к тому же истинное значение этой величины неизвестно. Результаты измерений
- это независимые одинаково распределенные случайные величины, поскольку они имеют то же самое математическое ожидание - истинное значение измеряемой величины и одинаковые дисперсии, так как измерение осуществляется с одинаковой точностью. На основании центральной предельной теоремы можно также утверждать, что эти случайные величины распределены нормально. Следовательно, истинное значение величины, которая измеряется, можно оценить по средним арифметическим отдельных измерений с помощью доверительных интервалов.
Пример 3.9. По данным 9-ти независимых измерений физической величины, проведенных с помощью одного прибора, найдено среднее арифметическое результатов отдельных измерений и исправленное среднее квадратическое отклонение
Оценить истинное значение измеряемой величины с надежностью
Решение. Поскольку и среднее квадратическое отклонение неизвестно, то пределы доверительного интервала находим по формуле (3.36), а значение
- с помощью таблицы (см. прил. Г):
Тогда
Следовательно, с надежностью истинное значение измеряемой величины покрывается интервалом
Доверительные интервалы для среднего квадратического отклонения нормально распределенной случайной величины
Допустим, что признак генеральной совокупности распределен нормально. Найдем доверительный интервал для среднего квадратического отклонения
с заданной надежностью
Поскольку статистической точечной оценкой для параметра
является исправленное среднее квадратическое отклонение
то для этого необходимо решить уравнение:
преобразуем двойное неравенство
где
Остается найти Для этого рассмотрим случайную величину
где - объем выборки.
Известно, что случайная величина распределена по закону
с
степенями свободы, поэтому корень квадратный из нее обозначают через
Допустим, что тогда неравенство (3.38) преобразуется так:
или
Следовательно,
где Из полученного уравнения можно с помощью таблицы
(приложение Е) найти
Вычислив по выборке и найдя по таблице
получаем искомый доверительный интервал (3.38), который покрывает параметр
с заданной вероятностью
Если то неравенство (3.38) принимает вид:
В этом случае также ищут по таблице значений
(см. прил. Е).
Оценка точности измерений
В теории ошибок принято точность измерений характеризовать с помощью среднего квадратического отклонения случайных ошибок измерений. Для оценки
используют исправленное среднее квадратическое отклонение
Пример 3.10. По данным 20-ти равноточных измерений найдено исправленное среднее квадратическое отклонение Найти точность измерения с надежностью
Решение. Найти точность измерения - означает найти доверительный интервал который покрывает
с заданной надежностью
По таблице значений
(см. приложение Е) находим
Искомый доверительный интервал:
Элементы теории корреляции
Функциональная, статистическая и корреляционная зависимости^
Две случайные величины и
могут быть связаны или функциональной зависимостью, ..или зависимостью другого рода, которая называется статистической или быть н.езависимыми. Четкая функциональная зависимость реализуется редко.
Статистической называют зависимость, во время которой изменение одной из величин вызывает изменения распределения другой.
В частности, в случае, если во время изменения одной из величин изменяется среднее значение второй, статистическую зависимость называют корреляционной.
Выборочный коэффициент корреляции
Корреляционный анализ исследует наличие и характер связей между случайными величинами и
- признаками генеральной совокупности.
Основанием для анализа зависимости между случайными величинами и
являются данные выборки, образованной вследствие независимых наблюдений над двумерной величиной
Элементами выборки являются упорядоченные пары чисел где
- выборочные значения признаков
и
соответственно, которые получают в результате
наблюдения,
- объем выборки. Выходные статистические данные, как правило, подаются в виде таблицы, строки (или столбцы) которой закреплены за выборочными значениями признаков
и
.
Если объем выборки достаточно большой, то статистические данные группируют.
Допустим, что среди выборочных значений признака можно выделить
разных значений или частных интервалов, а среди выборочных значений признака
есть
разных значений или частных интервалов. Потом переходят к построению таблицы. В случае дискретной случайной величины
в первой строке записывают проранжированные варианты случайной величины
а в первом столбце записывают проранжированные варианты случайной величины
Через
обозначим частоту появления события
Частоты
которые расположены во внутренних клетках таблицы, составляют эмпирическую (статистическую) структуру закона совместного распределения случайных величин
и
В последней строке (столбце) записывают частоты вариантов
которые обозначают через
Частоты вариантов связаны между собой соотношениями:
Выполняется также очевидное равенство:
Частоты и
вместе с соответствующими вариантами
и
характеризуют эмпирические (статистические) законы распределения одномерных случайных величин
и
Построенную таким образом таблицу называют корреляционной.
Если для построения корреляционной таблицы вместо вариантов возьмем частные интервалы, то в каждом из них необходимо выбрать своего "представителя", то есть середину соответствующего интервала, тогда числа означают середины соответствующих интервалов.
Из теории вероятностей известно, что степень связи между случайными величинами и
определяется такими числовыми характеристиками их совместного распределения, как ковариация
и коэффициент корреляции
которые вычисляются по формулам:
Основная задача корреляционного анализа состоит в выявлении зависимостей между случайными величинами и
и может быть решена путем построения статистических оценок коэффициента корреляции.
Статистическую точечную оценку для коэффициента корреляции вычисляют по формуле:
Выборочным коэффициентом корреляции называется статистическая точечная оценка коэффициента корреляции между случайными величинами
и
, которая вычисляется по формуле (3.39).
Выборочный коэффициент корреляции характеризует связь между случайными величинами и
- признаками генеральной совокупности:
а) если то связь между
и
является положительной, и они уменьшаются или увеличиваются одновременно;
б) если то связь между
и
является отрицательной - с увеличением одной из них вторая уменьшается и наоборот; если
то случайные величины
и
- некоррелированные, и это не означает только отсутствие линейной связи между ними.
Выборочный коэффициент корреляции удовлетворяет неравенство:
На практике пользуются также коэффициентом детерминации.
Коэффициентом детерминации называется квадрат выборочного коэффициента корреляции
Пример 3.11 По данным 20-ти туристических фирм были установлены затраты на рекламу (ус. ед.) и количество туристов
(чел.), которые воспользовались услугами каждой фирмы. Исследовать зависимость между этими признаками (в таблице 3.10 представлены данные, которые проранжированы по величине затрат на рекламу).
Таблица 3.10
Решение. По таблице можно видеть, что вообще увеличение затрат на рекламу приводит к увеличению количества туристов, которые пользуются услугами фирмы, хотя в отдельных случаях наличие такой зависимости может и не прослеживаться. В каждом отдельном случае количество туристов, которые воспользовались услугами фирмы, зависит не только от размера затрат на рекламу, а и от того как сработают другие факторы, определяющие эту величину.
Проверим наличие прямой зависимости между исследуемыми признаками.
Для этого вычислим выборочный коэффициент корреляции. Для его расчета составим таблицу 3.10 и воспользуемся формулой (3.39).
Таблица 3.10.
В результате получим: Полученная величина является свидетельством наличия достаточно тесной прямой зависимости между исследуемыми признаками. Коэффициент детерминации вычисляем как квадрат выборочного коэффициента корреляции
а это означает, что 65,69% вариации количества клиентов, которые воспользовались услугами фирмы, объясняется вариацией затрат фирм на рекламу своих услуг.
Основные понятия и методы регрессионного анализа
В отличие от корреляционного анализа, который исследует наличие и характер связей между случайными величинами и
- признаками генеральной совокупности, регрессионный анализ устанавливает аналитическую форму этой зависимости.
Если и
- коррелированные случайные величины. С приближением величин
к единице зависимость между этими случайными величинами приближается к линейной зависимости вида
Как известно, уравнение линейной регрессии на
имеет вид:
где
Выборочным уравнением линейной регрессии на
называется уравнение (3.40), если коэффициент в нем выбран в виде точечных оценок
и
определенных соотношением (3.41).
Допустим, что - независима переменная (факторный признак), а
- зависимая переменная (результативный признак). Для получения полного описания зависимости между случайными величинами
и
необходимо найти аналитическое выражение совместного распределения этих величин, то есть функцию:
что, как правило, практически невозможно. Поэтому во время исследования аналитической зависимости между случайными величинами
и
ограничиваются изучением зависимости между одной из них и условным математическим ожиданием другой, в частности зависимостью вида:
- выборочное уравнение регрессии
- выборочное уравнение регрессии
В приведенных выборочных уравнениях регрессии и
- выборочные условные математические ожидания, соответственно,
и
а
и
- выборочные функции регрессии соответственно. Аналитические выражения для функций
и
строим на основании проведенной выборки
Характер соответствующей регрессионной модели помогает выбрать диаграмма рассеивания точек
на плоскости.
Допуская, что признак в генеральной совокупности распределен нормально; дисперсия результативного признака
не зависит от факторного признака
характер связи между результативным и факторным признаками - линейный, тогда имеем простейшую регрессионную модель - линейной регрессии, когда выборочное уравнение регрессии
имеет такой вид:
В этом случае для точечных оценок и
можно построить доверительные интервалы и оценить их значимость.
Основным методом получения точечных оценок для параметров и
уравнения регрессии является метод наименьших квадратов.
Метод наименьших квадратов
Допустим, что выборка объемом
- не сгруппирована. Поскольку мы допустили существование линейной связи между результативным и факторным признаками, то диаграмма рассеивания точек
имеет вид:
Рис. 3.3. Диаграмма рассеивания точек
Основная идея метода наименьших квадратов состоит в том, что точечными оценками и
параметров
и
выбирают такие числа, для которых прямая
является "ближайшей" к точкам
Мерой отклонения искомой прямой от точек выбирают величину:
то есть сумму квадратов разностей между ординатами прямой и ординатами точек для одних и тех же значений
Если числа и
- такие, что функция
имеет наименьшее значение, то прямая
меньше всего отклоняется от точек
Методом наименьших квадратов называется метод нахождения статистических оценок параметров
и
с помощью функции
исходя из равенства:
Для нахождения минимума функций мы должны решить систему уравнений:
которую элементарными преобразованиями приводим к такому виду:
В случае ср-группированной выборки для определения неизвестных параметров и
получаем систему уравнений:
где - частота соответствующих вариантов
и
- частота появления события
Допуская, что признак не является постоянным, то есть среди вариантов
обязательно есть разные числа, делаем вывод про определитель системы:
Отсюда следует, что исследуемая система уравнений имеет единое решение:
где
Таким образом, искомое уравнение регрессии принимает такой вид:
Коэффициент называют коэффициентом регрессии, который характеризует отношение величины прироста результативного признака
к величине прироста факторного признака
Линейное уравнение регрессии можно представить в другом виде через статистическую оценку коэффициента корреляции:
Необходимо заметить, что в случае нарушения предположения про линейность связи между результативным и факторным признаками, а про это можно сделать вывод из диаграммы рассеивания выборки, используют нелинейные регрессионные модели. В нелинейных регрессионных моделях связь может выражаться, например, такими уравнениями:или
Статистические оценки параметров в этих нелинейных моделях также можно найти с помощью метода наименьших квадратов.
Пример 3.12. Найти уравнение регрессии на основании выборки:
Решение. Для нахождения уравнения регрессии проведем необходимые вычисления:
Для вычисления выборочного коэффициента корреляции вычислим предварительно:
Тогда
Следовательно, уравнение регрессии полученное на основании выборки:
Статистическая проверка статистических гипотез
Данные выборочных наблюдений часто являются основанием для принятия одного из нескольких альтернативных решений (продукция может быть качественной или бракованной, точность обработки изделия в пределах нормы или ниже нормы и т.п.). То есть, говорится о выдвижении гипотезы, которую после проведения эксперимента или принимают, или отклоняют. Если эксперимент имеет статистический (стохастический) характер, то говорят, что гипотеза является статистической.
Статистической называют гипотезу о свойствах генеральной совокупности, которая проверяется на основании выборки.
Статистическими гипотезами могут быть такие утверждения про закон распределения, про значения параметров распределения, про равенство параметров двух или нескольких распределений, про независимость выборок и др.
Например, статистическими являются гипотезы:
а) генеральная совокупность распределена по закону Пуассона;
б) дисперсии двух нормальных совокупностей равны между собой.
В математической статистике выделяют два основных типа статистических гипотез:
1) непараметрические - гипотезы про закон распределения вероятностей случайной величины (признаки генеральной совокупности);
2) параметрические - гипотезы про значения параметров распределения случайной величины (признаки генеральной совокупности).
Вместе с выдвинутой гипотезой рассматривают и гипотезу, которая ей противоречит. Если выдвинутая гипотеза будет отклонена, то имеет место гипотеза, которая ей противоречит. Поэтому эти гипотезы нужно различать.
Основной (нулевой) называют выдвинутую гипотезу, ее обозначают
Альтернативной (конкурирующей) называют гипотезу, которая полностью или частично логически отрицает нулевую гипотезу, ее обозначают
Например, если основной гипотезой является гипотеза про значение одного из параметров нормально распределенной случайной величины
тогда альтернативной является гипотеза
Простой параметрической гипотезой называют гипотезу, которая утверждает, что все неизвестные параметры имеют некоторые числовые значения.
Сложной параметрической гипотезой называют гипотезу, которая состоит из конечного или бесконечного числа простых параметрических гипотез.
Например, если - параметр экспоненциального распределения, то гипотеза
является простой, тогда альтернативная гипотеза
является сложной.
Задача про статистическую проверку статистических гипотез формулируется так: рассмотреть некоторую статистическую гипотезу и на основании изучения статистических данных (выборки) подтвердить справедливость выдвинутой гипотезы или опровергнуть ее. При этом указывается также вероятность того, что принятое решение является правильным или ошибочным. Проблема уменьшения вероятности того, что принятое решение ошибочно, является также одной из задач математической статистики.
В результате статистической проверки гипотез может быть принято одно из двух правильных решений:
1) гипотеза принимается, и она истинная;
2) гипотеза отклоняется, и она неистинная.
Вместе с этим в результате статистической проверки статистической гипотезы могут быть допущены ошибки, то есть приняты неправильные решения двух видов:
1) ошибочно отклонена истинная гипотеза;
2) ошибочно принята неистинная гипотеза.
Ошибкой первого рода называют неправильное решение, в результате которого отклоняется правильная гипотеза.
Ошибкой второго рода называют неправильное решение, в результате которого принимается неправильная гипотеза.
Оказывается, что ошибка первого рода имеет более весомые последствия, чем ошибка второго рода. Чтобы застраховать себя от ошибки первого рода или по крайней мере привести к минимуму риск ее допущения, вводится число которое выражает вероятность отклонения правильной гипотезы.
Уровнем значимости называют вероятность допущения ошибки первого рода, его обозначают
Уровень значимости задают заранее и чаще всего его выбирают равным
Если
то это означает, что вероятность допустить ошибку первого рода является мала: мы рискуем допустить ее в пяти случаях и ста.
Гипотетической называют информацию про случайную величину, которая содержится в гипотезе.
Эмпирической называют информацию про случайную величину, которую получают на основании выборки.
Статистический критерий проверки нулевой гипотезы
Для проверки нулевой гипотезы используют специально подобранную случайную величину, точное или приблизительное распределение которой известно. Эту величину обозначают через или
если она распределена нормально, или
- по закону Фишера-Снедекора,
- по закону Стьюдента,
- по закону "хи-квадрат" и т.д. С целью обобщения обозначим эту величину
Статистическим критерием (или просто критерием) называют случайную величину которая служит для проверки нулевой гипотезы
Эмпирическим значением критерия гипотезы называют значение случайной величины вычисленное на основании данных определенной выборки. Обозначают эмпирическое значение
Оказывается, что при одних значениях гипотеза
принимается, а при других - отклоняется.
Критической областью называется совокупность значений критерия при которых нулевая гипотеза
отклоняется.
Областью принятия гипотезы называется совокупность значений критерия
при которых нулевую гипотезу
принимают.
Таким образом, сформулируем основной принцип проверки статистических гипотез:
если эмпирическое значение критерия
принадлежит критической области, то нулевую гипотезу
отклоняют;
если эмпирическое значение критерия
принадлежит области принятия гипотезы
то нулевую гипотезу
принимают.
В случае одномерности случайной величины критическая область, как правило, является множеством точек определенных интервалов на прямой, которые отделены от области принятия гипотезы так называемыми критическими точками
Критическими точками (пределами) называют точки, которые отделяют критическую область от области принятия гипотезы.
То есть, для нахождения критической области достаточно определить критические точки.
Рассматривают три вида критических областей в зависимости от конкурирующей гипотезы:
правосторонняя критическая область - это та область на числовой прямой, которая определяется неравенством
левосторонняя критическая область - это та область на числовой прямой, которая определяется неравенством
двусторонняя критическая область - это та область на числовой прямой, которая определяется неравенством
( предполагая, что
).
Для нахождения критической области задается уровень значимости и ищут критические точки
по таким соотношениям:
для правосторонней критической области:
для левосторонней критической области:
для двусторонней симметричной критической области:
Вполне понятно, что для определенной гипотезы можно построить много разных критериев ее проверки, по каждому из них можем получить разные результаты по поводу принятия нулевой гипотезы на основании той же самой выборки.
Мы строили критическую область, исходя из требования, чтобы вероятность попадания в нее критерия была равной при условии, что именно нулевая гипотеза справедлива. Случается, что целесообразно ввести в рассмотрение вероятность попадания критерия в критическую область при другом условии, а именно - при условии, что нулевая гипотеза неправильная, а значит истинная - конкурирующая. Для определения этого критерия вводится характеристика, которая имеет называние мощности критерия.
Мощностью критерия называют вероятность попадания критерия в критическую область при условии, что конкурирующая гипотеза является истинной.
Другими словами, мощность критерия определяется как вероятность не допустить ошибку второго рода при выбранном критерии.
Проверка гипотезы про закон распределения. Критерия согласия Пирсона
Критерием согласия называют статистический критерий проверки гипотезы про закон распределения вероятностей случайной величины (признаки генеральной совокупности).
Есть несколько критериев согласия: критерий Пирсона, критерий Колмогорова и другие.
Рассмотрим критерий согласия Пирсона (критерий ), который основывается на сравнении эмпирических и теоретических частот.
Допустим, что выдвинута гипотеза случайная величина
распределена по закону А.
Осуществив выборку объема находят и записывают в виде таблицы 3.12 интервальное статистическое распределение частот:
Таблица 3.12
Поскольку проверяется гипотеза про то, что распределение признака генеральной совокупности описывается определенной функцией распределения
или (что эквивалентно) плотностью распределения
Тогда для каждого интервала
можно определить теоретические вероятности
попадания значений случайной величины
в этот интервал, а следовательно, и теоретические частоты
Для вычисления вероятностей используют формулы:
Отметим, что для вычисления вероятностей и
в формулах (3.42) подставляют, соответственно,
и
Тогда
Полученные результаты вычислений удобно записать в виде таблицы 3.13:
Таблица 3.13
В соответствии с критерием Пирсона для проверки гипотезы вводится случайная величина (статистика)
где - количество групп в статистическом распределении выборки;
- эмпирическая частота признака
в
группе;
- теоретическая частота;
- вероятность того, что значение
принадлежит
группе.
Известно, что при закон распределения статистики
стремится к закону распределения
с
степенями свободы, где
- количество групп в статистическом распределении выборки;
- количество параметров гипотетического распределения А. Например,
- для нормального распределения,
- для распределения Пуассона,
- для равномерного распределения.
Для критерия строят правостороннюю критическую область по правилу:
По данному уровню значимости и количеству степеней свободы
из таблицы критических точек распределения
(в которой даны решения уравнения (3.43)), находят критическую точку
(приложение Б).
На основании данных выборки, записанных в таблице, вычисляют эмпирическое значение критерия Пирсона:
Сравниваем значение и
Если
то гипотезу
отклоняют. Если же
то гипотезу
принимают.
Применение критерия требует соблюдения таких условий:
экспериментальные данные должны быть независимыми, то есть выборка должна быть случайной;
объем выборки должен быть достаточно большим (практически не менее 50 единиц), а частота каждой группы - не менее, чем 5.
Если последнее условие не выполняется, то проводится предварительное объединение немногочисленных групп.
Критерий согласия Пирсона дает ответ на вопрос, является ли расхождение между эмпирическими и теоретическими частотами обусловлено случайностью, или оно является значимым.
Как и любой другой критерий, критерий согласия Пирсона не доказывает справедливость гипотезы а только позволяет установить на принятом уровне значимости согласованность или несогласованность гипотезы
с данными наблюдений.
Пример 3.13 При уровне значимости проверить гипотезу про нормальное распределение генеральной совокупности, если известны эмпирические и теоретические частоты:
Таблица 3.14
Решение. Согласно критерию Пирсона для проверки гипотезы случайная величина
распределена по нормальному закону, необходимо вычислить эмпирическое значение критерия Пирсона:
А для контроля вычислений эту формулу преобразуют так:
Прежде всего убедимся, что экспериментальные данные отвечают всем необходимым требованиям, а именно: выборка является случайной, объем выборки - достаточно большой, частота каждой группы - не менее, чем 5. Действительно, все требования выполнены Переходим к вычислениям. Для этого составим таблицу 3.15.
Таблица 3.15
Для контроля вычислений:
По данному уровню значимости и количеству степеней свободы
по таблице критических точек распределения
(см. приложение В) находим критическую точку
Сравниваем значения и
Поскольку
то гипотезу
принимают. Другими словами, расхождение между эмпирическими и теоретическими частотами незначительное. То сеть данные наблюдения согласуются с гипотезой про нормальное распределение генеральной совокупности.
Проверка гипотезы про сравнение среднего значения признака генеральной совокупности со стандартом
В критериях для проверки гипотезы про то, что значение математического ожидания
исследуемого признака генеральной совокупности совпадает со стандартом
используют статистику
- выборочное среднее. Различают такие модели в зависимости от информации о генеральной совокупности, которой мы владеем.
Модель А. Гипотеза про значение математического ожидания нормального закона распределения при условии известной дисперсии.
Допустим, что случайная величина распределена нормально с неизвестным математическим ожиданием но известной дисперсией
Необходимо на основании выборки проверить нулевую гипотезу
про равенство математического ожидания
определенному числу
При этом допускаем, что известны такие величины: данные выборки объема
среднее квадратическое отклонение
гипотетическое значение математического ожидания
уровень значимости
Тогда следует, что выборочное среднее для выборки из нормального распределения с параметрами
имеет нормальное распределение с параметрами
поэтому при условии истинности гипотезы
(когда
) случайная величина
которую берут за критерий проверки гипотезы также распределена нормально с параметрами
Действительно,
Следовательно, плотность распределения случайной величины имеет вид:
Поэтому
Если конкурирующая гипотеза имеет вид: то рассматривают двустороннюю симметричную область, для которой критическую точку ищут из соотношения:
Поскольку
то
то есть
Правило 1. Если нулевая гипотеза а конкурирующая гипотеза
то проверку гипотезы
проводим по такой схеме:
1) вычисляем эмпирическое значение критерия по формуле:
2) находим по таблице значений функции Лапласа критическое значение используя уравнение:
3) делаем вывод про выдвинутую гипотезу: если то гипотезу
принимаем; если
то отклоняем гипотезу
в польщу альтернативной
Если конкурирующая гипотеза имеет вид: то рассматривают правостороннюю критическую область, для которой критическую точку ищут из соотношения:
Тогда или
Если конкурирующая гипотеза имеет вид то рассматривают левостороннюю критическую область, для которой
Правило 2. Если нулевая гипотеза а конкурирующая гипотеза
или
то проверку гипотезы
проводим по схеме правила 1 с такими изменениями:
1) вместо уравнения (3.45) для нахождения критического значения используем уравнение:
2) делаем вывод касаемо выдвинутой гипотезы
а) если то нет оснований отклонять гипотезу
если
то отклоняем гипотезу
в пользу альтернативной
б) если то нет оснований отклонять гипотезу
если
то гипотезу
отклоняем и принимаем гипотезу
Пример 3.14. Из нормально распределенной генеральной совокупности с известным средним квадратическим отклонением получили выборку объема
По этой выборке найдено выборочное среднее
Необходимо для уровня значимости
проверить нулевую гипотезу
при наличии конкурирующей: а)
Решение. Вычислим эмпирическое значение критерия по формуле (3.44):
Рассмотрим случай:
а) для альтернативной гипотезы вычислим значение
по формуле
(см. приложение Б). Поскольку
то отклоняем гипотезу
в пользу
б) для альтернативной гипотезы находим значения
по формуле (3.46):
(см. приложение Б). Поскольку
отклоняем гипотезу
в пользу гипотезы
Модель Б. Гипотеза про значение математического ожидания нормального закона распределения при условии неизвестной дисперсии.
Допустим, что случайная величина нормально распределена с неизвестным математическим ожиданием
и дисперсией
Требуется на основании выборки проверить нулевую гипотезу
про равенство математического ожидания
определенному числу
При этом допускаем, что известны такие величины: данные выборки объема
гипотетическое значение математического ожидания
уровень значимости
Поскольку среднее квадратическое отклонение неизвестно, то для проверки гипотезы
не сможем воспользоваться статистикой из-за того, что для нее невозможно будет вычислить эмпирическое значение
В данном случае используем статистику
где - выборочное среднее;
- исправленное среднее квадратическое отклонение.
Можно показать, что при условии истинности гипотезы случайная величина
имеет распределение Стьюдента с
степенями свободы.
Дальнейшее построение критической области для дву- и односторонних проверок гипотезы осуществляется аналогично случаю модели А с отличием в том, что критические точки (тут вместо они будут обозначаться через
) определяются по таблице критических точек распределения Стьюдента (см. приложение Г), а не значений функции Лапласа. При том же самом уровне значимости
значение
будет больше, чем
Правило 1. Если нулевая гипотеза а конкурирующая гипотеза
то проверку гипотезы
проводим по такой схеме:
1) вычисляем эмпирическое значение критерия по формуле:
2) находим по таблице критических точек распределения Стьюдента при данном уровне значимости (для двусторонней критической области) и количестве степеней свободы
критическую точку
3) делаем вывод про выдвинутую гипотезу: если то гипотезу принимаем; если
то отклоняем гипотезу
в пользу альтернативной
Правило 2. Если нулевая гипотеза а конкурирующая гипотеза
или
то проверку гипотезы
проводим по схеме правила 1 с такими изменениями:
1) по таблице критических точек распределения Стьюдента с данным уровнем значимости (для односторонней критической области) и количестве степеней свободы
находим критическую точку
(см. приложение Г);
2) делаем вывод относительно выдвинутой гипотезы:
а) если то нет оснований отклонять гипотезу
если
то отклоняем гипотезу
в пользу альтернативной
б) если то нет оснований отклонять гипотезу
если
то гипотезу
отклоняем и принимаем гипотезу
Пример 3.15. Из нормально распределенной генеральной совокупности получена выборка объема По этой выборке найдено выборочное среднее
и исправленное среднее
Необходимо для уровня значимости
проверить нулевую гипотезу
при наличии конкурирующей:
Решение. Вычислим эмпирическое значение критерия по формуле (3.45):
Рассмотрим отдельно случаи:
а) для альтернативной гипотезы вычислим значение
по таблице для числа степеней свободы
и уровня значимости
пользуясь приложением Г, находим
(для двусторонней критической области). Поскольку
то отклоняем гипотезу
в пользу
б) для альтернативной гипотезы находим значение
по таблице для числа степеней свободы
и уровня значимости
пользуясь приложением Г, находим
(для правосторонней критической области). Поскольку
гипотезу
отклоняем и принимаем гипотезу
Проверка гипотезы про равенство дисперсий двух независимых случайных величин
Проверять гипотезу про равенство двух дисперсий приходится достаточно часто, например, во время анализа стабильности производственного процесса до и после введения новой технологии (колебание в выпуске продукции измеряется с помощью квадратического отклонения), изучения качества измерительных приборов (сравнение дисперсий показателей отдельных приборов), изучения степени однородности двух совокупностей по определенному признаку (квалификации работников, стажа персонала и т.п.). Необходимость проверить равенство дисперсий возникает и во время сравнения средних величин совокупностей.
Следовательно, допустим, что случайные величины и
которые характеризуют две статистические совокупности, независимые, нормально распределенные с неизвестными дисперсиями
и
соответственно.
проверим гипотезу про равенство дисперсий случайных величин
и
Считают известными:
1) данные двух независимых выборок объемов и
для случайных величин
и
соответственно;
2) уровень значимости
критерий проверки гипотезы основывается на сопоставлении исправленных выборочных дисперсий
и
вычисленных по данным выборок.
Так, в предположениях данной модели случайная величина
при условии выполнения гипотезы распределена по закону Фишера-Снедекора с
и
степенями свободы.
Правило. Если нулевая гипотеза а конкурирующая
то проверку гипотезы выполняем по схеме:
1) находим эмпирическое значения критерия по формуле (3.38);
2) по таблице критических точек распределения Фишера-Снедекора для заданного уровня значимости и степеней свободы
и
находим критическую точку правосторонней области
(приложение Д);
3) делаем вывод о принятии гипотезы
а) если то гипотезу
принимаем;
б) если то гипотезу
отклоняем в пользу альтернативной гипотезы
В случае, когда критерий согласия
и
Замечание. Если нулевая гипотеза а конкурирующая
то проверку гипотезы выполняем по сформулированному правилу, в котором изменяется только методика нахождения критического значения
а именно: в таблице критических точек распределения Фишера-Снедекора критическую точку
определяем по уроню значимости
в два раза меньшим, чем заданный, и степеней свободы
и
(см. приложение Д).
Пример 3.16. Даны две независимые выборки объемом и
которые получены из генеральных совокупностей
и
распределенных по нормальному закону. Найдены исправленные выборочные дисперсии
и
Проверим при уровне значимости
нулевую гипотезу про равенство генеральных дисперсий при конкурирующей гипотезе
Решение. Найдем значение (см. приложение Д). Критическая область - правосторонняя. Вычислим значение наблюдаемого критерия:
Следовательно, нет оснований отклонять нулевую гипотезу.
Проверка гипотезы про значимость коэффициента корреляции
Допустим, что двумерная генеральная совокупность распределена нормально. Из этой совокупности получили выборку объема
по этой выборке найден коэффициент корреляции
который отличный от нуля. Поскольку выборка случайная, то еще нельзя сделать вывод, что коэффициент генеральной совокупности
также отличен от нуля. В конце-концов нас интересует именно этот коэффициент, поэтому возникает необходимость при заданном уровне значимости
проверить нулевую гипотезу
про равенство нулю генерального коэффициента корреляции при конкурирующей
Если нулевая гипотеза отклоняется, то это означает, что выборочный коэффициент корреляции значительно отличается от нуля (является значимым), а и
- коррелированные.
Если нулевая гипотеза принимается, то то выборочный коэффициент корреляции незначимый, а и
- коррелированные.
За критерий проверки нулевой гипотезы примем случайную величину:
Величина при справедливой нулевой гипотезе имеет распределение Стьюдента с
степенями свободы.
Поскольку конкурирующая гипотеза то критическая область - двусторонняя, которая строится исходя из требования, чтобы вероятность попадания критерия
в эту область в предположении справедливой нулевой гипотезы была равна принятому уровню значимости
Правило. Для того, чтобы при заданном уровне значимости проверить нулевую гипотезу
про равенство нулю генерального коэффициента корреляции нормальной двумерной случайной величины при конкурирующей гипотезе
необходимо:
1) вычислить значение наблюдаемого критерия:
2) по таблице критических точек распределения Стьюдента при данном уровне значимости и степенями свободы
найти критическую точку
для двусторонней критической области (см. приложение Г);
3) делаем вывод касательно выдвинутой гипотезы:
а) если то нет оснований отклонят гипотезу
б) если то отклоняем гипотезу
в пользу альтернативной.
Пример 3.17. По выборке объема полученной из нормально распределенной генеральной совокупности, вычислен выборочный коэффициент корреляции
Проверим при уровне значимости
нулевую гипотезу
про равенство нулю генерального коэффициента корреляции при конкурирующей гипотезе
Решение. Критическая точка (см. приложение Г). Вычислим значение наблюдаемого критерия:
Поскольку
то нулевая гипотеза отклоняется, то есть
и
коррелированные.
Определение размаха вариации
Методические указания и решение типовой задачи
Для характеристики совокупностей и исчисленных средних величин важно знать, какая вариация изучаемого признака скрывается за средними. Рассмотрим пример расчета размаха вариации.
Задача с решением 1.
Имеются следующие данные о производительности труда рабочих в двух бригадах:
Средняя производительность труда в обеих бригадах одинакова:
Однако в первой бригаде вариация производительности труда значительно больше, чем во второй, и можно сказать, что первая бригада по своему составу в отношении изучаемого приказа менее однородна, чем вторая. Для изменения степени варьирования признака служат показатели вариации. Наиболее простым показателем вариации является размах вариации , который определяется как разновидность между наибольшим и наименьшим значением признака:
Для нашего примера размах вариации производительности труда для первой бригады составляет: 18-2=16; для второй бригады: 12-8=4. Этот показатель прост в вычислении и указывает на общие размеры вариации, но он не дает представления о степени колеблемости внутри совокупности, так как вычисляется на основе только двух крайних значений приказа совокупности.
Определение среднего линейного отклонения по индивидуальным данным и в рядах распределения
Чтобы определить вариацию признака единиц совокупности, надо исчислить отклонения каждого значения признака х от средней арифметической :
и т.д.
При этом отклонения могут быть положительными или отрицательными в зависимости от значений признака. Из полученных значений отклонений необходимо исчислить среднюю арифметическую:
Известно, что сумма отклонений всех значений признака от средней арифметической будет равна нулю. Для определения среднего линейного отклонения, которое часто называют средним абсолютным отклонением, необходимо взять значения отклонений по абсолютной величине без учета знака. Итак, среднее линейное (абсолютное)отклонение есть средняя арифметическая из абсолютных отклонений отдельных значений признака от общей средней:
Задача с решением 2.
Исчислим среднее линейное отклонение по данным типовой задачи 1 гл. 6.
Порядок расчета среднего линейного отклонения следующий:
- 1. по значениям признака исчисляется средняя арифметическая
- 2. определяются отклонения каждой варианты
от средней
- 3. рассчитывается сумма абсолютных величин отклоне-:
- 4. сумма абсолютных величин отклонений делится на число значений:
Если данные наблюдения представлены в виде дискретного ряда распределения с частотами, среднее линейное отклонение исчисляется по формуле средней арифметической взвешенной:
Рассмотрим пример расчета среднего линейного отклонения взвешенного.
Задача с решением 3.
Имеются данные о производительности труда 50 рабочих:
Определить среднюю производительность труда одного рабочего:
Отклонения каждого значения признака от средней и взвешенные отклонения представлены в таблице. Определим среднее линейное отклонение:
Среднее линейное отклонение- величина именованная и выражается в единицах измерения признака.
Если статистические данные представлены в виде интервального ряда распределения, то предварительно определяется дискретная величина признака в каждой группе, а затем производится расчет по средней арифметической взвешенной, как указано выше.
Порядок расчета среднего линейного отклонения взвешенного следующий:
- 1. вычисляется средняя арифметическая взвешенная:
;
- 2. определяются абсолютные отклонения вариант от средней
- 3. полученные отклонения умножаются на частоты
- 4. находится сумма взвешенных отклонений без учета знака
- 5. сумма взвешенных отклонений делится на сумму частот
Этот показатель делает более полное представление о степени колеблемости признака по сравнению с размахом вариации.
Расчет дисперсии и среднего квадратического отклонения по индивидуальным данным и в рядах распределения
Методические указания и решение типовых задач
Основными показателями вариации в статистике являются дисперсия и среднее квадратическое отклонение.
Дисперсия - это средняя арифметическая квадратов отклонений каждого значения признака от общей средней. Дисперсия обычно называется средним квадратом отклонений и обозначается . В зависимости от исходных данных дисперсия может вычисляться по средней арифметической простой или взвешенной:
- дисперсия невзвешенная (простая);
- дисперсия взвешенная.
- Среднее квадратическое отклонение представляет собой корень квадратный из дисперсии и обозначается
:
- среднее квадратическое отклонение невзвешенное;
- среднее квадратическое отклонение взвешенное.
Среднее квадратическое отклонение - это обобщающая характеристика абсолютных размеров вариации признака в совокупности. Выражается оно в тех же единицах измерения, что и признак (в метрах, тоннах, процентах, гектарах и т.д.). Вычислению среднего квадратического отклонения предшествует расчет дисперсии. Покажем расчет на примерах.
Задача с решением 4.
Исчислим дисперсию по данным типовой задачи 3 гл. 6.
Исчислим среднюю арифметическую взвешенную:
Значения отклонений от средней и их квадратов представлены в таблице. Определим дисперсию:
Среднее квадратное отклонение будет равно:
Если исходные данные представлены в виде интервального ряда распределения, то сначала надо определить дискретное значение признака, а далее применить тот же метод, что изложен выше.
Задача с решением 5.
Покажем расчет дисперсии для интервального ряда на данных о распределении посевной площади колхоза по урожайности пшеницы:
Средняя арифметическая равна:
Исчислим дисперсию:
Порядок расчета дисперсии в этом случае следующий:
- 1. определяют среднюю арифметическую взвешенную
- 2. находят отклонение от средней
- 3. возводят в квадрат отклонение каждой варианты от средней
- 4. умножают варианты отклонений на веса (частоты)
- 5. суммируют полученные произведения
- 6. полученную сумму делят на сумму весов (частот):
Расчет дисперсии по формуле По индивидуальным данным и в рядах распределения
Техника вычисления дисперсии сложна, а при больших значениях вариант и частот может быть громоздкой. Расчеты можно упростить, используя свойства дисперсии. Напомним некоторые из них.
1. Уменьшение или увеличение весов (частот) варьирующего признака в определенное число раз дисперсии не изменят. 2. Уменьшение или увеличение каждого значения признака на одну и ту же постоянную величину А дисперсии не изменят. 3. Уменьшение или увеличение каждого значения признака в какое-то число раз к соответственно уменьшает или увеличивает дисперсию в раз, а среднее квадратическое отклонение - в
раз. 4. Дисперсия признака относительно произвольной величины всегда больше дисперсии относительно средней арифметической на квадрат разности между средней и произвольной величиной:
. Если А равно нулю, то приходим к следующему равенству:
, т. е дисперсия признака равна разности между средним квадратом значений признака и квадратом средней.
Каждое свойство при расчете дисперсии может быть применено самостоятельно или в сочетании с другими. Воспользуемся указанными свойствами для вычисления дисперсии.
Задача с решением 6.
Рассмотрим расчет дисперсии по формуле по индивидуальным данным. Имеются следующие данные о производительности труда рабочих:
Произведем следующие расчеты:
Порядок расчета дисперсии следующий: 1. определяют среднюю арифметическую 2. возводят в квадрат среднюю арифметическую
3. возводят в квадрат каждую варианту ряда
4. находят сумму квадратов вариант
5. делят сумму квадратов вариант на их число, т.е. определяют среднии квадрат
6. определяют разность между средним квадратом признака и квадратом средней
Покажем расчет дисперсии по этому методу в рядах распределения.
Задача с решением 7.
Исчислим дисперсию в дискретном ряду распределения, используя табл. 6.6.
Получили тот же результат, что в табл. 6.6 этой главы. Покажем расчет дисперсии в интервальном ряду распределения.
Задача с решением 8.
Имеются следующие данные о распределении посевной площади колхоза по урожайности пшеницы:
В подобных примерах прежде всего определяется дискретное значение признака в каждом интервале, а затем применяется метод расчета, указанный выше:
Этот способ расчета дисперсии удобен при машинной обработке данных. Порядок расчета дисперсии по этой формуле в нашем примере следующий:
1) определяют среднюю арифметическую 2) возводят в квадрат полученную среднюю
3) возводят в квадрат каждую варианту
4) умножают квадраты вариант на частоты
5) суммируют полученные произведения
6) делят полученную сумму на сумму весов и получают средний квадрат признака
7) находят разность между средним значением квадратов и квадратом средней арифметической, т.е. дисперсию
.
Расчет дисперсии по способу моментов
Методические указания и решение типовой задачи
Расчет дисперсии можно значительно упростить, если применить способ моментов (способ отсчета от условного нуля). Этим способом удобно пользоваться, когда значения признака заданы в виде рядов распределения с равными интервалами.
Задача с решением 9.
Покажем расчет дисперсии по способу моментов, используя данные задачи 7 гл. 5. Представим условие и необходимые расчеты в следующей таблице:
Поясним расчеты. Воспользуемся тем, что уменьшение или увеличение каждого значения признака на одну и ту же постоянную величину не изменяет дисперсии. Применяя это свойство, можно исчислить дисперсию не по заданным вариантам, а по отклонениям их от какого-то постоянного числа. В рядах распределения с равными интервалами за постоянное число принято брать варианту ряда с наибольшей частотой. В нашем примере это А = 1300.
Отнимая это число от каждой варианты, получим значения признака, представленные в гр. 3 табл. 6.19. Отклонение от постоянной условной варианты в третьей группе равно нулю.
Используя третье свойство дисперсии, уменьшим все варианты в несколько раз. Для всех вариант кратным числом является величина интервала . Разделив
на 200, получим упрощенные значения признака, приведенные в гр. 4. Используя оба свойства дисперсии и воспользовавшись формулой
, получим следующую формулу для расчета дисперсии:
или в развернутом виде:
Исчислим дисперсию для нашего примера:
Среднее квадратическое отклонение составит:
Среднее квадратическое отклонение может быть исчислено сразу по формуле
В статистике величину
называют моментом второго порядка и условно обозначают символом а величину
моментом первого порядка и обозначают
Учитывая это, формулы дисперсии и среднего квадратического отклонения можно записать так:
Определение коэффициента вариации
Методические указания и решение типовой задачи
Коэффициент вариации — это отношение среднего квадратического отклонения к средней арифметической:
В отличие от среднего квадратического отклонения коэффициент вариации является величиной относительной, что очень удобно для сравнения вариаций в любых совокупностях.
Задача с решением 10.
Исчислим коэффициент вариации по данным типовых задач 5 и 6 гл. 6:
По величине коэффициента вариации можно судить о степени вариации признаков совокупностей. Чем больше его величина, тем больше разброс значений признака вокруг средней, тем менее однородна совокупность по своему составу и тем менее представительна средняя.
Возможно, вас также заинтересует:
- Заказать работу по статистике помощь в учёбе
- Решение задач по статистике с примерами онлайн
- Контрольная работа по статистике заказать
- Курсовая работа по статистике заказать готовую онлайн
- РГР по статистике расчетно графическая работа
Математическая статистика для университета
Основные понятия математической статистики:
Математическая статистика - это раздел математики, который занимается методами сбора, анализа и обработки статистических данных.
Статистические данные - это совокупность числовых результатов, полученных исследованием большого количества объектов или явлений.
Современная математическая статистика делится на две области: описательную и аналитическую статистику.
Первая из них охватывает методы описания статистических данных, представление их в форме таблиц, диаграмм и т.д.
Аналитическая статистика еще называется теорией статистических выводов. Ее предметом являются обработка данных и формулирование выводов.
Группа предметов, объединенных по определенному признаку или свойству, называется статистической совокупностью.
Все множество исследуемых числовых результатов называется генеральной совокупностью, ее подмножества - выборкой из генеральной совокупности или просто выборкой. Количество элементов генеральной совокупности называется объемом генеральной совокупности, количество элементов ее подмножества - объемом выборки.
Далее под выборкой объема n будем понимать n-мерный случайный вектор элементы которого является независимыми и одинаково распределенными. Множество значений, которые может приобретать каждая из компонент, будет генеральной совокупностью, а n-мерный числовой вектор
каждая из компонент которого является элементом генеральной совокупности, будем называть реализацией выборки.
Статистический и вариационный ряды
Рассматриваем реализацию выборки Разные значения реализации
будем называть вариантами. Пусть варианта
встречаются
раз, варианта
—
раз, ...,
—
раз. Значения
называются частотами.
Определение. Статистическим рядом или статистическим распределением выборки называется последовательность пар
Естественно статистический ряд представляется в виде таблицы, первая строка которой содержит элементы вторая —
Очевидно, что
Относительной частотой появления варианты называется отношение
и обозначается
Несложно убедиться, что
Статистическим рядом относительных частот называется набор пар
Элементы реализации выборки, записанные в порядке неубывания, называются вариационным рядом и обозначаются Если встречаются равные между собой элементы, то их нумеруют в произвольном порядке. Эта операция называется ранжированием данных.
Величина называется размахом выборки.
Если количество вариант является довольно большим, то элементы выборки объединяют в группы и представляют в виде сгруппированного статистического ряда. Для этого интервал, который содержит все элементы реализации, разбивается на интервалов, которые не пересекаются. Вычисления значительно упрощаются, если все частичные интервалы имеют одинаковую длину
(Далее мы будем рассматривать только интервалы одинаковой длины). Частоты
- количество элементов реализации выборки, которые попали
интервал. При этом полученный статистический ряд можно записывать двумя способами:
а) в верхней строке средина интервала
в нижней -
б) в верхней - границы интервала, в нижнем -
В литературе элементы, которые находятся на краях интервала, можно записывать либо в левый интервал, либо в правый интервал, или по 0.5 добавлять к частотам, которые находятся слева и справа.
Аналогично образуется сгруппированный статистический ряд относительных частот.
В зависимости от объема выборки количество интервалов
берется от 6 до 20 или подсчитывается согласно одной из формул
Очевидно, что
где
Наряду с частотами одновременно подсчитываются и накопленные частоты и накопленные относительные частоты
Следует заметить, что группирование выборки вносит погрешность в дальнейшие вычисления, которая растет с уменьшением количества интервалов.
Полигон и гистограмма
Определение. Полигоном частот выборки (сгруппированной выборки) называется ломаная в декартовой системе координат с вершинами
Определение. Полигоном относительных частот выборки (сгруппированной выборки) называется ломаная в декартовой системе координат с вершинами
Определение. Гистограммой частот (относительных частот) называется ступенчатая фигура, сложенная из прямоугольников, построенных на интервалах группирования. Высота прямоугольника
равна
где
- ширина
промежутка
Площадь прямоугольников для гистограммы частот равна
Аналогично сумма площадей прямоугольников для гистограммы относительных частот равна
Определение. Полигоном накопленных частот сгруппированной выборки называется ломаная с вершинами в точках
Аналогично дается определение полигона накопленных относительных частот, только меняется на
Эмпирическая функция распределения
Эмпирическая функция распределения определяется аналогично, как и функция распределения для дискретной случайной величины, только значения заменяются
Определение. Эмпирической функцией распределения для реализации выборки называется функция
Определение. Пусть Выборочным квантилем порядка р называется абсцисса
точки, которая лежит на графике эмпирической функции распределения и имеет ординату
Порядок квантиля определяет долю общего количества наблюдений в выборке, результаты которых не превышают
Значение порядка часто представляют в процентах.
Примеры.
Пример 1. Дано реализацию выборки
Записать статистический и вариационный ряды. Найти эмпирическую функцию распределения, полигон частот.
Решение. Объем выборки равен 50.
Вариантами для этой реализации будут значения -5, 4, 1, 3, 5. Подсчитаем соответствующие частоты.
Проверка:
Статистический ряд частот
Вычисляем относительные частоты
Статистический ряд относительных частот:
Вариационный ряд
Эмпирическая функция распределения:
График эмпирической функции распределения
Полигон частот
Пример 2. Годовая прибыль 50 предприятий составляет
Найти размах выборки, количество и длину интервалов, построить гистограмму, записать сгруппированный статистический ряд.
Решение. Прежде всего найдем размах выборки.
Количество интервалов равно
Далее находим длины интервалов. Нам удобно, чтобы они были равными.
Поэтому все длины интервалов равняются
Соответственно границы интервалов будут такими:
Выпишем элементы выборки, которые попадают в каждый из интервалов.
Сгруппированный статистический ряд:
Гистограмма:
Числовые оценки параметров распределения
Рассмотрим статистические данные по-другому. Пусть ξ - случайная величина, распределение которой нам неизвестно. Исследуя эту величину, мы осуществляем раз один и тот же эксперимент, в результате чего получаем
значений этой величины
Мы хотим на основании полученных данных найти характеристики (а точнее примерные значения) случайной величины ξ.
Теорема. Пусть – эмпирическая функция распределения, которое соответствует выборке
а
– соответствующая теоретическая функция распределения. Тогда
Распределение случайной величины ξ характеризуется рядом параметров
и т.д. Приближенные значения каждого из параметров, найденные из наблюдаемых данных, называются числовыми оценками параметров или просто оценками. Оценки параметров распределения являются значениями некоторых функций элементов выборки - статистик.
Пусть дано выборку распределение которой нам неизвестно, и ее реализацию
По реализации построен статистический ряд.
Определение. Выборочным средним называют величину
для реализации выборки
для сгруппированной выборки
Определение. Начальным выборочным моментом порядка называют величину
для реализации выборки
для сгруппированной выборки
Определение. Центральным выборочным моментом порядка называют величину
для реализации выборки
для сгруппированной выборки
Замечание. Центральные моменты удобно рассчитывать по начальным моментам, используя такие соотношение между ними:
Определение. Модой реализации выборки называют варианту, которой отвечает наибольшая частота.
Если двум или более вариантам отвечает наибольшая частота, то модой будут две и более варианты.
Для сгруппированной выборки
где – нижняя граница интервала, которая содержит наибольшее количество элементов выборки,
– количество элементов выборки в этом интервале,
– количество элементов выборки в соседних интервалах.
Определение. Медианой называется число, которое делит выборку на две равные части.
Если объем выборки являются нечетным числом (т.е. ), то
, если объем выборки являются четным числом (т.е.
), то
Оценкой медианы по сгруппированной выборке является квантиль
Оценка медианы по сгруппированной выборке (при одинаковой длине интервалов ) также может быть определена по формуле
де - нижняя граница интервала, к которому принадлежит медиана,
- количество элементов выборки в этом интервале,
- количество элементов выборки в интервалах, которые лежат слева от интервала, который содержит медиану.
Определение. Второй центральный выборочный момент называется выборочной дисперсией. Его будем обозначать или
т.е.
или для реализации выборки
или для сгруппированной выборки
Определение. Несмещенной дисперсией называют величину
Определение. Средним квадратическим отклонением называют величину или
Определение. Выборочной асимметрией называют величину
для реализации выборки
Определение. Выборочным эксцессом называют величину
для реализации выборки
Определение. Коэффициентом вариации называют величину
для реализации выборки
Пример. Дано статистический ряд
Найти среднее, выборочную и несмещенную дисперсию, асимметрию и эксцесс.
Решение. Объем выборки:
Среднее:
Выборочная дисперсия:
Несмещенная дисперсия:
Мода - это варианта, которой отвечает наибольшая частота. В нашем случае вариантой, которой отвечает наибольшая частота, является 1, т.е.
По определению медиана равна
В нашем случае объем выборки равен 50. Поскольку 50 является четным числом, то для нахождения медианы будем пользоваться нижней строкой формулы, Вариационный ряд является таким: сначала записывают 8 раз -4, далее - 12 раз записываем -3, далее 21 раз записываем 1 и, наконец, 9 раз записываем 7. Следовательно,
равняются-4, равняются-3,
равняются 1, а
равняются 7. В этом вариационном ряду
Следовательно, медиана
Асимметрия
Эксцесс
Пример 2. Определить среднее, выборочную и несмещенную дисперсию, моду и медиану для сгруппированной выборки
Решение. Прежде всего найдем средины интервалов.
Далее находим их длины. Длины всех интервалов одинаковые и равняются 2, т.е.
Далее находим объем выборки
Находим среднее значение
Выборочная дисперсия:
Несмещенная дисперсия:
Асимметрия:
Эксцесс:
Мода:
Медиана:
Интервал, которому принадлежит медиана, т.е. квантиль Это пятый интервал. (Первые четыре интервала содержат 26 элементов, первые пять - 42, объем выборки - 55). Поэтому
Заметим, что для упрощения вычислений в случае сгруппированной выборки данные преобразовываются так:
Тогда
Пример. Дано сгруппированный статистический ряд.
Найти
Решение. Ширина интервала
Результаты вычислений представим в виде таблицы
Проверка:
Проверка:
Статистическое описание и вычисление параметров распределения двумерного случайного вектора
Иногда результат эксперимента описывается двумя или более случайными величинами. Например, в технологическом процессе давление и температура, влажность и давление, в медицине - возраст и вес пациента и т.п. Возникает естественный вопрос: связаны ли между собой эти величины и какая форма связи?
Результатом некоторого эксперимента (исследования) является пар данных
(для реализации выборки
)
В теории вероятностей случайные величины ξ, η называются независимыми, если
Известно, что для независимых случайных величин ковариация (корреляция) и коэффициент корреляции равняются нулю.
Оценкой ковариации (корреляции) и коэффициента корреляции является выборочная ковариация
и выборочный коэффициент корреляции
Для реализации выборки выборочная ковариация (корреляция) и выборочный коэффициент корреляции вычисляются по формулам
Тут
Корреляция и коэффициент корреляции определяют степень линейной зависимости между случайными величинами ξ и η.
Пример. Дана реализация выборки
Используя линейные преобразования, вычислить выборочную (ковариацию) корреляцию и выборочный коэффициент корреляции.
Решение. Найдем
Уравнение регрессии
Определение. Для двух случайных величин ξ и η регрессией η на ξ называют условное математическое ожидание
График этой функции называют кривой регрессии. Функция регрессии может быть использована для вычисления значений случайной величины η, если известны значения ξ.
Если то говорят о линейной регрессии η на ξ. Прямая
называется прямой регрессии.
Оценки коэффициентов
можно получить методом наименьших квадратов из условия минимума суммы
А именно, пусть
Необходимым условием существования экстремума функции многих переменных является равенство частичных производных нулю, т.е.
Отсюда получим систему линейных алгебраических уравнений относительно неизвестных и
:
Решением этой системы уравнений являются
Аналогично рассматривается регрессия ξ на η. Если кривая регрессии имеет вид то
Пример. Дано реализацию двумерного случайного вектора
Записать уравнение прямой регрессии ξ на η.
Решение. Уравнение регрессии имеет вид где
Проводя вычисления, находим
Следовательно, уравнение регрессии имеет вид
В реализациях выборки большого объема значения могут повторяться. Тогда полученные данные удобно представлять в виде корреляционной таблицы. Пусть первая компонента двумерного выборочного вектора приобретает значения
а вторая компонента –
Обозначим через
частоту, с которой встречается пара
Тогда таблица данных будет иметь вид
Для произвольной выборки большого объема с большим количеством вариант данные также представляют в виде корреляционной таблицы. С этой целью реализации случайных компонент ξ, η группируют по интервалам длиной
соответственно, а в клетки таблицы записывают количество пар начальной выборки.
Обозначим середины интервалов через и
a соответствующие частоты
Очевидно, что
Обозначим
Для упрощения вычислений вместо середин интервалов введем числа
тут – выборочные медианы.
Тогда, если - уравнение регрессии, то
Тут
Аналогично определяется кривая регрессии ξ на η.
Пример. Дана корреляционная таблица двумерного выборочного вектора
Решение. Уравнение регрессии имеет вид
где
Находим
Следовательно,
И, соответственно, уравнение регрессии является таким:
Нелинейные регрессии
Самой распространенной моделью является линейная регрессия. Но не все процессы можно моделировать ею. Поэтому на практике используют более сложные модели с нелинейной зависимостью между переменными Нелинейные модели бывают двух видов: 1) нелинейные по переменным, но линейные по неизвестным параметрам, которые подлежат оценке; 2) нелинейные по переменным и параметрам. Линии регрессии, которые являются нелинейными по переменным, но линейными по неизвестным параметрам, которые подлежат оценке, называются квазилинейными регрессиями. Приведем примеры таких моделей. Модель
нелинейная по переменной, модель
- нелинейная по параметру.
Самой распространенной нелинейной по переменным моделью является квадратическая модель Оценку параметров зависимости между ξ и η находят из системы уравнений, которую получают методом наименьших квадратов:
Пример. Дано реализацию двумерной выборки
Записать уравнение квадратической регрессии ξ на η.
Решение. Сначала проведем расчеты
В этом случае система уравнений для нахождения неизвестных будет такой:
Решением этой системы уравнений является
Следовательно, искомое уравнение линии регрессии имеет вид
Точечные оценки
Пусть дано выборку объема
и ее реализацию
Известно, что
являются независимыми и одинаково распределенными. Считаем, что распределение компонент случайного вектора является известным, но он зависит от неизвестных параметров
Например, величины
имеют нормальное распределение с неизвестными параметрами
Необходимо по выборке (реализации выборки) найти неизвестные параметры
Для нахождения неизвестных параметров строим функции от случайных величин с помощью которых будем находить неизвестные параметры
Определение. Оценка параметра
называется несмещенной (несдвинутой), если
Пример. Для параметра нормального распределения
оценка
является несмещенной.
Доказательство.
Определение. Оценка параметра
называется асимптотически несмещенной (асимптотически несдвинутой), если
Пример. Пусть выборка из равномерного распределения на отрезке
Оценка
является асимптотически несмещенной.
Доказательство. Прежде всего найдем плотность распределения случайной величины
Если случайные величины является независимыми, то функция распределения случайной величины
равна
Соответственно плотность распределения
Поэтому
Очевидно, что оценка не является несмещенной. Но
Следовательно, оценка является асимптотически несмещенной.
Определение. Оценка параметра
называется конзистенционной (способной, обоснованной) если
Теорема. Если то оценка
параметра
является конзистенционной.
Пример. Оценка параметра
нормального распределения
является конзистенционной.
Доказательство.
имеем следовательно, оценка
является конзистенционной.
Определение. Несмещенная оценка параметра называется эффективной, если она имеет наименьшую дисперсию среди всех возможных несмещенных оценок.
Метод моментов
С теории вероятностей известно, что начальным моментом -го порядка называют число
центральным моментом
-го порядка - число
Суть методу моментов заключается в том, что выборочные моменты (начальные или центральные) -го порядка приравниваются к соответствующим теоретических моментам.
Пример. Методом моментов оценить неизвестные параметры равномерного распределения
Решение. Если случайная величина ξ имеет равномерное распределение на отрезке то ее математическое ожидание равно
а дисперсия –
Приравниваем первый начальный теоретический момент с первым начальным выборочным моментом и второй теоретический центральный момент с соответствующим выборочным моментом
Тут неизвестными являются параметры и
известными - выборочные моменты.
Решаем систему уравнений
и получаем, что
Метод максимального правдоподобия
Суть метода максимального правдоподобия заключается в том, что мы строим функцию правдоподобия которая зависит от выборки и неизвестных параметров.
Если распределение компонент является абсолютно непрерывным и плотность каждой компоненты равна то функция правдоподобия записывается так:
если же распределение компонент является дискретным и то
Значения неизвестных параметров принимаются в тех точках, где функция правдоподобия приобретает своего наибольшего значения.
Известно, что функция приобретает своего наибольшего или наименьшего значения либо в стационарных точках, либо на границе области. Для нахождения стационарных точек находим частичные производные по и приравниваем их к нулю. Учитывая вид функции правдоподобия, целесообразным является нахождение частичных производных от логарифма функции правдоподобия, потому что, известно, частичные производные от некоторой функции равняются нулю в тех же точках, что и производная от логарифма этой функции.
Пример. Методом максимального правдоподобия оценить неизвестный параметр геометрического распределения.
Решение. Геометрическое распределение является дискретным и Функция правдоподобия:
Далее
Следовательно,
Пример. Методом максимального правдоподобия оценить неизвестные параметры
равномерного распределения на
Решение. Функция правдоподобия для равномерного распределения имеет вид
если все и 0 в противоположному случае.
Следовательно, пусть
Функция правдоподобия явным образом не зависит от Поэтому и ее частичные производные по
также не зависят явно от
Посмотрим на задачу с другой стороны.
Значения неизвестных параметров должны быть такими, чтобы значения функции правдоподобия в этих точках было максимальным.
Рассматриваем дробь Очевидно, значение дроби является наибольшим, если ее знаменатель является минимальным. Это значит, что замкнутый отрезок
должен иметь минимальную длину. Все значения реализации выборки содержатся в замкнутом интервале
Поэтому
Как видим, оценка, полученная методом максимального правдоподобия, не всегда совпадает с оценкой, полученной методом моментов. ■
Распределения, которые используются в статистике
На практике очень часто встречаются нормальное распределение и распределения, которые является его функциями. Далее мы будем использовать такие распределения:
1. Распределение с
степенями свободы.
Случайная величина имеет распределение с
степенями свободы, если
где случайные независимы между собой и имеют нормальное распределение
Плотность этой случайной величины равна
Тут – интеграл Эйлера второго рода, т.е.
2. Распределение Стьюдента с степенями свободы.
Пусть независимые случайные величины, которые имеют нормальное распределение
Случайная величина имеет распределение Стьюдента с
степенями свободы, если она равна
Плотность этой случайной величины равна
где
3. Распределение Фишера-Снедекора с степенями свободы.
Пусть независимые случайные величины, которые имеют распределение
с
степенями свободы.
Случайная величина
имеет распределение Фишера-Снекедора с степенями свободы.
Ее плотность равна
Понятие о квантиле распределения и верхней -границе
Пусть дано некоторую абсолютно непрерывную случайную величину ξ, - ее плотность, a
- ее функция распределения. Выберем число
Определение. Число называется квантилем распределения ξ, если
Определение. Число называется верхней
-границей распределения случайной величины ξ, если
где - функция распределения случайной величины ξ.
Очевидно, что
Интервальные оценки
Рассматриваем выборку с и ее реализацию
Распределение компонент
является известным, но зависит от неизвестных параметров
Для каждой реализации выборки методом моментов и методом максимального правдоподобия получают некоторое конкретное число.
Суть интервальных оценок заключается в том, что для неизвестного параметра мы ищем определенный интервал
такой, что для заранее заданного числа
Число
называют надежностью или доверительной вероятностью.
Иногда вместо надежности задают число которое называют уровнем значимости. Заметим, что доверительная вероятность всегда близка к единице, а уровень значимости - близок к нулю. При этом отрезок
называют интервалом надежности или доверительным интервалом.
Для неизвестных параметров выборки из нормального распределения
интервалы надежности является такими:
1. Интервал надежности для неизвестного математического ожидания при известной дисперсии
где – объем выборки,
– квантиль распределения
2. Интервал надежности для неизвестного математического ожидания при неизвестной дисперсии.
где – несмещенная дисперсия,
– квантиль распределения Стьюдента с
степенями свободы.
3. Интервал надежности для неизвестной дисперсии при известном математическом ожидании.
где – выборочная дисперсия,
– квантили распределения
с
степенями свободы.
4. Интервал надежности для неизвестной дисперсии при неизвестном математическом ожидании.
где - несмещенная дисперсия,
- квантили распределения
с
степенями свободы.
Пример. Найти 90% интервалы надежности для математического ожидания и дисперсии содержания углерода в единице продукции, если
Решение.
Находим
По таблицам имеем
Поэтому интервал надежности для неизвестного математического ожидания при неизвестной дисперсии являются таким:
т.е.
По таблицам ищем
Имеем
откуда находим
Построение группировки типологической, структурной и аналитической
Статистические ряды распределения позволяют систематизировать и обобщать статистические материалы. Однако они не дают всесторонней характеристики выделенных групп. Чтобы решить ряд конкретных задач выявить особенности в развитии явлений, обнаружить тенденции, установить зависимости, необходимо произвести группировку статистических данных. Для этой цели выбирается группировочный признак и разрабатывается система показателей сводки, которыми будут характеризоваться выделенные группы. Определение и обоснование показателей целиком зависят от цели исследования и поставленной задачи. В зависимости от цели и задач исследования различают следующие виды группировок: типологические, структурные, аналитические.
К типологическим группировкам относятся все группировки, которые характеризуются качественными особенностями и различия между типами явлений. Здесь особая роль принадлежит выбору группировочных признаков. За основание группировки должны быть взяты наиболее существенные признаки, которые непосредственно характеризуют сущность явлений. Группировки должны быть обоснованны экономически.
Структурные группировки имеют большое практическое значение для изучения структуры однотипных явлений. Примерами могут служить группировки предприятий по проценту выполнения плана, по числу рабочих и т.д. Значение такого рода группировок заключается в том, что с их помощью могут быть выделены и изучены группы предприятий передовых, средних, отстающих; выявлены неиспользованные резервы производства, например в области улучшения использования основных фондов, повышения производительности труда, улучшения качества продукции и т.д. Группировка населения по возрасту, например, необходима для проведения различных расчетов, связанных с медицинским, культурным, бытовым обслуживанием населения, для вычисления специальных демографических показателей и т.д. Пример структурной группировки также может служить составленная нами группировка предприятий по размеру основных фондов, представленная в табл. 2.15.
Группировки, которые применяются для исследования взаимосвязи между явлениями, называются аналитическими. Используя аналитические группировки, определяют факторные и результативные признаки изучаемых явлений. Факторные - это признаки, оказывающие влияние на другие, связанные с ними признаки. Результативные - признаки, которые изменяются под влиянием факторных.
Чтобы исследовать взаимосвязь между отобранными признаками с помощью метода аналитических группировок, необходимо произвести группировку единиц совокупности по факторному признаку и по каждой группе исчислить средние значения результативного признака, вариация которого от группы к группе под влиянием группировочного признака будет указывать на наличие или отсутствие взаимосвязи.
Задача 1
Рассмотрим практическое применение метода группировок по данным табл. 2.1.
Решение:
Поставим задачу выявить в данной отрасли промышленности распределение предприятий по мощности, а также влияние этого признака на объем производства. Прежде всего выберем группировочный признак, по которому будет производится группировка. Из экономической теории известно, что мощность предприятия в значительной степени определяется размером основных фондов (здания, сооружения, машины, оборудование и т.д.). Чтобы выявить распределение предприятий по мощности, разобьем совокупность заводов отрасли на группы по размеру стоимости основных фондов. Метод образования групп был изложен при построении рядов распределения. Были выделены пять групп заводов по размеру основных производственных фондов и определено их число в каждой группе заводов. Полученные группы заводов охарактеризуем показателями: стоимостью основных фондов, числом рабочих и валовой продукцией предприятий. Оставим макет таблицы с системой показателей, куда занесем результаты группировки заводов по среднегодовой стоимости основных производственных фондов:
Для заполнения макета таблицы предварительно составим рабочую таблицу (см. табл. 2.14):
Групповые показатели рабочей таблицы занесем в соответствующие строки и графы макета таблицы и получим окончательную сводную групповую таблицу с результатами группировки заводов по среднегодовой стоимости основных производственных фондов (табл. 2.14).
Таким образом, в отличие от ряда распределения (табл. 2.2), группировка позволяет сделать конкретные и содержательные выводы. Данная группировка показывает, что наиболее крупные предприятия имеют лучшие производственные показатели. Около 29% предприятий (группы IV - V) имеют 45% всех основных фондов и дают 52% всего объема промышленной продукции, имея лишь 31% общего числа рабочих.
Выделенные группы можно охарактеризовать и другими показателями: выпуском продукции на 1 руб. основных фондов, на 1 рабочего, на 1 завод и т.д.; можно сравнить показатели каждой группы с первой.
Задача 2
По данным табл. 2.1 исследуем характер зависимости между экономической эффективностью и мощностью предприятий.
Решение:
Для этого необходимо, прежде всего определить, какой из названных двух признаков является факторным и какой результативным. Из экономической теории известно, что размер предприятия, его мощность определяется стоимостью основных производственных фондов, от величины которых зависит и объем производства. Следовательно, этот признак должен быть взят в основание группировки как факторный признак. Исходя из имеющихся данных в качестве показателей экономической эффективности возьмем стоимость выработанной продукции в среднем на одного рабочего и на рубль основных фондов. Первый показатель характеризует эффективность труда, а второй - эффективность основных фондов. Произведем группировку по размеру основных фондов, взяв те же пять групп предприятий, которые были выделены в табл. 2.14. Применив изложенный выше метод группировки, получим сводную таблицу, характеризующую зависимость между размером основных производственных фондов и объемов валовой продукции (табл. 2.15).
В таблице ясно видна прямая зависимость показателей эффективности от величины стоимости основных фондов.
Эффективность работы промышленных предприятий зависит не только от размера основных фондов, но и от числа рабочих, использования оборудования и т.д. Отбирая разные факторные признаки и уточняя систему показателей, можно дать разностороннюю характеристику взаимосвязи отдельных факторов.
Приемы вторичной группировки
Методические указания и решение типовых задач
Перегруппировка ранее сгруппированных статистических данных называется вторичной группировкой. К этому методу прибегают в тех случаях, когда в результате первоначальной группировки нечетко проявился характер распределения изучаемой совокупности. В этом случае производят укрепление или уменьшение интервалов. Вторичная группировка также используется для приведения к сопоставимому виду группировок с различными интервалами с целью их сравнения.
Задача 3
Рассмотрим метод укрепления интервалов на основе данных табл. 2.20.
Решение:
Приведенная группировка недостаточно наглядна. Она позволяет видеть структуру совокупности, но не показывает четкой и строгой закономерности в изменении товарооборота по группам. Уплотним ряд распределения, образовав 6 групп:
В табл. 2.21 новые группы образованы путем суммирования первоначальных групп. Так, во вторую группу магазинов с товарооборотом от 10 до 20 тыс. руб. вошли магазины II, III групп (8+13); соответственно суммировались и размеры товарооборота по группам. Группировка получилась компактной и наглядной. Совершенно четко проявилась тенденция: чем крупнее магазины, тем выше уровень товарооборота. Рассмотрим метод вторичной группировки.
Задача 4
Имеются следующие данные о распределении колхозов по числу дворов (домохозяев):
Решение:
Приведенные данные не позволяют произвести сравнение распределения колхозов в двух районах по числу дворов, так как в этих районах имеется различное число групп колхозов.
Необходимо ряды распределения привести к сопоставимому виду. За основу сравнения возьмем распределение колхозов I района. Следовательно, по II району надо произвести вторичную группировку колхозов, образовав такое же число групп и с теми же интервалами, как и в I районе. В результате перегруппировки получим следующие сопоставимые данные, характеризующие распределение колхозов по числу дворов.
Поясним расчеты. В первую, вновь образованную группу колхозов II района с числом дворов до 100, войдут первые три группы колхозов, сумма частот которых равна (1+1+2). Теперь надо образовать вторую группу колхозов с числом дворов 100-200. В нее входит четвертая группа колхозов с числом дворов 100-150, составляющая 10% общего числа колхозов, а также часть пятой группы. Для определения числа колхозов, которое надо взять из пятой группы во вновь образованную, условно примем, что это число колхозов должно быть пропорционально удельному весу отобранных дворов в группе. Удельный вес 50 дворов в 5-й группе равен:
т.е. составляет 50%. Следовательно, в новую группу надо взять половину колхозов из пятой группы:
Тогда удельный вес колхозов вновь образованной группы составит: 10 + 9 = 19.
Аналогично производятся расчеты при образовании других групп. Если наряду с частностями имеются численные значения показателей по группам, то все расчеты показателей по вновь образованным группам производятся в тех ж соотношениях, что численность единиц распределения.
Статистические таблицы
Табличная форма является рациональной, наглядной и компактной формой представления статистических данных, изложения результатов сводки и группировки материалов статистического наблюдения.
Анализ данных статистических таблиц как метод научного исследования позволяет выявить соотношения и пропорции между группами явлений по одному или нескольким признакам, провести сравнительный анализ, охарактеризовать типы социально-экономических явлений, выявить характер и направление взаимосвязей и взаимозависимостей между различными, определенными логикой экономического анализа признаками, сформулировать выводы и определить резервы развития изучаемого явления, объекта или процесса.
Тема «Статистические таблицы» неразрывно связана с другими разделами курса.
Статистической таблицей называется таблица, которая содержит сводную числовую характеристику исследуемой совокупности по одному или нескольким существенным признакам, взаимосвязанным логикой экономического анализа. Прежде чем переходить к рассмотрению видов и правил построения статистических таблиц, необходимо иметь представление об основных элементах, ее формирующих.
Основные элементы статистической таблицы, составляющие ее остов (основу), показаны на схеме 3.1.
Важно практически закрепить понятия статистического подлежащего и иметь знания и навыки построения таблиц по характеру подлежащего.
Виды таблиц по характеру подлежащего
Подлежащим статистической таблицы называется объект, который в ней характеризуется цифрами. Это могут быть совокупность, отдельные единицы совокупности в порядке их перечня или сгруппированные по одному или нескольким признакам территориальные единицы, временные периоды и т.д. в соответствии с этим в зависимости от структуры подлежащего различают статистические таблицы простые, в подлежащем которых дается простой перечень единиц совокупности (перечневые), или только одна какая - либо из них единица, выделенная по определенному признаку (монографические), и сложные, подлежащее которых содержит группы единиц совокупности по одному (групповые) или нескольким (комбинационные) количественным или атрибутивным признакам. При этом подлежащее простой таблицы может быть сформировано по видовому, территориальному и временному принципам.
Приведем примеры разработки подлежащего таблицы.
1. Простая монографическая таблица (табл. 3.1.)
2. Простые перечневые таблицы по видовому принципу (табл. 3.2-3.4).
В данной таблице подлежащее - облигации государственного внутреннего займа.
Подлежащее - наименование товара.
Подлежащее - группы несовершеннолетних, совершивших правонарушения и преступления по возрасту.
Подлежащее - группы эмитентов фондового рынка по величине котировки банковских долгов.
6. Сложная комбинационная таблица (табл. 3.6).
Подлежащее - группы эмитентов фондового рынка, распределенные по величине котировки банковских долгов и средневзвешенной ставке.
Наряду с подлежащим важным составным элементом статистической таблицы является сказуемое, изучению которого необходимо уделить большое внимание.
Виды таблиц по характеру сказуемого. Система показателей, которыми характеризуется объект изучения, т.е. подлежащее таблицы, образует сказуемое статистической таблицы. Сказуемое формирует заголовки граф и составляет их содержание. По структурному строению сказуемого различают статистические таблицы с простой и сложной его разработкой.
При простой разработке сказуемого показатель, его определяющий, получается путем простого суммирования значений по каждому признаку отдельно независимо друг от друга. Табл. 3.2, 3.4, 3.6, 3.7, 3.8 являются примером таблицы с простой разработкой сказуемого.
Сложная разработка сказуемого предполагает деление признака, его формирующего, на группы. Рассмотрим пример статистической таблицы со сложной комбинированной разработкой сказуемого. Сказуемое табл. 3.7 содержит два связанных между собой признака: атрибутивный - качественный -категории застрахованных и количественный - страховая сумма.
Статистические таблицы, как средство наглядного и компактного представления цифровой информации, должны быть статистически правильно оформлены. Основными правилами, определяющими технику формирования статистических таблиц, являются следующие:
1. Таблица должна быть компактной и содержать только те исходные данные, которые непосредственно отражают исследуемое социально-экономическое явление в статике и динамике и необходимы для познания его сущности.
2. Заголовок таблицы и названия граф и строк должны быть четкими, краткими, лаконичными, представлять собой законченное целое, органично вписывающееся в содержание текста.
Необходимо избегать большого количества точек и запятых в названии таблицы и граф, которые затрудняют чтение. Если название таблицы состоит из двух и более предложений, точка ставится с целью отделения предложений друг от друга, но не после последнего.
В заголовках граф допускаются точки только при необходимых сокращениях. В заголовке таблицы должны найти отражение объект, признак, время и место совершения события. Например: «Курс доллара США на торгах ММВБ в 2003 г.» Названия таблицы, граф и строк пишутся полностью, без сокращений.
Информация, располагаемая в столбцах (графах) таблицы, завершается итоговой строкой. В групповых и комбинационных таблицах всегда необходимо давать итоговые графы и строки.
В достаточно больших таблицах (по количеству приведенных строк) целесообразно оставлять двойной промежуток после каждых пяти (и далее кратных пяти) строк для того, чтобы было удобнее читать и анализировать таблицу.
Если названия отдельных граф повторяются между собой, содержат повторяющиеся термины или несут единую смысловую нагрузку, то необходимо присвоить общий объединяющий заголовок. Данный прием используется и для подлежащего, и для сказуемого таблиц.
Графы и строки полезно нумеровать. Графы подлежащего принято обозначать заглавными буквами алфавита А, В т.д., а графы сказуемого - цифрами в порядке возрастания.
Взаимосвязанные данные, характеризующие одну из сторон анализируемого явлении (например, число предприятий и удельный вес заводов (% к итогу) и т.д.) целесообразно располагать в соседних друг с другом графах.
Графы и строки должны содержать единицы измерения, соответствующие поставленным в подлежащем и сказуемом показателям. При этом используются общепринятые сокращения единиц измерения.
Располагать в таблицах сопоставляемую в ходе анализа цифровую информацию лучше в одной и той же графе, одну под другой, что значительно облегчает процесс их сравнения. В групповых таблицах группы по изучаемому признаку более грамотно располагать в порядке убывания или возрастания его значений при сохранении логической связи между подлежащими сказуемым.
Для более удобной работы с цифровым материалом числа в таблицах следует представлять в середине граф, одно под другим: единицы под единицами, запятая под запятой, четко соблюдая при этом их разрядность.
Числа целесообразнее по возможности округлять. Округление чисел в пределах одной и той же графы или строки следует проводить с одинаковой степенью точности.
Отсутствие данных об анализируемом социально-экономическом явлении может быть обусловлено различными причинами и по-разному отмечается в таблице:
а) если данная позиция (на пересечении соответствующих графы и строки) вообще не подлежит заполнению, то ставится знак «х»;
б) если по какой-либо причине отсутствуют сведения, то ставится многоточие «...» или «нет свед.», или «н. св.»;
в) если отсутствует явление, то клетка заполняется тире «-».
Для отображения очень малых чисел используются обозначения (0,0) или (0,00), что предполагает возможность наличия числа.
В случае необходимости дополнительной информации -разъяснений к таблице - могут даваться примечания.
Соблюдение приведенных правил построения и оформления статистических таблиц делает их основным средством представления, обработки и обобщения статистической информации о состоянии и развитии анализируемых социально - экономических явлений.
В анализе данных наряду со статистическими таблицами применяются и другие виды таблиц, одним из которых является матрица.
Матрицей называется прямоугольная таблица числовой информации, состоящая из -строк и
-столбцов. Например, матрица экспертных оценок влияния некоторых факторов на уровень рентабельности строительных организаций:
где - уровень фондоотдачи;
- выработка продукции на одного работающего, руб./чел.;
- коэффициент оборачиваемости оборотных средств;
- эксперты.
Таблица сопряженности - это таблица. Которая содержит сводную числовую характеристику изучаемой совокупности по двум и более атрибутивным признакам или комбинации количественных и атрибутивных признаков. Наибольшее распространение таблицы сопряженности получили при изучении социальных явлений. Табл. 3.8 и 3.9 являются примерами таблиц сопряженности.
Возможно, вас также заинтересует: