Что является целью математической статистики
Перейти к содержимому

Что является целью математической статистики

  • автор:

Основные понятия и ЗАДАЧИ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

ЦЕЛЬ ЛЕКЦИИ: определить понятие генеральной и выборочной совокупности и сформулировать три типичные задачи математической статистики; ввести понятия выборочной функции распределения, вариационного ряда и гистограммы; привести наиболее важные для математической статистики распределения.

Математическая статистика – это математическая наука посвященная разработке методов описания и анализа статистических экспериментальных данных, полученных в результате наблюдений массовых случайных явлений.

Генеральная и выборочная совокупности

Значительная часть математической статистики связана с описанием и анализом больших совокупностей объектов, объединенных по некоторому качественному или количественному признаку . Такая группа объектов называется статистической совокупностью. Если исследуемая совокупность слишком многочисленна, либо ее элементы малодоступны, либо имеются другие причины, не позволяющие изучать сразу все ее элементы, прибегают к изучению какой-то части этой совокупности. Эта выбранная для полного исследования группа элементов называется выборочной совокупностью или выборкой, а все множество изучаемых элементов – генеральной совокупностью. Под выборкой понимается последовательность независимых, одинаково распределенных случайных величин, т. е. каждая выборка значений случайной величины рассматривается как результат независимых повторных испытаний. Объемом совокупности называется число объектов, входящих в эту совокупность. Например, если из 10 000 микросхем для проверки качества отобрано 200 штук, то объем генеральной совокупности равен 10 000, а выборочной – 200.

Естественно стремиться сделать выборку так, чтобы она наилучшим образом представляла всю генеральную совокупность, т. е. была бы, как говорят, представительной (репрезентативной). Это обеспечивается как независимостью результатов наблюдений в выборке и случайностью выбора объектов из генеральной совокупности, так и правильным определением объема выборки с учетом всех конкретных условий. Чтобы этого добиться, применяются различные способы получения выборки или отбора.

· Отбор, не требующий разбиения генеральной совокупности на части, например простой случайный бесповторный отбор и простой случайный повторный отбор.

· Отбор, при котором генеральная совокупность разбивается на части, например типический, механический, серийный и комбинированный отборы.

На практике чаще всего используют бесповторный отбор, так как повторный отбор в некоторых случаях может оказаться нереализуемым из-за разрушения одного или нескольких элементов.

Статистическая совокупность, расположенная в порядке возрастания или убывания значений изучаемого признака , называется вариационным рядом, а ее объекты – вариантами.

Вариационный ряд называется дискретным, если его члены принимают конкретные изолированные значения. Если элементы вариационного ряда заполняют некоторый интервал, то такой ряд называется непрерывным.

Типичные задачи математической статистики

Методы математической статистики нашли широкое применение в различных областях науки (физике, биологии, медицине, экономике, социологии и др.) и могут применяться для решения различных задач. Однако можно сформулировать три основные (типичные) задачи математической статистики, наиболее часто встречающиеся на практике.

1. Определение закона распределения случайной величины. По результатам независимых наблюдений случайной величины требуется оценить неизвестную функцию распределения или плотность вероятности этой случайной величины.

2. Задача проверки правдоподобия гипотез. Из обширного круга задач, связанных с проверкой статистических гипотез, наиболее типичными являются две задачи. Первая: как согласуются результаты эксперимента с гипотезой о том, что исследуемая случайная величина имеет плотность распределения ? Вторая: не противоречит ли полученная оценка неизвестного параметра выдвинутой гипотезе о значении данного параметра?

3. Задача оценки неизвестных параметров распределения. Предполагается, что закон распределения исследуемой случайной величины известен до опыта из физических или теоретических предположений (например, нормальный). Возникает более узкая задача – определить некоторые параметры (числовые характеристики) случайной величины, т. е. по экспериментальным данным необходимо оценить значения этих параметров. С этой задачей отыскания "подходящих значений" числовых характеристик тесно связана задача оценки их точности и надежности.

Выборочная функция распределения

Пусть изучается некоторая случайная величина (признак) с неизвестным законом распределения. Нужно определить закон из опыта и проверить гипотезу о том, что распределение случайной величины подчиняется именно этому закону. Для этого над случайной величиной производится ряд независимых испытаний (наблюдений), в каждом из которых принимает то или иное значение , ; – количество проведенных опытов. Вот эта совокупность наблюдаемых значений случайной величины и есть выборочная совокупность или выборка, которая представляет собой первичный статистический материал, подлежащий обработке и анализу. Выборка оформляется в виде таблицы, в первом столбце которой записаны номера опытов , а во втором – наблюдаемые значения случайной величины.

Пример. Случайная величина – значения напряжения на выходе генератора шума, взятые через 20 миллисекунд. Выборочная совокупность представлена в виде табл. 8.1.

-2
-6 -3 -3
-5
-9
-8 -2
-7 -3

Упорядоченные в порядке возрастания значения признака дадут вариационный ряд, который может быть обработан различными методами. Один из таких способов – построение выборочной функции распределения случайной величины.

Выборочной функцией распределения случайной величины называется частота события

Для получения значений для заданного аргумента достаточно подсчитать число испытаний, в которых случайная величина приняла значение, меньшее чем , и разделить на общее число проведенных экспериментов.

На рис. 8.1 представлен график выборочной функции распределения случайной величины – напряжения на выходе генератора шума.

-10
-5
Рис. 8.1. Выборочная функция распределения

Выборочная функция распределения любой случайной величины, как непрерывной, так и дискретной, представляет собой неубывающую, прерывистую, ступенчатую функцию. При этом разрывы функции происходят при значениях аргумента, равных наблюдаемым значениям случайной величины, а величины разрывов равны частотам этих значений. Если каждое значение встречается по одному разу, то все скачки будут равны .

При увеличении числа опытов , согласно теореме Бернулли (следствие закона больших чисел), для любых частота события приближается (сходится по вероятности) к вероятности этого события. Таким образом, при увеличении выборочная функция распределения сходится по вероятности к истинной функции распределения случайной величины .

Если – непрерывная случайная величина, то при увеличении числа наблюдений число скачков функции увеличивается, а величина скачков уменьшается, и график функции сходится к плавной кривой .

Статистическое распределение выборки.
Полигон и гистограмма

Практически построение решает задачу описания экспериментального материала. Однако при больших построение слишком трудоемко и не всегда наглядно по сравнению с другими видами закона распределения, например .

Для придания выборочной совокупности или вариационному ряду компактности и наглядности статистический материал подвергается дополнительной обработке, т. е. строится так называемое статистическое распределение выборки. Для дискретного вариационного ряда статистическое распределение представляется в виде табл. 8.2, в первой строке которой записываются в возрастающем порядке варианты (элементы выборки) , а во второй – соответствующие им частоты .

Варианты
Частоты

Для непрерывного вариационного ряда весь диапазон наблюдаемых значений случайной величины разбивается на интервалы и подсчитывается количество значений , приходящихся на каждый -й интервал. После деления на общее число опытов , получается частота, соответствующая каждому интервалу:

Сумма этих частот должна быть равна единице.

Затем строится таблица, в первой строке которой приводятся в порядке возрастания интервалы, а во второй – соответствующие частоты. Табл. 8.3 и есть статистическое распределение непрерывной выборки.

Интервалы
Частоты

Если наблюдаемое значение случайной величины попадает точно на границу двух интервалов, то такая величина в равной степени принадлежит к обоим интервалам, и поэтому к значениям того и другого разряда прибавляется по .

x1
x2
x6
x3
x4
x5
xi
Рис. 8.2. Полигон

Число интервалов, на которые необходимо группировать статистические данные, не должно быть слишком большим, так как в этом случае статистический ряд становится невыразительным, а частоты в нем могут иметь незакономерные колебания. Но, с другой стороны, количество интервалов не должно быть и слишком малым, потому что в этом случае особенности распределения описываются статистическим распределением лишком грубо. Из практических соображений число интервалов выбирается порядка 10 20.

Графически статистическое распределение дискретного статистического ряда представляют в виде полигона (см. рис. 8.2), который строится следующим образом. На оси абсцисс откладываются значения варианта , а на оси ординат соответствующие им частоты . Полученные точки соединяются ломаной линией

Графическое представление статистического распределения непрерывного вариационного ряда называется гистограммой (см. рис. 8.3). На оси абсцисс откладываются интервалы, и на каждом из них, как на основании, строится прямоугольник, площадь которого равна частоте соответствующего разряда. Для одинаковых по ширине интервалов высоты прямоугольников пропорциональны соответствующим частотам. Полная площадь гистограммы равна единице. При увеличении числа испытаний можно выбирать все меньшую и меньшую ширину интервалов и гистограмма будет приближаться к кривой распределения .

Рис. 8.3. Гистограмма
x1
x2
xk
xk+1

Статистическое распределение выборки можно использовать для приближенного построения выборочной функции распределения случайной величины, так как построение точной с несколькими сотнями скачков для всех наблюдаемых значений случайной величины очень трудоемко. На практике достаточно построить по нескольким точкам, в качестве которых выбираются границы интервалов , находящиеся в первой строке статистического распределения. Таким образом, имеем:

Соединив полученные точки ломаной линией или плавной кривой, получим приближенный график выборочной функции распределения (см. рис. 8.4).

В зависимости от конкретного содержания задачи в схему построения гистограммы могут быть внесены некоторые изменения. Например, в некоторых задачах целесообразно отказаться от требований равной длины интервалов.

x1
Рис. 8.4. Приближенная кривая выборочной функции распределения
x2
xk+1
xk

Наиболее важные распределения

Несколько примеров распределений дискретных и непрерывных случайных величин было приведено в лекциях 7 и 8. Важнейшим с точки зрения приложений математической статистики является нормальное (гауссово) распределение. В статистике широко используются еще три распределения, связанные с нормально распределенными случайными величинами. К ним относятся распределение (Пирсона), t-распределение (Стьюдента) и F-распределение (Снедекора – Фишера).

Стандартное нормальное распределение. Плотность распределения вероятности и функция распределения нормальной случайной величины определяются выражениями соответственно (4.29) и (4.38). Удобнее пользоваться стандартной случайной величиной

где – математическое ожидание, – среднее квадратичное отклонение нормальной случайной величины .

После подстановки выражения (8.1) в формулы (4.29) и (4.38) получим плотность распределения и функцию распределения стандартной гауссовой случайной величины с нулевым математическим ожиданием и единичной дисперсией ( ):

Таблица функции приведены в прил. 1, а – в прил. 2.

Значение , удовлетворяющее уравнениям:

где вероятность , называется квантилем порядка или -процентной точкой стандартного нормального распределения.

Распределение. Есть – независимых случайных величин, каждая из которых имеет нормальное распределение с нулевым математическим ожиданием и единичной дисперсией. Определяют новую случайную величину

Величина называется хи-квадрат случайной величиной с степенями свободы. Число степеней свободы определяет число независимых, или "свободных", квадратов входящих в сумму. Плотность распределения имеет следующий вид:

Математическое ожидание случайной величины имеющей распределение , равно , а дисперсия – 2 . Кривые распределения для трех значений представлены на рис. 8.5.

Рис. 8.5. Кривые распределения
n=10
n=4
n=1

При увеличении числа степеней свободы -распределение приближается к нормальному. Для случайная величина почти нормальна с математическим ожиданием и дисперсией .

Процентные точки -распределения обозначают через – это решения уравнения

Таблица процентных точек распределения приведена в прил. 3.

t-распределение Стьюдента. Есть и –независимые случайные величины, при этом имеет -распределение, а – нормальное распределение с нулевым математическим ожиданием и единичной дисперсией. Определяется новая случайная величина

Случайная величина подчиняется закону распределения Стьюдента с степенями свободы, плотность распределения которого имеет вид

Кривые распределения Стьюдента для трех значений приведены на рис. 8.6.

Математическое ожидание и дисперсия случайной величины равны

-4
-2
t
n=10
n=4
n=1
Рис. 8.6. Кривые t-распределения Стьюдента
fn(t)

Процентные точки t-распределения обозначают через – это решения уравнения

Таблица процентных точек t-распределения приведена в прил. 4.

При увеличении числа степеней свободы t-распределение приближается к стандартному гауссовому распределению.

F-распределение Снедекора – Фишера. Есть и – независимые случайные величины, подчиняющиеся распределению с и степенями свободы соответственно. Определяется новая случайная величина

Случайная величина называется величиной с и степенями свободы, ее плотность распределения имеет вид

n2=10
n2=20
n2=300
f
p(f)
Рис. 8.7. Кривые F-распределения для n1=20

Кривые F-распределения при и трех значениях приведены на рис. 8.7.

Математическое ожидание и дисперсия случайной величины определяются формулами

Процентные точки F-распределения обозначают через . Эти точки являются решениями уравнения

Основные задачи математической статистики.

Статистика – это отрасль практич. деятельности по сбору, накопл., обработке и анализу цифровых данных, характериз. население, экономику, культуру, образование и другие явления общ. жизни и предназначенную для задач государственного регулирования и управления. Закономерности — это устойчивые и регулярные взаимосвязи между явлениями и объектами, которые обнаруживаются в процессах развития. Закономерность, которая проявляется только в большой массе явлений через преодоление разных случайностей, свойственными её единичным элементам, называется статистической закономерностью. Статистическая закономерность — опред. форма проявления повторяемости, последовательности, особенного порядка изменений в массовых явлениях под воздействием определенных причин. Они позволяют определить тенденции развития, типичные массовые явления, а также выделить случайные, единичные явления. Статистическая закономерность является важнейшей категорией статистики. Под закономерностью вообще принято называть порядок изменений в явлениях, повторяемость и последоват. Но в самой статистике статист. закономерность рассматривается, прежде всего, как количественная закономерность изменения в пространстве и времени именно массовых явлений и процессов общественной жизни, состоящих из большого множества элементов. Статистические закономерности устанавливаются на основе анализа массовых данных. Они могут возникать как результат воздействия большого числа постоянно действующих причин и причин случайных, которые действуют иногда. Основным объектом анализа статистики являются статистические данные, т.е. показатели, значения некоторого признака, свойства изучаемой системы (объекта). Эти данные могут быть выражены двумя видами:

· числовыми (метрическими, количественными) данными – то есть теми показателями, которые мы можем посчитать и измерить. Например, число сотрудников, ассортимент продукции, показатели продаж и т.д. Числовые статистические данные — это числа, вектора, функции. Их можно складывать, умножать на коэффициенты.

· нечисловыми (неметрическими, качественными) показателями, то есть теми характеристиками, которые мы получаем на уровне ощущений, эмоций переведенные в числовые данные, то что мы можем оценить по шкале «лучше – хуже», «больше — меньше» и т.п.

Статист. наблюдение – это такое наблюдение, которое обеспечивает получение объективной, достоверной и полной информации о событии и обладает след свойствами:

· рассматривают события (данные) только тех явлений, которые могут быть воспроизведены в сопоставимых условиях достаточно много раз;

· вероятность появления войн или гениальных произведений не определяется как статистическая закономерность;

· события (данные) должны обладать статистической устойчивостью, т.е. изменяться в пределах закономерностей больших чисел;

· число данных должно быть достаточно большим (массовым), чтобы вероятность Р(А) приближенно равнялась частоте (А).

Основные задачи математической статистики.

Математическая статистика — это научная дисциплина, предметом изучения которой является разработка методов регистрации, описания и анализа статистических экспериментальных данных, полученных в результате наблюдений массовых случайных явлений.

Задачи математической статистики касаются вопросов обработки наблюдений над случайными массовыми явлениями. В зависимости от характера исследуемого явления и от объема экспериментального материала эти задачи можно разделить на три типа:

1. Задача определения закона распределения случайной величины по стат. данным. На практике нам приходится иметь дело с ограниченным кол-вом экспериментальных данных, и результаты наблюдений всегда содержат элемент случайности. Возникает вопрос, какие черты случайной величины являются устойчивыми, а какие – случайными и возн. только за счет ограниченного объема эксперимент. данных. Для решения данной проблемы ставится задача сглаживания или выравнивания статист. данных, представления их в наиболее компактном виде с помощью простых аналитических зависимостей.

2. Задача проверки гипотез. Занимается проблемой: согласуются ли рез-ты эксперимента с гипотезой о том, что данная случайная величина подчинена закону распределения. Статистический материал может с большим или меньшим правдоподобием подтверждать или не подтверждать справедливость той или иной гипотезы.

3. Задача нахождения неизв. параметров распределения. При обработке статист. материала в условиях недостаточного объема экспериментального материала вовсе не возникает вопрос об определении законов распределения исследуемых случайных величин. Возникает более узкая задача обработки наблюдений – определить только некоторые параметры (числовые характеристики) случайной величины или системы случайных величин.

Что является целью математической статистики

Математические законы теории вероятностей не являются беспредметными абстракциями, лишенными физического содержания; они представляют собой математическое выражение реальных закономерностей, фактически существующих в массовых случайных явлениях природы.

До сих пор, говоря о законах распределения случайных величин, мы не затрагивали вопроса о том, откуда берутся, на каком основании устанавливаются эти законы распределения. Ответ на вопрос вполне определенен – в основе всех этих характеристик лежит опыт; каждое исследование случайных явлений, выполняемое методами теории вероятностей, прямо или косвенно опирается на экспериментальные данные. Оперируя такими понятиями, как события и их вероятности, случайные величины, их законы распределения и числовые характеристики, теория вероятностей дает возможность теоретическим путем определять вероятности одних событий через вероятности других, законы распределения и числовые характеристики одних случайных величин через законы распределения и числовые характеристики других. Такие косвенные методы позволяют значительно экономить время и средства, затрачиваемые на эксперимент, но отнюдь не исключают самого эксперимента. Каждое исследование в области случайных явлений, как бы отвлеченно оно ни было, корнями своими всегда уходит в эксперимент, в опытные данные, в систему наблюдений.

Разработка методов регистрации, описания и анализа статистических экспериментальных данных, получаемых в результате наблюдения массовых случайных явлений, составляет предмет специальной науки – математической статистики.

Все задачи математической статистики касаются вопросов обработки наблюдений над массовыми случайными явлениями, но в зависимости от характера решаемого практического вопроса и от объема имеющегося экспериментального материала эти задачи могут принимать ту или иную форму.

Охарактеризуем вкратце некоторые типичные задачи математической статистики, часто встречаемые на практике.

1. Задача определения закона распределения случайной величины (или системы случайных величин) по статистическим данным

Мы уже указывали, что закономерности, наблюдаемые в массовых случайных явлениях, проявляются тем точнее и отчетливее, чем больше объем статистического материала. При обработке обширных по своему объему статистических данных часто возникает вопрос об определении законов распределения тех или иных случайных величин. Теоретически при достаточном количестве опытов свойственные этим случайным величинам закономерности будут осуществляться сколь угодно точно. На практике нам всегда приходится иметь дело с ограниченным количеством экспериментальных данных; в связи с этим результаты наших наблюдений и их обработки всегда содержат больший или меньший элемент случайности. Возникает вопрос о том, какие черты наблюдаемого явления относятся к постоянным, устойчивым и действительно присущи ему, а какие являются случайными и проявляются в данной серии наблюдений только за счет ограниченного объема экспериментальных данных. Естественно, к методике обработки экспериментальных данных следует предъявить такие требования, чтобы она, по возможности, сохраняла типичные, характерные черты наблюдаемого явления и отбрасывала все несущественное, второстепенное, связанное с недостаточным объемом опытного материала. В связи с этим возникает характерная для математической статистики задача сглаживания или выравнивания статистических данных, представления их в наиболее компактном виде с помощью простых аналитических зависимостей.

2. Задача проверки правдоподобия гипотез

Эта задача тесно связана с предыдущей; при решении такого рода задач мы обычно не располагаем настолько обширным статистическим материалом, чтобы выявляющиеся в нем статистические закономерности были в достаточной мере свободны от элементов случайности. Статистический материал может с большим или меньшим правдоподобием подтверждать или не подтверждать справедливость той или иной гипотезы. Например, может возникнуть такой вопрос: согласуются ли результаты эксперимента с гипотезой о том, что данная случайная величина подчинена закону распределения ? Другой подобный вопрос: указывает ли наблюденная в опыте тенденция к зависимости между двумя случайными величинами на наличие действительной объективной зависимости между ними или же она объясняется случайными причинами, связанными с недостаточным объемом наблюдений? Для решения подобных вопросов математическая статистика выработала ряд специальных приемов.

3. Задача нахождения неизвестных параметров распределения

Часто при обработке статистического материала вовсе не возникает вопрос об определении законов распределения исследуемых случайных величин. Обыкновенно это бывает связано с крайне недостаточным объемом экспериментального материала. Иногда же характер закона распределения качественно известен до опыта, из теоретических соображений; например, часто можно утверждать заранее, что случайная величина подчинена нормальному закону. Тогда возникает более узкая задача обработки наблюдений – определить только некоторые параметры (числовые характеристики) случайной величины или системы случайных величин. При небольшом числе опытов задача более или менее точного определения этих параметров е может быть решена; в этих случаях экспериментальный материал содержит в себе неизбежно значительный элемент случайности; поэтому случайными оказываются и все параметры, вычисленные на основе этих данных. В таких условиях может быть поставлена только задача об определении так называемых «оценок» или «подходящих значений» для искомых параметров, т.е. таких приближенных значений, которые при массовом применении приводили бы в среднем к меньшим ошибкам, чем всякие другие. С задачей отыскания «подходящих значений» числовых характеристик тесно связана задача оценки их точности и надежности. С подобными задачами мы встретимся в главе 14.

Таков далеко не полный перечень основных задач математической статистики. Мы перечислили только те из них, которые наиболее важны для нас по своим практическим применениям. В настоящей главе мы вкратце познакомимся с некоторыми, наиболее элементарными задачами математической статистики и с методами их решения.

Добавить комментарий

Ваш адрес email не будет опубликован.