Что является статистической оценкой математического ожидания
Перейти к содержимому

Что является статистической оценкой математического ожидания

  • автор:

Параметры распределения и статистика

Любые параметры распределения случайной переменной, например, такие как математическое ожидание или дисперсия, являются теоретическими величинами, недоступными непосредственному измерению, хотя их и можно оценить. Они представляют собой количественную характеристику генеральной совокупности и могут быть сами по себе определены лишь в ходе теоретического моделирования как гипотетические величины, поскольку они описывают особенности распределения случайной величины в самой генеральной совокупности. Для того чтобы определить их на практике, исследователь, проводящий эксперимент, осуществляет их выборочную оценку. Такая оценка предполагает статистический подсчет.

Статистика представляет собой количественную характеристику исследуемых параметров, характеризующих распределение случайной величины, полученную на основе исследования выборочных значений. Статистика используется либо для описания самой выборки, либо, что имеет первостепенное значение в фундаментальных экспериментальных исследованиях, для оценки параметров распределения случайной величины в исследуемой генеральной совокупности.

Разделение понятий "параметр" и "статистика" является очень важным, так как оно позволяет избежать ряд ошибок, связанных с неверным толкованием данных, получаемых в эксперименте. Дело в том, что, когда мы оцениваем параметры распределения с помощью статистических данных, мы получаем величины, лишь в определенной степени близкие к оцениваемым параметрам. Между параметрами и статистикой практически всегда существует какое-то различие, причем, насколько велико это различие, мы, как правило, сказать не можем. Теоретически чем больше выборка, тем ближе оцениваемые параметры оказываются к их выборочным характеристикам. Однако это не означает, что, увеличив объем выборки, мы неминуемо ближе подойдем к оцениваемому параметру, уменьшим разницу между ним и вычисленной статистикой. На практике все может оказаться значительно сложнее.

Если в теории ожидаемое значение статистики совпадает с оцениваемым параметром, то такую оценку называют несмещенной. Оценку, при которой ожидаемое значение оцениваемого параметра отличается от самого параметра на некоторую величину, называют смещенной.

Также следует различать точечную и интервальную оценки параметров распределения. Точечной называют оценку с помощью какого-либо числа. Например, если мы утверждаем, что величина пространственного порога тактильной чувствительности для данного испытуемого в данных условиях и на данном участке кожи составляет 21,8 мм, то такая оценка будет точечной. Точно так же точечная оценка имеет место, когда в сводке погоды нам сообщают, что за окном 25°С. Интервальная оценка предполагает использование в оценке набора или диапазона чисел. Оценивая пространственный порог тактильной чувствительности, мы может сказать, что он оказался в диапазоне от 20 до 25 мм. Аналогичным образом синоптики могут сообщить, что по их прогнозам температура воздуха в ближайшие сутки достигнет значения 22–24°С. Интервальная оценка случайной величины позволяет нам не только определить искомое значение этой величины, но и задать возможную точность для такой оценки.

Математическое ожидание и его оценка

Вернемся к нашему опыту с подбрасыванием монеты.

Попытаемся ответить на вопрос: сколько раз должен выпасть "орел", если мы подбросим монету десять раз? Ответ, по-видимому, очевиден. Если вероятности каждого из двух исходов равны, то и сами исходы должны распределяться равным образом. Иными словами, при десятикратном подбрасывании обычной монеты мы вправе ожидать, что одна из ее сторон, например "орел", выпадет ровно пять раз. Аналогично при 100-кратном бросании монеты "орел" должен выпасть ровно 50 раз, а если монету бросить 4236 раз, то интересующая нас сторона должна появиться 2118 раз, не больше и не меньше.

Итак, теоретическое значение случайного события принято называть математическим ожиданием. Математическое ожидание может быть найдено путем умножения теоретической вероятности случайной величины на число испытаний. Более формально, однако, оно определяется как центральный момент первого порядка. Таким образом, математическое ожидание – это то значение случайной величины, к которому оно теоретически стремится при повторных испытаниях, относительно которого оно варьирует.

Ясно, что теоретическое значение математического ожидания как параметра распределения не всегда оказывается равным эмпирическому значению интересующей нас случайной величины, выраженной в статистике. Если мы проделаем опыт с подбрасыванием монеты, то вполне вероятно, что из десяти исходов "орел" выпадет лишь четыре или три раза, а может быть, напротив, он выпадет восемь раз, а может, и никогда не выпадет. Ясно, что какой-то из этих исходов оказывается более, какой-то менее вероятным. Если воспользоваться законом нормального распределения, то можно прийти к выводу, что чем больше результат отклоняется от теоретически ожидаемого, заданного величиной математического ожидания, тем он менее вероятен на практике.

Предположим далее, что мы проделали подобную процедуру несколько раз и ни разу не наблюдали теоретически ожидаемого значения. Тогда у нас может возникнуть сомнение относительно подлинности монеты. Мы можем предположить, что для нашей монеты вероятность выпадения "орла" на самом деле не равна 50%. В таком случае может понадобиться оценить величину вероятности этого события и соответственно величину математического ожидания. Такая необходимость возникает всякий раз, когда в эксперименте мы исследуем распределение непрерывной случайной величины, такой как время реакции, не имея заранее какой-либо теоретической модели. Как правило, это первый обязательный шаг в ходе количественной обработки результатов эксперимента.

Математическое ожидание можно оценить тремя способами, которые на практике могут дать несколько различные результаты, но в теории они должны непременно привести нас к величине математического ожидания.

Логику такой оценки иллюстрирует рис. 1.2. Математическое ожидание может быть рассмотрено как центральная тенденция в распределении случайной величины х, как наиболее вероятное и потому наиболее часто встречающееся ее значение и как точка, делящая распределение на две равные части.

Оценка математического ожидания для нормального распределения

Рис. 1.2. Оценка математического ожидания для нормального распределения

Продолжим наши воображаемые опыты с монетой и проведем три эксперимента с десятикратным ее подбрасыванием. Предположим, что в первом эксперименте "орел" выпал четыре раза, то же самое произошло и во втором опыте, в третьем опыте "орел" выпадал более чем в полтора раза чаще – семь раз. Логично предположить, что математическое ожидание интересующего нас события на самом деле лежит где-то между этими величинами.

Первый, простейший способ оценки математического ожидания будет состоять в нахождении среднего арифметического. Тогда оценка математического ожидания на основе приведенных выше трех измерений будет равна (4 + 4 + 7)/3 = 5. Аналогичным образом в экспериментах со временем реакции математическое ожидание может быть оценено путем вычисления среднего арифметического всех полученных значений х. Так, если мы провели п замеров времени реакции х, то можем воспользоваться следующей формулой, которая показывает нам, что для вычисления среднего арифметического значения X необходимо сложить все эмпирически полученные величины и разделить их на число наблюдений:

(1.2)

В формуле (1.2) меру математического ожидания принято обозначать как ̅х (читается как "икс с чертой"), хотя иногда она может обозначаться как М (от англ. mean – среднее).

Среднее арифметическое является наиболее часто используемой оценкой математического ожидания. В таких случаях предполагается, что измерения случайной величины осуществляется в метрической шкале. Ясно, что полученный результат может совпадать, а может и не совпадать с истинным значением математического ожидания, которое нам никогда не известно. Важно, однако, что такой способ является несмещенной оценкой математического ожидания. Это значит, что ожидаемое значение оцениваемой величины равно ее математическому ожиданию: .

Второй способ оценки математического ожидания состоит в том, чтобы за его величину принять наиболее часто встречающееся значение интересующей нас переменной. Это значение называется модой распределения. Например, в рассмотренном только что случае с подбрасыванием монеты за величину математического ожидания можно принять "четыре", так как в трех проведенных испытаниях эта величина появлялась дважды; именно поэтому мода распределения в этом случае оказалась равной четырем. Оценка моды применяется главным образом в том случае, когда экспериментатор имеет дело с переменными, принимающими дискретные значения, заданные в неметрической шкале.

Например, описывая распределение оценок студентов на экзамене, можно построить частотное распределение полученных студентами оценок. Такое частотное распределение называется гистограммой. За величину центральной тенденции (математического ожидания) в этом случае можно принять наиболее распространенную оценку. При исследовании переменных, характеризующихся непрерывными значениями, эта мера практически не применяется или применяется редко. Если же частотное распределение полученных результатов все-таки строится, то оно, как правило, касается не самих полученных в эксперименте значений исследуемого признака, а некоторых интервалов его проявления. Скажем, исследуя рост людей, можно посмотреть, сколько человек попадает в интервал до 150 см роста, сколько в интервал от 150 до 155 см и т.д. В этом случае мода будут иметь отношение к интервальным значениям исследуемого признака, в данном случае – роста.

Понятно, что мода, как и среднее арифметическое, может совпадать, а может и не совпадать с действительным значением математического ожидания. Но так же, как и среднее арифметическое, мода является несмещенной оценкой математического ожидания.

Добавим, что если два значения в выборке встречаются одинаково часто, то такое распределение называют бимодальным. Если три и больше значений в выборке встречаются одинаково часто, то говорят, что такая выборка не имеет моды. Такие случаи при достаточно большом числе наблюдений, как правило, свидетельствуют о том, что данные извлечены из генеральной совокупности, характер распределения в которой отличается от нормального.

Наконец, третий способ оценки математического ожидания состоит в том, чтобы поделить выборку испытуемых по интересующему нас параметру ровно пополам. Величина, характеризующая эту границу, называется медианой распределения.

Предположим, мы присутствуем на лыжных соревнованиях и после их окончания желаем оценить, кто из спортсменов показал результат выше среднего, а кто – ниже. Если состав участников более или менее ровный, то при оценке среднего результата логично вычислить среднее арифметическое. Предположим, однако, что среди участников-профессионалов есть несколько любителей. Их немного, но они показывают результаты, значительно уступающие остальным. В этом случае может оказаться, что из 100 участников соревнований, например, результат выше среднего показали 87. Ясно, что такая оценка средней тенденции нас нс всегда может устроить. В этом случае логично предполагать, что средний результат показали участники, занявшие где-то 50-е или 51-е место. Это как раз и будет медианой распределения. До 50-го финалиста финишировали 49 участников, после 51-го – тоже 49. Непонятно, правда, чей же результат из них принять за средний. Конечно, может оказаться, что они финишировали с одинаковым временем. Тогда проблемы не возникает. Не возникает проблемы и тогда, когда число наблюдений оказывается нечетным. В других случаях, однако, можно воспользоваться усреднением результатов двух участников.

Медиана представляет собой частный случай квантиля распределения. Квантиль – это часть распределения. Формально его можно определить как интегральное значение распределения между двумя величинами переменной X. Таким образом, величина X будет являться медианой распределения, если интегральное значение распределения (плотность вероятности) от -∞ до X равно интегральному значению распределения от X до +∞. Аналогичным образом распределение можно делить на четыре, десять или 100 частей. Такие квантили соответственно называются квартилями, децилями и перцентилями. Существуют и другие виды квантилей.

Так же, как и два предыдущих способа оценки математического ожидания, медиана является несмещенной оценкой математического ожидания.

Теоретически предполагается, что если мы имеем дело действительно с нормальным распределением случайной величины, то все три оценки математического ожидания должны давать один и тот же результат, так как все они представляют собой вариант несмещенной оценки одного и того же параметра распределения оцениваемой случайной величины (см. рис. 1.2). На практике, однако, такое встречается редко. Это может быть связано, в частности, и с тем, что анализируемое распределение отличается от нормального. Но основная причина таких несовпадений, как правило, состоит в том, что, оценивая величину математического ожидания, можно получить значение, весьма значительно отличающееся от его истинной величины. Впрочем, как уже было отмечено выше, в математической статистике доказано, что чем больше независимых испытаний рассматриваемой переменной проведено, тем ближе оцениваемое значение должно оказаться к истинному.

Таким образом, на практике выбор способа оценки математического ожидания определяется не стремлением получить более точную и надежную оценку этого параметра, а лишь соображениями удобства. Также определенную роль в выборе способа оценки математического ожидания играет измерительная шкала, в которой отражаются сами наблюдения оцениваемой случайной величины.

Точечная оценка и ее свойства

Когда оценка определяется одним числом, она называется точечной оценкой. Точечная оценка, как функция от выборки, является случайной величиной и меняется от выборки к выборке при повторном эксперименте.
К точечным оценкам предъявляют требования, которым они должны удовлетворять, чтобы хоть в каком-то смысле быть «доброкачественными». Это несмещённость, эффективность и состоятельность.

Интервальные оценки определяются двумя числами – концами интервала, который накрывает оцениваемый параметр. В отличие от точечных оценок, которые не дают представления о том, как далеко от них может находиться оцениваемый параметр, интервальные оценки позволяют установить точность и надёжность оценок.

В качестве точечных оценок математического ожидания, дисперсии и среднего квадратического отклонения используют выборочные характеристики соответственно выборочное среднее, выборочная дисперсия и выборочное среднее квадратическое отклонение.

Свойство несмещенности оценки .
Желательным требованием к оценке является отсутствие систематической ошибки, т.е. при многократном использовании вместо параметра θ его оценки среднее значение ошибки приближения равно нулю — это свойство несмещенности оценки.

Определение. Оценка называется несмещенной , если ее математическое ожидание равно истинному значению оцениваемого параметра:

Выборочное среднее арифметическое является несмещенной оценкой математического ожидания, а выборочная дисперсия — смещенная оценка генеральной дисперсии D. Несмещенной оценкой генеральной дисперсии является оценка

Свойство состоятельности оценки .
Второе требование к оценке — ее состоятельность — означает улучшение оценки с увеличением объема выборки.

Определение. Оценка называется состоятельной , если она сходится по вероятности к оцениваемому параметру θ при n→∞.

Свойство эффективной оценки .
Третье требование позволяет выбрать лучшую оценку из нескольких оценок одного и того же параметра.

Определение. Несмещенная оценка является эффективной , если она имеет наименьшую среди всех несмещенных оценок дисперсию.

Это означает, что эффективная оценка обладает минимальным рассеиванием относительно истинного значения параметра. Заметим, что эффективная оценка существует не всегда, но из двух оценок обычно можно выбрать более эффективную, т.е. с меньшей дисперсией. Например, для неизвестного параметра a нормальной генеральной совокупности N(a,σ) в качестве несмещенной оценки можно взять и выборочное среднее арифметическое, и выборочную медиану. Но дисперсия выборочной медианы примерно в 1.6 раза больше, чем дисперсия среднего арифметического. Поэтому более эффективной оценкой является выборочное среднее арифметическое.

Пример №1 . Найдите несмещенную оценку дисперсии измерений некоторой случайной величины одним прибором (без систематических ошибок), результаты измерения которой (в мм): 13,15,17.
Решение. Таблица для расчета показателей.

x |x — xср| (x — xср) 2
13 2 4
15 0 0
17 2 4
45 4 8

Простая средняя арифметическая (несмещенная оценка математического ожидания)


Дисперсия — характеризует меру разброса около ее среднего значения (мера рассеивания, т.е. отклонения от среднего — смещенная оценка).


Несмещенная оценка дисперсии — состоятельная оценка дисперсии (исправленная дисперсия).

Пример №2 . Найдите несмещенную оценку математического ожидания измерений некоторой случайной величины одним прибором (без систематических ошибок), результаты измерения которой (в мм): 4,5,8,9,11.
Решение. m = (4+5+8+9+11)/5 = 7.4

Пример №3 . Найдите исправленную дисперсию S 2 для выборки объема n=10, если выборочная диспресия равна D = 180.
Решение. S 2 = n*D/(n-1) = 10*180/(10-1) = 200

Статистические оценки параметров распределения

Оценка математического ожидания и дисперсии по выборке

Статистической оценкой неизвестного параметра теоретического распределения называют функцию от наблюдаемых случайных величин.

Для того чтобы статистические оценки давали «хорошие» приближения оцениваемых параметров, они должны удовлетворять следующим свойствам: несмещенности, эффективности и состоятельности.

Оценка 0 параметра 0 называется несмещенной, если ее математическое ожидание равно оцениваемому параметру 0, т. е. М (0W) = 0.

Если это равенство не выполняется, то оценка 0„ может либо завышать значение, либо занижать его. В обоих случаях это приводит к систематическим ошибкам в оценке параметра 0.

Несмещенная оценка 0И, которая имеет наименьшую дисперсию

среди всех возможных несмещенных оценок параметра 0, вычисленных по выборкам одного и того же объема, называется эффективной оценкой.

Оценка 0И параметра 0 называется состоятельной, если она подчиняется закону больших чисел, т. е. выполняется следующее равенство:

На практике при оценке параметров не всегда удается удовлетворить одновременно перечисленным требованиям. Например, для простоты расчета целесообразно использовать незначительно смещенную оценку. Однако выбору оценки всегда должно предшествовать ее критическое рассмотрение со всех точек зрения.

В курсе математической статистики доказываются следующие теоремы, которыми мы будем пользоваться в дальнейшем:

1. Арифметическая средняя X, вычисленная по п независимым наблюдениям случайной величины X, которая имеет математическое ожидание р и дисперсию о 2 , является несмещенной и состоятельной оценкой этого параметра.

Если случайная величина X распределена по нормальному закону с параметрами р, а 2 , то несмещенная оценка математического ожидания р имеет минимальную дисперсию, равную о 2 /п; поэтому X в этом случае является эффективной оценкой математического ожидания р.

Если случайная выборка состоит из п независимых наблюдений случайной величины X с математическим ожиданием и дисперсией, то выбоин _

рочная дисперсия S 2 = ^(х.-Х) 2 /ц не является несмещенной оценкой

генеральной дисперсии, так как

Несмещенной оценкой дисперсии генеральной совокупности будет величина

которую называют исправленной выборочной дисперсией.

Оценка S является состоятельной оценкой а .

Их дисперсии таковы:

  • • Z)jxj =о 2 х/п (оценка математического ожидания (выборочное среднее));
  • • известно математическое ожидание D=— о 4 х (при п » 1)
  • 1 ) п
  • (оценка дисперсии);
  • • не известно математическое ожидание Djs 2 > =-а 4 х (при п » 1)
  • 1 > п -1
  • (оценка дисперсии).

Несмещенной, состоятельной и эффективной оценкой а 2 является оценка

для вычисления которой необходимо знание математического ожидания случайной величины X. Оценки S 1 , S 2 не являются эффективными. В том

случае, когда значение математического ожидания неизвестно, для оценки

2 л 2 дисперсии а пользуются состоятельной и несмещенной оценкой S .

Добавить комментарий

Ваш адрес email не будет опубликован.