Учебное пособие: Теория вероятностей и математическая статистика
В
следующих задачах следует построить уравнение регрессии вида Сделать вывод о
возможности использования линию регрессии в дальнейших прогнозах.
1.
Данные о выпуске продукции (Y)
и энерговооруженности (X)
на 6 предприятиях.
Xi
2
3
5
6
6
7
Yi
2,5
5,5
10
10
11,5
13,5
2.
Данные об удельной величине спроса товаров (Y)
и среднедушевого дохода (Х).
Xi
1
2
3
4
6
6
Yi
3,5
6,1
7,5
7,8
8,2
8,1
3.
Данные об объеме валового продукта (Y)
и затратами на капитальные вложения (Х) по 6 предприятиям.
Xi
1
1
2
4
6
8
Yi
4,5
5,1
10,3
18,1
19,2
19,8
4.
Данные об объеме выпуска продукции (Y)
и ее себестоимости.
Xi
2
2
3
4
5
6
Yi
8,5
9,1
11,2
12,8
15,1
17,3
5.
Данные о долговечности элемента (Y)
и величине эксплуатационного напряжения (Х).
Xi
6
7
7
8
9
9
Yi
40,1
45,4
46,2
53,2
59,5
60,2
6.
Данные об урожайности (Y)
и количестве весенних осадках (Х).
Xi
1
2
2
3
4
5
Yi
0,8
3,5
4,2
7,1
9,8
13,1
7.
Данные об урожайности (Y)
и механовооруженности (Х)
Xi
1
1
2
2
3
5
Yi
4,2
3,9
4,8
5,1
6,2
7,7
8.
Данные о зависимости стоимости сооружения (Y)
и срока ее эксплуатации (Х).
Xi
1
2
3
3
4
6
Yi
0,7
4,2
7,3
7,1
10,3
15,6
9.
Данные об изменении массы просят (Y)
и возраста (Х).
Xi
4
5
7
7
8
10
Yi
12,6
14,2
16,3
15,9
17,4
18,8
10.
Данные о производительности труда (Y)
и фондовооруженности (Х).
Xi
2
4
6
6
7
8
Yi
0,8
5,2
8,7
9,2
11
13,2
IV.
РЕШЕНИЕ ТИПОВЫХ ЗАДАЧ
Пример_1.
Студент знает 15 вопросов из 25. Наудачу ему задается вопрос. Найти вероятность
того, что он его знает.
Решение:
Мы находимся в классической схеме. Действительно, если представить эксперимент
в
виде урновой схемы - в урне 25 пронумерованных шаров из которой достается один
шар- то ясно, что все исходы равновозможные и их конечное число. Далее A={студент
знает предложенный вопрос}, m=15-
число исходов благоприятствующих А, n=25-
общее число исходов. Тогда
.
Пример
2. Из
колоды в 36 карт, достается одна. Найти вероятность того, что она "красная".
Решение:
Обозначим А={наудачу вынутая карта- "красная"}; m=18-
число исходов благоприятствующих А, т.к. в колоде из 36 карт, 18
"красных" карт; n=36-
общее число исходов. Тогда по классическому определению вероятности
.
Пример
3.Стрелок
произвел 100 выстрелов по мишени, причем поразил мишень в 45 случаях. Найти
вероятность того, что стрелок поразит мишень.
Решение:
Подсчитаем относительною частоту события А={стрелок поразит мишень при
одном выстреле}.
.
Таким
образом искомая вероятность Р(А)=0,45.
Пример
4. Вероятность
того, что событие А произойдет в опыте равна 0,75; вероятность того, что
событие В произойдет в опыте- 0,4. Вероятность того, что оба события произойдут
в опыте равна 0,25. Найти вероятность того, что хотя бы одно событие произойдет
в опыте.
Решение:
Обозначим
А={событие А произошло в опыте}, В={событие В произошло в опыте}
Тогда
А×В={события
А и В произошли в опыте одновременно}.
Р(А)=0,75;
Р(В)=0,4; Р(А×В)=0,25.
Используя
теорему о сумме двух совместных событий получим
Р(А+В)=Р(А)+Р(В)-Р(А×В)=0,75+0,4-0,25=0,9.
Пример
5. Деталь
проходит три операции обработки. Вероятность появления брака во время первой
операции равна 0,02, второй- 0,01, третьей- 0,03. Найти вероятность: а) выхода
стандартной детали, считая появление брака во время отдельных операций независимыми
событиями; б) выхода бракованной детали.
Решение:
а) введем события А={на выходе появилась стандартная деталь}, Аi={i-я
операция обработки прошла без брака}, i=1,2,3.
Тогда А=А1×А2×А3.
По условию задачи Р(А1)=0,98; Р(А2)=0,99; Р(А3)=0,97.Используя
теорему умножения для независимых событий, получаем.
Пример_6.
Партия деталей содержит 70% деталей первого завода и 30% деталей второго
завода. Вероятность того, что деталь с первого завода проработает без отказа
более 1000 часов (надежность) равна 0,95 , а для деталей со второго завода эта
вероятность равна 0,9.
а)
Найти вероятность того, что случайно взятая из партии деталь проработает без
отказа более 1000 часов.
б)
Деталь прошла испытание и проработала безотказно 1000 часов. Найти вероятность
того, что она с первого завода.
Решение:
Введем
события А={деталь проработает без отказа более 1000 часов}.Hi={взятая
деталь с завода i} , i=1,2
по условию задачи P(H1)=0,7
; P(H2)=0,3
; P(A/H1)=0,95
; P(A/H2)=0,9.
Таким
образом, партия деталей (большое количество) будет содержать где-то 93,5%
деталей с заданной надежностью. б) Сохраним обозначения п. а). по формуле
Бейеса
.
Пример
7.
Найти числовые характеристики с.в. Х , построить функцию распределения если:
Мода(Х)=8,
т.к. 8 имеет наибольшую вероятность, равную 0,6. Коэффициент асимметрии
.
Пример
8.
Вероятность того, что в данный день торговая база уложится в норму расходов на
транспорт, равна 0,8. Какова вероятность того, что за три рабочих дня база
уложится в норму 2 раза. Найти числовые характеристики с.в. Х- число дней,
когда база укладывается в норму транспортных расходов в течение трех
рассматриваемых дней.
Решение:
Можно считать, что мы находимся в схеме Бернулли, а следовательно с.в. Х имеет
биномиальное распределение. По условию задачи n=3
, p=0,8.
Тогда
Основные
числовые характеристики с.в. Х равны: а) математическое ожидание MX=
n×p=3×0,8=2,4;
б) дисперсия DX= n×p×q=3×0,8×0,2=0,48;
q=1-p=0,2,
»0,7;
в)
коэффициент вариации
;
г)
коэффициент асимметрии
;
д)
коэффициент эксцесса
;
е)
Мода (наивероятнейшее число) находится из неравенства
np-q£Мода(Х)<np+p
, т.е. 3×0,8-0,2£Мода(Х)<3×0,8+0,8
2,2£Мода(Х)<3,2ÞМода(Х)=3.
Пример
9.
В условиях предыдущего примера, найти вероятность того, что из 100 рабочих дней
торговая база уложится в норму транспортных расходов:
а)
ровно 80 раз; б) от 75 до 85 дней включительно.
Решение:
а) в нашем случае n=100; p=0,8;
q=0,2.
Воспользоваться
точной формулой для вычисления Р(Х=80) практически невозможно, поэтому
воспользуемся приближенной. Так как npq=100×0,8×0,2=16>9,то
применим локальную теорему Муавра- Лапласа.
,
j(0)-
найдено по таблице 3 приложения-плотности нормального распределения N(0,1);
здесь
Ф(Х)- функция Лапласа, значение которой найдено по таблице.
Пример
10.
Вероятность того, что наборщик ошибется при наборе знака равна 0,0001. Найти
вероятность того, что набирая 30000 знаков, наборщик допустит:
а)
ровно 3 ошибки; б) от 2 до 4 ошибок включительно.
Решение:
Можно считать, что мы находимся в схеме Бернулли с параметрами n=30000,
p=0,0001. Тогда npq=30000×0,0001×0,9999»3<9,
поэтому для вычисления отдельных вероятностей воспользуемся теоремой Пуассона:
,
l=np,
k=0,1,2,...
а)пользуясь
таблицей, получим
, l=np=3.
б)
=0,22404+0,22404+0,16803=0,61611.
Пример
11.
С.в. Х имеет распределение Пуассона со средним равным 1,5. Найти числовые
характеристики Х. Вычислить вероятности: а) Р(Х=0); б) Р(Х³1);
в) Р(Х>7).
Решение:
Для с.в. имеющей распределение Пуассона с параметром l
известно, что МХ=l. Следовательно, из условия задачи
(МХ=1,5) находим, что l=1,5.Числовые характеристики Х равны
Моду
с.в. Х найдем по таблице: Мода(Х)=1, т.к. Х=1 имеет наибольшую вероятность.а)
По таблице находим Р(Х=0)=0,22313; б)
Р(Х³1)=1-Р(Х=0)=0,77687;
в)
Р(Х>7)=0,00017.Эта вероятность найдена по таблице 2 приложения, она
настолько мала, что можно считать, что больше 7 событий практически не
происходят.
Пример
12.
Из урны содержащей четыре белых и шесть черных шаров, наудачу извлекают три
шара. Какова вероятность, что среди них два черных шара. Найдите числовые характеристики
с.в. Х- число черных шаров из вынутых трех шаров.
Решение:
Мы находимся в схеме формирования с.в. Х имеющей гипергеометрическое
распределение с параметрами (N,p,n):
,
k=0,1,2,..., q=1-p.
В нашем случае: N=6+4=10 - общее
число шаров в урне; n=3 - число
шаров, которые достаются из урны; Np=6
- количество черных шаров, Þ p=6/N=6/10=0,6
(p связано с черными шарами, т.к. Х-
тоже связано с черными шарами);
Nq=4 - число белых шаров,Þ
q=0,4. Итак:
.
Числовые
характеристики с.в. Х равны MX=n×p=3×0,6=1,8
;
Среднее
квадратическое отклонение
Коэффициент
вариации
Коэффициент
асимметрии
.
Пример
13.
С.в. Х имеет показательное распределение с параметром l=2.
Найти числовые характеристики с.в. Х и вычислить Р(1<X<3).
Решение:
Числовые характеристики с.в. Х вычисляются по формулам:
-математическое
ожидание;
-дисперсия;
-
среднее
квадратическое отклонение;
V(X)=100%
-коэффициент вариации
всегда
равен 100% ; Медиана
(Х)=.
График
плотности с.в. Х имеет вид изображенный на рис.1. Из этого графика видно, что
локальный максимум плотности находится в точке О.
Следовательно
Мода(Х)=0.
Коэффициент
асимметрии a(Х)=2 (всегда 2).
Коэффициент
эксцесса е(Х)=6 (всегда 6).
рис.1
Пример
14.С.в.
Х имеет нормальное распределение с параметрами а=150, s2=36.
а)
Выпишите плотность с.в. Х и изобразите эскиз графика плотности.
б)
Найти числовые характеристики с.в. Х.
в)
Найти границы за которые практически не выходит с.в. Х.
г)
Вычислить Р(135<X<165).
Решение:
а) Выпишем плотность с.в. Х:
,
б)
Найдем числовые характеристики Х.
МХ=Мода()=Медиана()=а=150
D(X)=s2=36Þs(x)==s=6
Коэффициенты
асимметрии и эксцесса равны 0. Коэффициент вариации
,
в)
используя правило 3 сигм, можно утверждать, что с.в. Х практически (с
вероятностью 0,9973) не выйдет за границы интервала а-
3s<X<a+3s,
т.е. 150-3×6<X<150+
3×6sÞ132<X<168;
г)
Р(135<X<165)=Ф =
,
здесь
Ф(×)-функция
Лапласа, значение которой найдено по таблице. Отметим свойство функции
Ф(х):Ф(-х)=-Ф(х) поэтому Ф(-2,5)=- Ф(2,5)=-0,49379.
Пример
15.
Найдите выборочные числовые характеристики по выборке: 3,5,6,3,3,6,3,7,5,5,3.
Решение:
Построим статистический ряд частот:
Варианты хi
3
5
6
7
Частота ni
5
3
2
1
Объем
выборки
n=n1+n2+n3+n4=5+3+2+1=11.
;
S2=,
Оценки
являются
"хорошими" для математического ожидания и дисперсии, т.к. выборка
является малой, а Мода(Х)=3, т.к. значение 3 встречается
большее число раз (пять). Построим вариационный ряд: 3,3,3,3,3,5,5,5,6,6,7.Т.к.
n-нечетно (n=11),
то на месте (n+1)/2=6 в вариационном
ряде стоит медиана: Медиана(Х)=5.
Коэффициент
асимметрии
a*(х)=
.
Пример
16.
По выборочным данным найти моду, медиану. Построить
гистограмму.
Интервал
Частота ni
5-11
18
11-17
25
17-23
14
23-29
8
29-35
2
Решение:
Построим гистограмму частот
Для
удобства
Интервал
Середина
интервала
Частота
ni
Накопленная
частота
вычислений
5-11
8
18
18
составим
11-17
14
25
43
таблицу.
17-23
20
14
57
23-29
26
8
65
29-35
32
2
67
S=67
При
вычислении
=
Медиана
оценивается по формуле Медиана= L+i
Здесь
L- нижняя граница интервала, в
котором находится медиана (медианный интервал);
В
нашем случае n=67, следовательно,
медиана равна члену, стоящему на (n+1)/2=34-м
месте в вариационном ряду. По накопленным частотам заключаем, что этот член
находится в интервале (11,17). Следовательно, медианный интервал (11,17). Тогда
L=11, i=6,
(n+1)/2=34, f=25,
F=18 и, следовательно
Медиана
= 11+6×.
Мода
находится по формуле Мода= L+i
где
L- нижняя граница модального
интервала, i- величина модального
интервала
fмо,
fмо-1,
fмо+1
частота модального, предшествующего модальному и следующего за модальным интервала.
В нашем случае модальный интервал [11,17], т.к. имеет наибольшую частоту. Тогда
L=11, i=6,
fмо=25,
fмо-1=18,
fмо+1=14;
Мода =
Пример
17. Найти
97,5% доверительный интервал для неизвестного параметра а нормально распределенного
признака, если известно s=7,3. По выборке объема n=64
найдено .
Решение
Требуемый доверительный интервал равен
,
где
надежность g=0,975 позволяет найти Ug
из уравнения 2Ф(Ug)=0,975.
Из таблицы 4 приложения находим Ug=2,24.
Тогда
;
120,3-2,044<a<120,3+2,044;118,256<a<122,344.
Пример
18.
В условиях предыдущего примера, определите минимальный объем выборки, чтобы с надежностью
g=0,975
точность оценки была не больше 0,5.
Таким
образом, минимальный объем выборки должен составлять 1070 измерений.
Пример
19. По
выборке объема n=25 найдены . Считая, что
наблюдаемый признак имеет нормальное распределение найдите доверительный
интервал с надежностью 0,9.
Решение.
Искомый доверительный интервал равен
где
находится
по таблице 5 приложения:
Здесь
a=1-g=0,1;
К=n-1=25-1=24, тогда t0,1(24)=1,711.
Итак,
e;
16,3-0,71<a<16,3+0,71; 15,59<a<17,01.
Пример
20
Признак имеет нормальное распределение. По выборке объема n=30
найдена оценка дисперсии S2 =1,5.
Найдите 95% доверительный интервал для дисперсии.
Решение:
Доверительный интервал определяется так
,
Здесь
a=1-0,95=0,05;
тогда из
таблицы 7 приложения находим
, 0,95<s2<2,7.
Пример
21.
Произведено 529 испытаний, в которых события А наблюдалось 70 раз. Найдите 93%
доверительный интеграл для вероятности р события А.
Решение.
Искомый доверительный интервал находится так: р1<p<p2,
где
,
здесь
g=0,93,
Ug находится из уравнения
Ф(Ug)=g/2=0,465Þ
по таблице 4 функции Лапласа находим Ug=1,811.
Вычислим
Пример
22.
Необходимо проверить точность работы двух агрегатов А и В по контролируемому
признаку. Для этого были взяты две выборки nA=9,
nB=12 соответственно, по
которым найдено . Требуется проверить гипотезу о
том, что точность работы агрегатов одинакова, если известна, что контролируемый
признак имеет нормальное распределение.
Решение:
Проверку
проведем по F-критерию:
,
здесь
m1=nA-1=9-1=8,
т.к. А имеет большую дисперсию, m2=nВ-1=12-1=11.
По таблице, находим при a=0,1 Fкр=F(a/2=0,05;8;11)=2,95.
Т.к. Fнаб.<Fкр.,
то нет основания считать, что точность работы агрегатов разная.
Пример
23.
Нужно проверить влияние двух различных кормовых добавок на увеличение веса
свиней. Для этого 10 свиней кормили с добавкой А, а других 8 с добавкой В. По
выборочным данным вычислим
Решение
Уровень
значимости возьмем a=0,1.Первый этап. Проверим гипотезу о
равенстве дисперсии
.
Т.к.
Fнаб<Fкр,
то гипотезу о равенстве дисперсий принимаем. Второй этап. Проверим гипотезу о
равенстве увеличения веса для двух добавок (Н0:МХ=МУ).
Используем
t – критерий:
.
Выберем
a=0,05.
Найдем для k=n1+n2-2=10+8-2=16
степеней свободы по таблице 5 приложения tкр=t(0,05;16)=2,12.
Т.к.½tнаб½>tкр,
то различия признаются существенными. Следовательно добавка В дает больший
привес в весе.
Пример
24.
Фактический сбыт в шести районах характеризуется таблицей (выборкой).
Район
1
2
3
4
5
6
Объем сбыта
90
130
110
85
75
110
Согласуются
ли эти результаты с предложением о том, что сбыт продукции в этих районах одинаков?
Решение:
Выберем уровень значимости a=0,05. Если гипотеза Н0:
сбыт одинаков - верна, то теоретически объем сбыта в 600 у.е.
(90+130+110+85+75+110=600) должен распределиться одинаково по шести районам,
т.е. по 100 у.е. на каждый район. Дальнейшие вычисления сведем в таблицу.
Район
1
2
3
4
5
6
90
130
110
85
75
110
100
100
100
100
100
100
100
900
100
225
625
100
1
9
1
2,25
6,25
1
S
20,5
Таким
образом:
Т.к.
мы не оценивали ни один параметр, то по числу степеней свободы k=6-1=5
и уровню значимости a=0,05 по таблице 7 приложения находим , то различие
в сбыте по районам признается значимым и не может быть объяснено действием
случайного фактора.
Пример_25.
Проверить гипотезу о нормальном распределении выборки:
Интервал
10-12
12-14
14-16
16-18
18-20
20-22
22-24
Частота
2
4
8
12
16
10
3
Решение:
Для проверки гипотезы будем использовать критерий Пирсона. Уровень значимости
выберем a=0,1.
Т.к. нормальное распределение определяется двумя параметрами а и s2,
то оценим их по выборке, объем которой равен: n=2+4+8+12+16+10+3=55.
Итак:
Для
удобства вычисления статистики будем промежуточные результаты
вносить в таблицу. Объединим крайние интервалы с соседними, так, чтобы выполнилось
условие
I
II
III
IV
V
VI
№ интервала
Интервал
Pi
1
2
3
4
5
-¥;14
14;16
16;18
18;20
20;+¥
6
8
12
16
13
0,0959
0,1686
0,2576
0,2484
0,2295
5,274
9,273
14,168
13,662
12,623
0,010
0,175
0,332
0,400
0,011
n=55
1
0,928
Здесь
Рi- вероятность
того, что с.в. Х попадает в соответствующий интервал Di
при условии, что она имеет нормальное распределение с параметрами а=17,84; s2=8,53
(s=2,92).
Например, используя таблицу 4 приложения, находим:
Значения
в V столбце вычисляются так:
и т.д.
Значения
в VI столбце вычисляются так:
Тогда
сумма VI столбца даст значение Теперь найдем по таблице 7
приложения при уровне значимости a=0,1. Т.к. после
объединения интервалов у нас осталось r=5-
интервалов и по выборке мы оценили два (S=2)
параметра а и s, то для нахождения параметр число степеней свободы
будет равен k=r-s-1=5-2-1=2.
Тогда Так
как (т.е.
0,928<4,61), то гипотезу о нормальном распределении можно принять.
Пример_26.
Построить линию регрессии в виде Можно ли использовать ее в дальнейших
прогнозах?
xi
4
5
8
8
10
12
yi
0,5
4,2
12,7
13,6
19,2
24,8
Решение:
Выборочное уравнение линейной регрессии Y
на X имеет вид , где -условная средняя (при
фиксированным х); -выборочные средние; -несмещенные
оценки дисперсии; rB-
выборочный коэффициент корреляции: .
Проверим
гипотезу о значимости коэффициента корреляции, т.е. H0:r=0,
H1:r¹0.
Вычислим
статистику критерия:
По
уровню значимости a=0,05 и числу степеней свободы k=n-2=6-2=4
из таблицы находим двухстороннюю критическую область tкр=2,776.
Так как ½tнаб½>tкр
, то гипотезу о равенстве нулю коэффициента корреляции отвергаем, т.е. считаем,
что r¹0.
Найдем,
коэффициент детерминации Так как R2<0,75
(0,75-шаблонное значение), то уравнением регрессии пользоваться не рекомендуется.
В дальнейшем, т.к. зависимость между X
и Y существует (r¹0),
следует либо изменить вид зависимости, либо увеличить число наблюдений и
провести анализ зависимости снова.
Таблица
1. Плотность стандартного нормального распределения