I.
Diszkrét eloszlások
Az itt látható eloszlások az 1. ZH-hoz szükségesek.
Teljes valószínűség tétele
Adott egy A eseményünk, melynek ki szeretnénk számolni a
valószínűségét.
Adott ezen kívül tetszőleges darab B1 …
Bn esemény, melyek teljes eseményrendszert alkotnak
(vagyis egymást párokban kizárják és az uniójuk az teljes eseményteret
(Ω) adja).
A B1 … Bn események valószínűségét
ismerjük és azt is, hogy bekövetkezésük esetén mennyi
A bekövetkezésének esélye (vagyis sorra mennyi
P(A|B1) … P(A|Bn) értékei).
| i | P(Bi) | P(A|Bi) | X |
|---|---|---|---|
Ekkor ki tudjuk számolni P(A) értékét a következőképp:
P(A) =
Vagyis:
P(A) = =
Bayes-tétel
Ismert P(A), P(B) és
P(A|B) valószínűségek esetén kiszámolható vele
P(B|A), a következő módon:
| Változó | Érték |
|---|---|
| P(A) | |
| P(B) | |
| P(A|B) | |
| P(B|A) |
Tetszőleges Eloszlás
Ebben az esetben mi magunk adjuk meg kézzel az értékeket, amiket a valvál felvehet és ezek valószínűségeit.
| k | P(X=k) | X |
|---|---|---|
E(X) = =
E(X2) = =
D2(X) = E(X2) - E2(X) = - =
D(X) = √D2(X) =
Binomiális Eloszlás
Pl.: "Adott öt tanuló, akik 0.3 valószínűséggel készültek. Mennyi az esélye, hogy közűlük hárman készültek?"
| Változó | Érték |
|---|---|
| n | |
| p | |
| k |
| Érték | Képlet | Végeredmény |
|---|---|---|
| P(X = k) | ||
| E(X) | ||
| D(X) |
Adott n alanyunk, melyekre példányonként
p valószínűséggel következik be egy esemény. A kérdés,
hogy mennyi a valószínűsége, hogy k példányra következik
be az esemény.
Geometriai Eloszlás
Pl.: "30% az esélye, hogy nyerek a lottón. Mennyi az esélye, hogy az ötödik szelvényem nyer?"
| Változó | Érték |
|---|---|
| p | |
| k |
| Érték | Képlet | Eredmény |
|---|---|---|
| P(X = k) | ||
| E(X) | ||
| D(X) |
Adott egy esemény egyszeri bekövetkezésének valószínűsége, ez
p. A kérdés, hogy mennyi a valószínűsége, hogy ez az
esemény a k-adik próbálkozásra következik be és nem
előtte. Általában onnan felismerhető, hogy a feladat leírásában nem
található példányszám.
Poisson Eloszlás
Pl.: "Egy bagoly egy órán belül átlagosan háromszor huhog. Mennyi az esélye, hogy a következő órában ötször fog huhogni?"
| Változó | Érték |
|---|---|
| λ | |
| k |
| Érték | Képlet | Eredmény |
|---|---|---|
| P(X = k) | ||
| E(X) | λ | |
| D(X) |
Olyan esetekben használandó, amikor valamilyen adott mérhető
mennyiségen (pl. időtartam) belül adott darab egymástól független
esemény következik be átlagosan. A kérdés, hogy mi a valószínűsége,
hogy az esemény k alkalommal következik be.
II.
Folyamatos eloszlások
Az itt látható eloszlások az 2. ZH-hoz szükségesek.
Exponenciális eloszlás
Egy esemény bekövetkezésének valószínűségét adja meg x idő elteltével. Az esemény valószínűségének
direkt megadása helyett általában az E(X) értékéből számolunk λ értéket, mellyel a
képletek használhatóvá válnak.
| Változó | Érték |
|---|---|
| λ | |
| x |
| Érték | Képlet | Eredmény |
|---|---|---|
| f(x) | ||
| F(x) | ||
| E(X) | ||
| D(X) |
| Változó | Érték |
|---|---|
| A | |
| B | |
| P(A < X < B) |
Az exponenciális eloszlás rendelkezik még az úgynevezett "örökifjú" tulajdonsággal is. Ezt a következőképp definiáljuk:
Vagyis a feltételből következő valószínűség független a feltételtől. Ez az eddigi ZH-kban majdnem mindig előfordult,
valami olyasféle módon fogalmazva, hogy "tegyük fel egy buszra már öt perce várunk, mi a valószínűsége, hogy három
percen belül érkezik?" Mely esetén nem kell feltételes valószínűséget számolnunk, csupán P(X < 3)
értékét.
Természetesen a tulajdonság fordított esetben is érvényes, ekkor a következő képlettel (levezetés nélkül):
Normális eloszlás (standardizált)
Egy haranggörbével jellemezhető eloszlás, mely a valós számok egész halmazához rendel értéket. Paramétereiként meg
kell adnunk a várható értéket (m) és a szórást (σ). Használjuk például arra, hogy
gyártósorok selejtes termékeinek arányát vagy a várt értéktől való eltérés valószínűségét megbecsüljük.
Mivel egy tetszőleges normál eloszlás sűrűség- és eloszlásfüggvényét egy improprius integrállal tudnánk csak
kiszámolni, így helyette bevezetésre kerül az úgynevezett Fi függvény (Φ(X)), mely standardizált
(vagyis melyre igaz, hogy m = 0 és σ = 1)
normális eloszlások x értékeihez rendeli hozzá azok valószínűségéit. Ehhez a következő képletet
alkalmazzuk:
Bár a standardizált normális eloszlás rendelkezik egy az eloszlásfüggvényhez hasonló kis-Fi-vel jelölt sűrűségfüggvénnyel is, ezt nem igazán használjuk az egyetemen, így itt nem kerül bemutatásra.
| Változó | Érték |
|---|---|
| m | |
| σ | |
| x |
| Érték | Képlet | Eredmény |
|---|---|---|
| f(x) | - | |
| F(x) | ||
| E(X) | m | |
| D(X) | σ |
| Változó | Érték |
|---|---|
| A | |
| B | |
| P(A < X < B) |
Akad eset, hogy azt kérdezik tőlünk, hogy X mikor esik a várható értéktől egy adott sugarú távolságon
belülre. Ennek képletét a következőképp írhatjuk fel, ahol Δ a sugár és p pedig a valószínűség:
Ha minket Δ értéke érdekel, azt a következőképp tudjuk kiszámolni, ahol Φ-1-nél a táblázat egy értékéhez keressük a sor és oszlopból eredő számot (vagyis pl. 0.9 esetén 1.28-ot kapunk, mivel Φ(1.28) = 0.8779):
Érdemes a vastagított képletet megjegyezni csak, mivel annak segítségével akár a p értékét, akár a Δ-t megkaphatjuk.
Egyenletes eloszlás
Olyan eloszlás, melynek eloszlásfüggvénye lineárisan növekszik két érték (a és b) között.
A sűrűségfüggvénye emiatt a és b között egy x-től nem függő konstans, azon
kívül pedig nulla.
| Érték | Képlet | Eredmény |
|---|---|---|
| f(x) | ||
| F(x) | ||
| E(X) | ||
| D(X) |
| Változó | Érték |
|---|---|
| a | |
| b | |
| x |
| Változó | Érték |
|---|---|
| A | |
| B | |
| P(A < X < B) |
Centrális Határeloszlás Tétel
Adott egy tetszőleges eloszlás melynek ismerjük a várható értékét (E(X)) és szórását
(D(X)) és melyet n alkalommal mérünk.
Kellően nagy n esetén az eredeti
eloszlástól függetlenül az egyes példányok összege és átlaga tetszőleges pontossággal megközelít egy-egy normális
eloszlást az alább látható szabályok szerint.
| Változó | Érték |
|---|---|
| E(X) | |
| D(X) | |
| n | |
| x |
| Típus | Eloszlás | F(x) |
|---|---|---|
| Összeg | ||
| Átlag |
A Csebisev-egyenlőtlenség
Segítségével durva becslést tudunk adni, hogy egy valószínűségi változó mennyire tér el annak várható értékétől.
| Változó | Érték |
|---|---|
| E(X) | |
| D(X) | |
| k |
| Változat | Eredmény |
|---|---|
| < k | |
| ≥ k |
Nagy Számok Törvénye
A Nagy Számok Törvénye kétféle dologra enged becslést adnunk.
Egyrészt megbecsülhetjük, hogy egy eloszlás relatív gyakorisága (vagyis a sikeres kísérletek száma (k)
osztva az összes kísérlet számával (n)) mennyire
közelíti meg a elméleti valósnűséget (p). Az elméleti valószínűségtől való távolság sugarát kis
epszilonnal (ϵ) jelöljük.
Lássuk be, hogy bármely p érték esetén p(1 - p) ≤ 1/4, így a fent látható második
egyenlőtlenség p értékétől függetlenül minden esetben fennáll.
Tetszőleges P alsó határ (vigyázz, ez nagy P, nem a kis p, az elméleti valószínűség!) és adott
n vagy
ϵ esetén meg tudjuk határozni a másik alsó határát:
| Változó | Értéke |
|---|---|
| n | |
| ϵ | |
| P |
Lehetőségünk van ezen kívül azt is megbecsülnünk, hogy X eloszlás n példányának átlaga
(melyet itt "kalapos" X-el jelölök)
mekkora valószínűséggel esik a várható értéktől (m) egy ϵ sugarú tartományba.
Mivel rengeteg féle variáció van erre a két egyenlőtlenségre, nem tudok mindegyikhez kalkulátort ide tenni, így remélem a levezetés legalább segít.
III.
Konfidenciaintervallumok
A vizsgához szükségesek.
Alapok
Adott X valószínűségi változó, melyet egy a méréseinket tartalmazó listával jellemzünk.
Például:
| Elem | Érték |
|---|---|
| X |
| Jel | Képlet | Érték |
|---|---|---|
| X | ||
| Sn | ||
| S*n |
Ekkor:
-
Xjelöli a méréseinkből számolt átlagot. -
Snaz úgynevezett empirikus szórást, mely egy torzított becslést ad az eloszlásunk szórására. -
S*npedig a korrigált tapasztalati szórás, mely egy torzítatlan becslést ad a szórásra.
Ismert szórás esetén egy normális eloszlás várható értékére
Adott számunkra egy n elemű lista, mely egy normális eloszlás méréseiből áll.
Az eloszlás szórása ismert számunkra (σ0-val jelöljük), azonban a várható érték
(m) nem. Szeretnénk meghatározni, hogy az ismert adatok alapján m milyen tartományba
(úgynevezett konfidenciaintervallumba) esik bizonyos valószínűséggel.
Ehhez először is meg kell határoznunk egy ε értéket, melyet 1-ből kivonva megkapjuk a
konfidenciaintervallum valószínűségét. Például 95%-os konfidenciaintervallum esetén (vagyis ε = 0.05) a
következő áll fenn:
Ahhoz, hogy ezt az alsó és felső határt megkaphassuk, a következő két képletet kell kiszámolnunk:
Adott ε esetén uε a következőképp számolható:
Minnél nagyobbra vesszük ε-t, annál pontosabb határokat kapunk (vagyis a felső és alsó határ
egyre jobban közelít egymáshoz), azonban a pontosságért cserébe egyre kevésbé valószínűbb, hogy a várható érték
valóban ebbe a tartományba is esik.
A határokat pontosíthatjuk még a lista elemszámának bővítésével, hisz ekkor n egyre nagyobbá válik, így
a határokban szereplő kivont/hozzádott érték csökken. Ekkor a valószínűség nem változik, viszont mivel általában
adott számunkra a lista, így ez a módszer nem használható gyakran.
Ismeretlen szórás esetén egy normális eloszlás várható értékére
Adott számunkra egy n elemű lista, mely egy normális eloszlás méréseiből áll. Az eloszlásnak se a
szórását, se a várható értékét (m) nem ismerjük és az utóbbira szeretnénk egy becslést adni, hogy
milyen tartományba esik bizonyos valószínűséggel (vagyis mekkora az eloszlás várható értékének bizonyos
valószínűségű konfidenciaintervalluma).
Ehhez az előző esethez hasonlóan meghatározunk egy ε értéket, melyet 1-ből kivonva megkapjuk a
konfidenciaintervallum valószínűségét. Ekkor az alsó és felső határt a következőképp számolhatjuk:
tε értékét a Student-eloszlás táblázatából kell kinéznünk.
A számunkra megfelelő
érték a táblázat n-1. sorában és ε. oszlopában lesz található. A korrigált
tapasztalati szórás (S*n) kiszámolása az Alapok fül alatt található.
Fontos megjegyezni, hogy mivel ebben az esetben egy "becslés becslésével" van dolgunk (hisz a szórás maga is csupán
véges sok adatból lett kiszámolva), így az itt kapott határok közötti eltérés a megadott szórásos esethez képest
nagyobb lesz ugyanazon n darabszám esetén, hisz kevesebb konkrét adattal dolgoztunk.
Egy normális eloszlás szórására
Adott számunkra egy n elemű lista, mely egy normális eloszlás méréseiből áll. Meg szeretnénk becsülni
az eloszlás szórása adott valószínűséggel milyen tartományba esik (vagyis mi a szórás
konfidenciaintervalluma).
Ehhez a fentebb leírtak alapján ismét meghatározunk egy ε értéket, azonban máshogy számolunk
vele mint eddig. Meg kell határoznunk két értéket, c1 és c2-t,
melyeket a következő módon kapunk meg:
- meghatározzuk
ε / 2és1 - (ε / 2)értékeit, - kikeressük a Khi-négyzet (
Х2) táblázatn-1. sorát és hozzá a két fentebb kiszámolt értékhez tartozó oszlopát, - a nagyobbik érték lesz
c2, a kisebbikc1.
Az így kapott értékekből és a korrigált tapasztalati szórásból (S*n) a
következőképp tudunk konfidenciaintervallumot számolni a szóráshoz:
IV.
Hipotézisvizsgálat
Alapok
Hipotézisvizsgálatnak nevezezzük azt, amikor egy vagy több adathalmazról feltételezünk valamit (például, hogy
mennyi a várható értéke) és ezen feltételezés helyességének a valószínűségét számszerűsíteni próbáljuk. A
feltételezésünk az úgynevezett nullhipotézis (H0), míg annak ellentéte vagy tagadása
H1.
Ahhoz, hogy el tudjuk dönteni H0-t elfogadjuk vagy elvetjük, egy statisztikai próbát
végzünk, melynek során általunk meghatározott pontossággal tudjuk megmondani mennyire is szeretnénk biztosak lenni
abban, hogy a feltételezés helytálló. Ennek a pontosságnak a neve a szignifikancia szint és
ε-al jelöljük. Például, ha ε = 0.05 és a statisztikai próba alapján
H0-t elfogadjuk, akkor az 95%-os valószínűséggel valóban igaz.
Ha H0 igaz és mi ennek ellenére elvetettük, akkor úgynevezett elsőfajú hibát
vétettünk, melynek nagysága megegyezik a szignifikancia szinttel, vagyis jelen esetben 5%. Ha viszont elfogadjuk
H0-t annak ellenére, hogy az hamis, akkor pedig másodfajú hibát követünk el. Ennek az
értékét nem számoljuk egyetemen.
Fontos megjegyezni, hogy minnél inkább csökkentjük "manuálisan" az elsőfajú hiba értékét (vagyis
ε értékét minnél kisebbre vesszük), a másodfajú hiba annál inkább nő. Helyette, ha kisebb
elsőfajú hibát akarunk, akkor azt a minták számának növelésével tudjuk elérni.
H0 igaz |
H1 igaz |
|
|---|---|---|
H0 elfogadva |
Minden rendben | Másodfajú hiba |
H1 elfogadva |
Elsőfajú hiba | Minden rendben |
A statisztikai próbához pedig először is meg kell határoznunk a szignifikancia szint és a rendelkezésre álló
adatok száma alapján egy uε / tε értéket,
mely mellé kell számolnunk egy un-1 / tn-1 értéket is. Ennek
mikéntjét a következő két fejezet mutatja be. Az így kapott szám abszolútértékét össze kell hasonlítanunk
uε / tε-al és, ha kisebb, elfogadjuk
H0-t. Tehát,
Egymintás t-próba
Adott egy adathalmazunk, amiről feltételezzük, hogy normális eloszlásból származik. Szeretnénk megbizonyosodni
afelől, hogy ennek a normális eloszlásnak egy adott m a várható értéke (E(X)). Ezt
nevezzük kétoldali t-próbának, mivel a hiba a normális eloszlás görbéjének mindkét oldalán megjelenik. Tehát,
Ennek eldöntéséhez ki kell számolnunk tn-1 értékét, mely a következő képlettel lehetséges:
tε értékét pedig a táblázat n-1 sorából és a szignifikancia szintnek
megfelelő oszlopából nézzük ki.
Példa kétoldali t-próbára
Adott számunkra egy normális eloszlásból származó adathalmaz, mely tíz uborkának a hosszát tartalmazza milliméterben:
| 62 | 56 | 50 | 54 | 64 | 50 | 60 | 52 | 53 | 61 |
Meg szeretnénk határozni 5%-os szignifikancia szint mellett, hogy kimondhatjuk-e, hogy az uborkák hosszának várható értéke 60 mm?
Először is határozzuk meg a két hipotézisünk:
Ahhoz, hogy eldönthessük ezek közül melyiket fogadjuk el, számoljuk ki a tapasztalati átlagot és a korrigált szórást:
Ezek segítségével ki tudjuk számolni t9 értékét:
Végül meghatározzuk t0.05 értékét, melyhez a 9. sor és a 0.05 oszlop elemét vesszük és
összehasonlítjuk az előbb kapott értékkel:
Mivel H0-t elvetettük, így kimondhatjuk, hogy 5% szignifikancia szint mellett nem
állíthatjuk, hogy az uborkák várható értéke 60 mm lenne.
Ha viszont 2%-os hibát engedtünk volna csak meg magunknak, akkor:
Ebben az esetben mivel a nullhipotézist elfogadtuk, így kimondhatjuk, hogy 2%-os szignifikancia szint mellett az uborkák várható hossza 60 mm.
Lehetőségünk van ezen kívül olyan t-próbát is elvégezni, melyben E(X)-t nem egy konkrét értéknek
feltételezzük, hanem, hogy egy bizonyos értéknél nagyobb vagy kisebb. Ezt nevezzük egyoldali t-próbának.
Legyen ez az érték ismét m. Ekkor a hipotéziseink a következők:
Vigyázz: Még akkor is, ha a feladat arra kér t-próbát, hogy a várható érték nagyobb mint
m, a H0 mindig az E(X) ≤ m ágat kapja. Tehát az ilyen
feladatoknál valójában azt kell megvizsgálnunk, hogy el tudjuk-e vetni a nullhipotézist!
Ennél az esetnél mivel a hiba a normális eloszlás egyik oldalára esik csak, így tε
megválasztásakor ugyanúgy az n-1 sor, de a szignifikancia szint kétszeresének oszlopát kell
választanunk. Tehát, például ha 5%-os, vagyis 0.05-ös szignifikancia szinttel dolgozunk, akkor a 0.1-es
oszlopot kell vizsgálnunk!
Példa egyoldali t-próbára
Megkérdeztünk hat diákot, hogy mennyi kávét ittak vizsgára készülés közben. A következő válaszokat adták literben:
| 1.3 | 0.0 | 0.8 | 1.4 | 0.9 | 0.7 |
Igaz-e, hogy átlagosan több mint fél litert ittak? Adjuk meg a hipotéziseket és döntsünk 5%-os szinten!
Ekkor a hipotéziseink a következők:
Ahogy fentebb említettem, hiába érdekel minket, hogy fél liternél többet ittak, a
H0 hipotézis mégis a kisebb vagy egyenlő ágat kapja.
Következőleg kiszámoljuk a tapasztalati átlagot és korrigált szórást:
(Itt csupán a következetesség miatt van ilyen részletesen leírva a folyamat, élesben a számológép mindkét lényegi értéket gombnyomásra számítja.)
Számítsuk most ki t5 értékét:
tε pedig a táblázat 5. sorának és 0.1-es oszlopának felel meg, hisz, ahogy fentebb
leírtam, egyoldali próbánál a szignifikancia szint kétszeresének megfelelő oszlop alapján számolunk.
Mivel elfogadtuk a nullhipotézist, így H1 elvetésre került, tehát kimondhatjuk, hogy 5%-os
szignifikancia szint mellett a hallgatók átlagosan nem ittak többet mint fél liter kávé.
Illeszkedésvizsgálat
Adott egy adathalmazunk, melyről szeretnénk eldönteni, hogy egy bizonyos eloszlásból származik-e. Erre ad lehetőséget az úgynevezett Illeszkedésvizsgálat. Ekkor először is felbontjuk az adathalmazunk annyi esetre, ahány különféle értéket felvehet a várt eloszlásunk és meghatározzuk ezeknek az eseteknek a valószínűségét.
Az így kapott adatokból táblázatot alkotunk, majd ez alapján meghatározzuk a mintához tartozó
Х2 értéket a következő képlettel:
Majd végül ennek a számnak az abszolútértékét összehasonlítjuk a Х2 táblázat
részre bontások - 1. sorával és szignifikancia szintedik oszlopával és ha kisebb, akkor
H0-t elfogadjuk, vagyis az adathalmaz valóban illeszkedik a kívánt eloszlásra.
Példa érmék eloszlásának illesztésvizsgálatára
Adott egy érménk, amit 250 alkalommal feldobunk, megszámolva a fejek és írások számát. Az előbbi 140 alkalommal történt meg, az utóbbi 110. Döntsük el, hogy az érme fair-e (tehát 50-50% hogy egy dobás melyik oldalra esik)!
Először is írjuk fel a két hipotézist:
Ahhoz, hogy számolni tudjunk, vegyük táblázatba a megadott adatokat esetekre bontva és azt is, hogy az egyes esetek számára milyen értékeket várnánk, ha valóban a megadott eloszlásból lettek volna mintavételezve:
| Fej | Írás | |
|---|---|---|
| μi | 140 | 110 |
| npi | 125 | 125 |
Ekkor felhasználva a fent leírt képletet a következő Х2 értéket kapjuk:
Végül megkeressük a Х2 táblából a 1. sor (mivel két részre osztottuk az
adathalmazunk) és 0.05-höz tartozó oszlopot és összehasonlítjuk az előbb kapott értékkel:
Tehát 5% hibával kimondhatjuk, hogy az érme fair.