2. Választásos kísérletek egyszerű ábrákkal

Tartalom

2.1. Egy tipikus választásos telepátia-kísérlet menete
2.2. A választásos kísérletek módszertani követelményei
        2.21. Érzékszervi információszivárgás
        2.22. Nem kellően véletlenszerű sorrend
        2.23. A visszajelzésből adódó következtetések
        2.24. Regisztrációs hibák
        2.25. Utólagos adatszelekció
        2.26. Hibás következtetés a mért adatokból
2.3. A választásos kísérletek mennyiségi kiértékelése
        2.31. A statisztikus kiértékelés logikája és alapfogalmai
        2.32. Az egyes találatszámok valószínűsége és a Bernoulli-féle eloszlás
                 2.321. Négy próba és három lehetséges ábra esete
                 2.322. Az általános eset: N próba és p egyedi sikervalószínűség
                 2.323. N=25 és p=1/5 esete
                 2.324. Az elsőfajú hiba valószínűsége 25 ESP-ábrás menetekben
        2.33. A Bernoulli-eloszlás közelítése Gauss-eloszlással.
                 2.331. A Gauss-eloszlás
                 2.332. A Gauss-eloszlás paraméterei és matematikai alakja
                 2.333. A standard normál eloszlás
                 2.334. Az Empirikus Szabály
                 2.335. A Bernoulli-eloszlás kapcsolata a Gauss-eloszlással
                 2.336. A közelítés pontossága
        2.34. A Z-próba
2.4. Az ESP létezésének vizsgálata ábraválasztásos kísérletekkel
        2.41. Összesített adatok
        2.42. Kétségek az adattömeg bizonyító erejéről.
        2.43. Az "asztalfiók-hatás" kezelése
        2.44. A reprodukálhatóság problémája
                 2.441. Egy félreértés a szignifikancia körül
                 2.442. A statisztikai hatásméret
                 2.443. Két kísérlet mennyiségi összehasonlítása
                 2.444. A véletlen replikációja

2.1. Egy tipikus választásos telepátia-kísérlet menete Adott öt egyszerű ábra: kör, csillag, hullámvonalak, kereszt, négyzet. Ezeket hívjuk a kísérlet céltárgyainak. Képezünk belőlük egy 25-elemű sorozatot, amelyben véletlenszerűen követik egymást. Leültetjük a telepatikus adót (A) és vevőt (V) két külön helyiségben, mellettük egy-egy asszisztenssel (AA, ill. AV). Mindnyájan ismerik a lehetséges ábrákat, és tudják, hogy azok véletlenszerű sorrendben következnek. Az asszisztensek órája szinkronizálva van. AA percenként felmutatja a soron következő ábrát A előtt, aki megpróbálja azt V-nek telepatikusan átadni. V közli AV-vel az aktuális tippjét, vagyis azt, hogy szerinte A épp akkor melyik ábrát küldte. AV ezeket a tippeket felírja. Miután végeztek a 25 próbával, a részvevők találkoznak, AA megmutatja V-nek a küldött ábrasorrendet, és megszámolják, hogy a célábrák és a tippek sorrendjében hány egyezés van. A kapott találatszámot közlik a kísérletvezetővel, aki elvégzi a statisztikai kiértékelést.
Egy ilyen sorozatot általában egy menetnek nevezünk (angolul „run”). Mint majd rövidesen kiderül, statisztikusan kimutatható eredményhez rendszerint több száz vagy több ezer próbát kell végezni, amelyek azonban egyhuzamban nagyon fárasztóak és/vagy unalmasak volnának; ezért alakult ki az a szokás, hogy aránylag kevés próbából álló menetekre bontják őket. A menet paraméterei változhatnak: a próbák száma nem kötelezően 25, az adás percenkéntinél gyorsabban vagy lassabban is végezhető a részvevők kívánsága szerint, a céltárgyak lehetnek ötnél többen vagy kevesebben, és az itt felsoroltaktól különbözők is. A választásos kísérletet lényegében az a körülmény definiálja, hogy benne véges számú és minden részvevő előtt ismert céltárgy szerepel.
Ez a kísérletfajtát először a tudományos kísérleti módszerek atyjának tekintett Francis Bacon már egy 1627-es könyvében javasolta (Thouless 1972, 5. oldal), majd 1880 táján megjelent a brit Society for Psychical Research gyakorlatában, céltárgyakként a francia kártya lapjaival (Thouless 1972, 31. oldal). További történeti érdekesség, hogy a kártyás kísérletek statisztikus kiértékelési módját részben az a Ronald A. Fisher dolgozta ki (Fisher 1924), akit a mai matematikusok a „klasszikus statisztikának” nevezett eljáráscsalád megalapítójaként tisztelnek. (A 2.3. alfejezetben ismertetendő adatelemzési mód is az ő gondolatain alapul.) Választásos kísérleteket azonban tömegesen és szisztematikusan csak Rhine és követői végeztek. Az ő tipikus célábráikat Rhine durhami pszichológus munkatársa, Karl Zener választotta ki abból a követelményből kiindulva, hogy egyszerűek és érzelmileg minél semlegesebbek legyenek, ugyanakkor geometriailag jellegzetesek és egymástól jól megkülönböztethetők. A kör – csillag – hullámvonalak – kereszt – négyzet együttest (2.1. ábra.) egy ideig Zener-ábráknak is hívták, ma az ESP-ábrák elnevezés a megszokottabb.

2.2. A választásos kísérletek módszertani követelményei

Hogy egy módszertanilag hibátlan választásos kísérletet könnyen el tudjunk képzelni, Gertrude Schmeidler (lásd a képet) New York-i pszichológus nyomán képzeljünk el először egy olyat, amelyben a legtöbb lehetséges hibát elkövetik (Schmeidler 1977, 132. oldal):
„A kísérletvezető, aki egyben a telepatikus adó, ül a vevővel szemben egy asztal másik oldalán, kezében egy 25 lapból álló kártyapaklival. Ezeken a lapokon vannak az ESP-ábrák, mindegyikből öt darab. Néhányszor megkeveri a kártyacsomagot, ránéz a legfelsőre, és kérdi a vevőt, mi lehet az. A választ felírja, mellé a leadott ábra nevét is, amit egyúttal visszajelzésként megmutat a vevőnek. Ezután ugyanezt a műveletsort ismétli, míg a 25 kártya el nem fogy. Tegyük fel, hogy ebben az első menetben öt találat volt. Ekkor végeznek egy másodikat, amelyben a találatok száma nyolc. A kísérletvezető úgy dönt, hogy az első menetet nem veszi figyelembe, mert az csak bemelegítésnek számít, a második nyolc találata viszont igazolja a telepátia létezését.”
Nézzük a hibákat sorjában!

2.21. Érzékszervi információszivárgás

Ha az adó és a vevő szemtől szemben ül a kísérlet alatt, akkor nincs kizárva érzékszervi információ átvitele. Különösen a fenti elrendezésben, ahol maguk a kártyák is a vevő szeme előtt vannak. Közönséges papíron az ábra bizonyos mértékig átlátszhat, kiváltképp ha a fény az adó oldaláról esik rá. Mikor az adó felemeli a felső lapot, néha előfordulhat, hogy a rajta lévő ábrát a vevő futólag megpillantja. Az ábrák tükröződhetnek az adó szemén, vagy pláne a szemüvegén, ha azt visel. Némelyik kártya hátlapján lehetnek azonosításra alkalmas piszokfoltok, sérülések vagy gyűrődések, amiket a vevő az első menetben megjegyezhet, hogy aztán felhasználja a másodikban. Az adó maga is képes jelzéseket adni öntudatlanul, ha például kissé más és más arcot vág a látott ábrától függően, például lágyabbat a gömbölydedeknél és keményebbet a szögleteseknél. Hogy az öntudatlan testbeszéd milyen hatékony lehet, azt jól illusztrálja a kutyatartók általános tapasztalata: négylábú kedvenceink gyakran már akkor reagálnak a gazda szándékára, amikor benne az ötlet még épp csak felmerült (Lorentz 1976, 6. fejezet, Sárközy Elga kitűnő fordításában).
Néhány évtizede az emberekkel foglalkozó pszichológiában is elfogadott tétel, hogy egymással messze nemcsak szavak révén kommunikálunk. Buda Béla pl. ezt írta „A közvetlen emberi kommunikáció szabályszerűségei” című könyvében (Buda 1974):
„Az emberi kommunikáció jellemzője, hogy sok csatorna igénybevételével történik. Az emberi viselkedésnek több olyan eleme van, amely kizárólagosan vagy elsődlegesen a kommunikáció céljait szolgálja. Az emberi kommunikáció csatornáira csak az utóbbi másfél évtizedben derült fény, ekkor ismerték fel, hogy számos mozgási megnyilvánulás kommunikatív értékkel bír, amelyet korábban legfeljebb az emocionális expresszióval kapcsolatosan vagy a személyiségdiagnosztikában vettek figyelembe. Az egyes kommunikációs csatornák egy­más­tól csak vizsgálati célból különíthetők el, a valóságos kommunikációkban mindig együttesen vesznek részt. A köznapi kommunikációkban, a közvetlen, kétszemélyes modell­helyzetben minden csatorna részt vesz, ritka helyzet az, amikor egyik vagy másik időlegesen kénytelen felfüggeszteni működését.” Ezután a kommunikáció nemverbális csatornái közül részletesen foglalkozik a mimikával, a tekintet irányításával és jellegével, a hanghordozással, a gesztusokkal, a testtartással, a térköz szabályozásával és az apró kifejező mozdulatokkal (kinezikai jelek).
Jelen tárgyunk szempontjából még hozzátehetjük, hogy ESP-kísérletek során nem elég, ha a látással szerzett információt kiküszöböljük – pl. az adó és a vevő egymásnak háttal ül –, mert jelezhet valamit a mocorgás is, amit hallani, vagy a párolgó verejték változó összetétele, aminek szaga van. (Még ha esetleg olyan enyhe is, hogy észrevétele nem tudatosul.) Így a legbiztosabb, ha az adó és a vevő két különböző helyiségben tartózkodik, méghozzá olyan messze vagy annyira elszeparáltan, hogy köztük ne lehessen hangkapcsolat. A mai technika lehetőségei között magától értetődik továbbá, hogy ki kell zárni az elektronikus jelátvitelt – mobiltelefon vagy speciális eszközök –, azaz szükség van a részvevők folyamatos felügyeletére, kivéve, ha az adó maga a kísérletvezető.

2.22. Nem kellően véletlenszerű sorrend
Schmeidler „állatorvosi ló” kísérletében a következő hiba a céltárgyak sorbarendezésének helytelen módszere. Ha egy pakli kártyát kézzel megkevernek, az elég lehet társasági szórakozáshoz, de nem elég ott, ahol a sorrendnek a legkisebb mértékben sem szabad örökölnie az előző menet ábrasorrendjét. Ha mondjuk van benne három csillag egymás után, és ez a jellegzetes mintázat a következő menetre történetesen nem bomlik fel, akkor a vevő, akinek minden próba után megmutatják a helyes céltárgyat, két csillagot követően a véletlennél nagyobb eséllyel eltalálja a harmadikat telepátia nélkül is. Hasonló műterméket okozhat bármilyen fennmaradó mintázat, és felhasználásához még az se kell, hogy a vevő tudatosan emlékezzen rá: pszichológiai közhely, hogy mintázatokra való öntudatlan ráhangolódásban mi emberek igen tehetségesek vagyunk. Ha tehát valaki feltétlenül ragaszkodik a kártyákhoz és a keveréshez, akkor minden menetet új és külön megkevert paklival célszerű végeznie. De a legbiztosabb, ha garantáltan véletlen sorrendű számokat használunk, direkt e célra készült táblázatból vagy számítógépi algoritmusból, és az egyes számokat egy-egy céltárgynak feleltetjük meg.
Véletlen számok táblázata az internetről ingyen letölthető, a „random number table” címszóra például a Google többet is kiad. (Egy rövidített változatot mellékelek itt). Ezekben a táblázatokban rendszerint 0 és 9 közötti számok szerepelnek, amelyeket könnyű leképezni kettesével az öt ESP-ábrára; nyilván nem kell nagy találékonyság más céltárgyak esetében sem. A táblázat kezdőpontját kidobhatjuk kockával, vagy sorsot húzhatunk rá. Lényeg, hogy egy kísérlet folyamán a táblázat semelyik része ne ismétlődjön, mert az statisztikai műterméket okozhat. (Hogy mit és miért, azt a maga helyén megmagyarázom, most statisztikai alapismeretek nélkül még nem lehet). Véletlen számok sorozatát előállíthatjuk továbbá az Excel táblázatkezelő programmal, amely minden Windows rendszerű gépen rendelkezésre áll. Aki pedig tud programozni, annak végképp nem kell részleteznem, hogy mit csináljon.

2.23. A visszajelzésből adódó következtetések
Ha a céltárgyak sorrendjét véletlen számokkal állítjuk elő, ahogy az előbb javasoltam, akkor a most sorra veendő hiba nem aktuális, de mivel Schmeidler képzeletbeli kísérletvezetője kártyapaklit használt, röviden ki kell rá térnem. Ott ugye 25 kártya volt, rajtuk öt-öt darabbal minden ESP-ábrából. Tegyük fel, hogy a vevő memóriája elég jó a már előfordult ábrák számontartásához, és el is tud számolni ötig. Nyilvánvaló, hogy a huszonötödik próba előtt pontosan kitalálja, mi következik, a huszonnegyedik előtt is kizárhat legalább három ábrát, a huszonharmadik előtt legalább kettőt, stb; egyáltalán, az eshetőségeket szinte kezdettől jobban behatárolhatja a teljesen véletlenszerű húsz százalék valószínűségnél. Megfelelő stratégiával ekkor a találatarány anélkül növelhető, hogy bármiféle ESP-t igénybe vennénk. Ami természetesen hiba, hiszen így a kísérlet nem a célzott jelenséget méri.
Megtehetjük persze, hogy a vevőnek nem adunk próbánkénti visszajelzést, és a választásos kísérletek végzői néha tényleg így jártak el. Hogy ez jó vagy rossz, és miért, arra később visszatérek. Mindenesetre a 2.22.-ben javasolt véletlenszámos megoldás biztosítékot nyújt a következtetések ellen is.

2.24. Regisztrációs hibák
Ha a vevő tippjeit olyan személy jegyzi fel, aki ekkor már ismeri az aktuális céltárgyat, felléphet az úgynevezett „motivált hibázás” jelensége. Különösen akkor, ha nem közvetlenül az ábrákat, hanem gazdaságos módon mindjárt a számkódjaikat használják: a vevő például csillagot tippel (aminek kettő a kódja), miközben a céltárgy a négyes kódú kereszt volt, mire az asszisztens egy pillanatra azt hiszi, hogy a csillag kódja a négyes, és elégedetten azt írja be. Így aztán kapnak egy hamis találatot. Ez a fajta hiba jól ismert a parapszichológiától függetlenül is, és célzott vizsgálatok szerint nagyjából egy százalék gyakorisággal fordul elő.
Egy százalék első pillantásra nem látszik jelentősnek, hiszen például egy ESP-ábrás kísérletben azt jelenti, hogy átlagosan minden századik próba eredményét jegyzik fel hibásan. Ám ha ezek a hibák következetesen a „jó irányban” lépnek fel, vagyis mind hamis találatot eredményeznek, akkor 100 próbából átlagosan máris nem 20, hanem 21 találat lesz, és mint majd látni fogjuk, nagyjából ekkora többlet várható magából az ESP-ből is. Egyszóval akár az egész mért hatás lehet regisztrációs műtermék.
Az igazsághoz hozzátartozik, hogy motivált hibázás az ellenkező irányban is előfordul. Mikor az egyetemen elkezdem a féléves parapszichológia-kurzust, mindig beiktatok egy csoportos prekogníció-kísérletet a téma illusztrációjaként, ahol 25 próba végigtippelése után mindenki megkapja a neki szánt ábrasorozatot, és az eredményt önmaga kiértékeli. Utána a lapokat beszedem, és végigbogarászom magam is. A lap tetején szerepel egy arra vonatkozó kérdés, hogy az illető egyrészt mennyire fogadja el a prekogníció létezését, másrészt mennyire bízik abban, hogy neki ez a kísérlet sikerül majd. A pesszimistáknál csaknem mindig kijön az 1% körüli regisztrációs hiba: néhány találat fölött elsiklanak anélkül, hogy észrevennék. Ebben a helyzetben az optimisták pozitív hibázása sokkal kevésbé valószínű, mert ha valaki valahol találatot vél látni, ott természetszerűleg megáll, hogy bejelölje, és akkor jobban megnézve észbekap. Ahol viszont egy igazi találatot nem vesz észre, már nincs rá ok, hogy még egyszer odapillantson. Mindenesetre jellemző, hogy diákjaim közül az optimisták még soha egyet sem felejtettek ki saját találataik közül.
Az ilyen hibát azzal lehet elkerülni, hogy a tippsorrendet rögzítő személy előtt nem ismert a céltárgyak sorrendje, a céltárgyak és a tippek összevetését pedig elvégzik legalább ketten egymástól függetlenül. Ma persze ez utóbbi művelet már számítógéppel a legegyszerűbb, amit úgyis használunk a statisztikai számításhoz.

2.25. Utólagos adatszelekció
Schmeidler példájában az első menetet kihagyták, mint bemelegítést. Felmerül persze a gyanú: vajon akkor is kihagyták volna-e, ha több találatot hozott volna, mint a véletlen átlag. Vagy ha a második eredménye se lett volna jobb, vajon nem nyilvánították volna azt is bemelegítésnek, és aztán így tovább, míg egyszer véletlenül szerencséjük lesz? Vagy ha a kísérletet történetesen az ESP egy meggyőződéses tagadója végzi, és az első 25-próbás menetben mondjuk 10 találat jön ki, vajon ő azt dobná el bemelegítésként?
Remélem, további magyarázat nélkül is nyilvánvaló, hogy mért adatok utólagos szelekciójával bármilyen hipotézist igazolni lehet, teljesen függetlenül a valóságtól. Pontosabban ezt a trükköt a valóság annyiban korlátozza, hogy mivel az utólag kiválasztott adatok is csak a természetes ingadozás határain belül mozoghatnak, az igazolandó hipotézis nem lehet nagyon irreális. Ha például egy radiesztéta azt állítja, hogy száz tojás közül százról előre ki tudja ingázni, hogy a belőle kikelő csirke milyen nemű lesz, és ezt aztán egy kísérlettel ellenőrzik, akkor bármennyi „bemelegítő” menet után se kapnak az állítást bizonyító eredményt, mert százból száz találat véletlen esélye elenyészően kicsi. (Hacsak persze az inga tényleg nem tud valamit, de ezt én erősen kétlem, lásd Vassy 1996).
Tudományos kísérletekben az adatszelekció igen kellemetlen veszélyforrás, mert nehéz ellenőrizni. A szakcikkekben kötelezően benne van az alkalmazott módszer minden olyan eleme, amely az eredményt befolyásolhatja, például a részvevő személyek kiválasztási szempontjai, a tárgyi berendezés részletei, a konkrét műveletek, a statisztikai hipotézisek stb. De mi van, ha a szerző „elfelejt” megemlíteni néhány kihagyott bemelegítő menetet, vagy azt a döntését, hogy a menetek számát nem határozta el előre, hanem a kísérletet akkor hagyta abba, amikor az addigi adatok szerint úgy látta jónak? A cikk szövegéből ezt sem a folyóirat szerkesztőjének, sem a szaklektoroknak, sem az olvasóknak nincs módjuk kikövetkeztetni. Épp ezért persze a szövegben szerepelnie kell valami efféle mondatnak: „Minden bemelegítő vagy gyakorló jellegű mérést előre elhatározott módon végeztünk, és az elemzésből kihagytuk, függetlenül az eredményétől.” Ha tényleg így volt, akkor a dolog rendben van, legalábbis az adatszelekciót illetőleg. Csakhogy – még ha el is tekintünk a tudatos csalástól, ami a megjelent cikkből úgyse derülhet ki – egy slendriánságra hajlamos kutató sokkal könnyebben becsapja magát néhány rosszul sikerült menet utólagos kihagyásával („tulajdonképpen mindig is ki akartam hagyni...”), mint azzal, hogy például konkrét adatokat megváltoztat, vagy engedi, hogy kísérleti személyei megszegjék az előírt biztonsági rendszabályokat. Különösen Rhine intézetének kezdeti időszakában volt mindennapos, hogy az odalátogató érdeklődőkkel kapásból leültek kísérletezni, rendszerint maga Rhine mint telepatikus adó, a kísérlet jellegének pontos rögzítése nélkül; így aztán hónapokkal később, mikor az elmúlt időszak eredményeit összesítették egy közleményben, könnyen kimaradhatott közülük néhány, és van némi gyanakvó sejtésem arról, hogy az ilyen feledékenységnek a jobban vagy a kevésbé sikerültek estek áldozatául.

2.26. Hibás következtetés a mért adatokból
Amikor egy ESP-ábrás menet 25 próbájában 8 találat lett a véletlen egybeesésekből várható 5 helyett, hajlamosak lehetünk ezt a telepátia bizonyítékának tekinteni. Dolgoztam például olyan, önmagát „mágusnak” nevező kísérleti személlyel, aki ilyen helyzetekre a következő módon reagált: „Látod? Ötöt eltaláltam véletlenül, hármat pedig telepátiával.” Én ilyenkor sose vitatkozom, mert a kísérlet sikeréhez a részvevőknek vidám és derűlátó hangulatban kell lenniük (lásd 3.423. fejezet), de józan ésszel elég világos, hogy huszonöt próbában három többlet még bőven előfordulhat véletlenül is.
Hasonlóan naiv következtetés tapasztalható néhány olyan ember részéről, aki szerint a telepátia elvileg lehetetlen, tehát biztos nem létezik. Ők bármennyi találatot puszta véletlennek tulajdonítanak, még olyan sokat is – mondjuk az ötábrás esetben tizenötöt huszonötből –, amennyit más tárgykörben igencsak gyanúsnak találnának. Mindkét irányú elfogultság érthető és megbocsátható abból a szempontból, hogy egy-egy mélyen átélt és érzelmileg fontos világképet látszanak igazolni. Akit azonban a szóban forgó jelenségek nem ezért érdekelnek, hanem egyszerűen mint a tudományos megismerés tárgyai, az nem elégedhet meg efféle szubjektív értékeléssel. Nekünk a kísérleti eredményeket valami objektívebb módszerrel kell elemeznünk és értelmeznünk.
Ezzel elérkeztünk első olyan témánkhoz, amely a szokásosnál türelmesebb és elmélyültebb olvasást kíván: a statisztikus kiértékeléshez. Nincs kibúvó, itt matematika jön, szemben az eddigi, viszonylag (remélem) könnyen követhető szöveggel. Ajánlok azonban egy kompromisszumot azoknak, akik már előre úgy vélik, hogy a különféle görög betűs képletek az ő felfogóképességüket garantáltan meghaladják. Az első szakaszban elmagyarázom a statisztikai következtetés lényegét még matek nélkül; ez csak logika, bár annak kétségkívül nem a legegyszerűbb fajtájából való, de nem is bonyolultabb, mint amit néha a mindennapi életben használnunk kell. Aki ezt az első részt megérti, az utána átugorhatja a képleteket, attól még számára a könyv további fejezetei nagyjából ugyanúgy követhetők lesznek, mint ha az egész statisztikát pontról pontra átrágta volna. Persze azért jobban jár, ha mégis átrágja, mert precízen gondolkodni sose árt.

2.3. A választásos kísérletek mennyiségi kiértékelése

2.31. A statisztikus kiértékelés logikája és alapfogalmai
Maradjunk a huszonötből nyolc ESP-ábrás találat példájánál. A kérdés: következik-e ebből a nyolc találatból, hogy a menet során működött valami más is a véletlenen túl?
Mindjárt a rossz hírrel kezdem: erre a kérdésre nem lehet feketén-fehéren válaszolni. Egyszerűen azért, mert ha a véletlen találat esélye átlagosan ötből egy, akkor huszonötből nyolc előfordulhat véletlenül, ugyanakkor a nyolc találat természetesen azt sem zárja ki, hogy a menetben néha fellépett telepatikus információátvitel is. Akkor tehát jelentsük ki, hogy a válasz „talán”, és ennél többet nem állíthatunk?
Szerencsére a helyzet biztatóbb. Gondoljuk meg: egy nem nyolc-, hanem például tíztalálatos menetről annyit azért bátran állíthatnánk, hogy az a telepátia aktuális működését valószínűbbé teszi, mint a mi nyolctalálatosunk. Egy héttalálatos menet pedig a miénknél kevésbé valószínűvé. És így tovább: látszik, hogy minél nagyobb a találatszám, viszonylag annál biztosabbak lehetünk egy pozitív következtetés igazában, noha a száz százalék bizonyosságot sose érjük el.
Ez a statisztikai következtetés első fontos tulajdonsága: a feltett kérdésere az igen – nem választ meg se célozzuk, ehelyett azt számítjuk ki, hogy ha igennel vagy nemmel válaszolnánk, abban mennyire lehetnénk biztosak. A „mennyire” kitétel itt konkrétabban annak számszerű valószínűségét jelenti, hogy a válaszunk helyes (vagy hogy hibás, ami persze az előbbivel egyenértékű).
Tegyük fel például, hogy a számítás során kiderül: ESP-ábrás menetekben, ha a kísérleti személy csupán véletlenszerűen találgat, nyolcnál kevesebb találatot 89% valószínűséggel ér el. (Merészebb olvasóknak nemsokára megmutatom, hogy ezt hogyan számítjuk ki.) Következésképp ennyi vagy ennél több találat valószínűsége 11%; ez másképp fogalmazva azt jelenti, hogy ha sok ilyen 25-próbás menetet végeznénk, azoknak 11%-ában fordulna elő 8 vagy még több találat pusztán véletlenül. Ha tehát legalább nyolc találatot mérve döntünk „pozitívan”, vagyis úgy, hogy „volt itt valami a véletlen találgatáson túl”, akkor az esetek 11%-ában fogunk így dönteni még akkor is, ha igazából a véletlen találgatáson túl semmi nem történt. Más szóval egyetlen menetet ezzel a döntési stratégiával kiértékelve 11% lesz annak valószínűsége, hogy hibás pozitív döntést hozunk.
Mint emlékszünk, Schmeidler képzeletbeli kutatója pont így döntött: nyolc találatnál már elfogadta telepátia jelenlétét a menetben. Ő tehát vállalta a helytelen döntés 11%-os kockázatát. Most jön a statisztikai következtetés második fontos sajátossága: a statisztika nem foglal állást abban, hogy egy döntést mekkora hibázási valószínűséggel vállalhatunk. Ez rendszerint attól függ, hogy az illető döntés milyen súlyos kárt okoz, amennyiben hibásnak bizonyul. Ha például egy újfajta esernyő tervezésénél kiderül, hogy szokásos használati módot feltételezve egy éven belül 5% valószínűséggel szétesik, akkor ezt a kockázatot a gyártó még vállalhatja; de ha egy újfajta gázkazán tervezésénél derül ki ugyanez, akkor a konstrukciót biztos rossznak nyilvánítják. A tudományban a kár persze ritkán ilyen gyakorlati jellegű, itt a veszély inkább az, hogy a vizsgált tárgyról valamit helytelenül állapítunk meg. A pszichológiában és általában az emberrel foglalkozó tudományokban 5% a hibás pozitív döntésnek az a valószínűsége, amit a szakma még épp elfogad, míg a természettudományokban rendszerint csak ennél kisebb hibavalószínűséget néznek el. Ami a parapszichológiát illeti, ez ugyan a jelenlegi állapotában semmiképp sem számít természettudománynak, de azért az elfogadható hibavalószínűség itt is kisebb szokott lenni 5%-nál. Az ok egy széles körben idézett elv, amit Martin Gardner tudományos publicistának tulajdonítanak (bár ismeretségi körömben senki nem emlékszik, hogy hol és mikor mondta vagy írta először): „Különlegesen erős állítások különlegesen erős bizonyítékot kívánnak.” Mivel szerintem is nehéz volna tagadni, hogy az ESP létezése meglehetősen erős állítás, az elvnek tárgyunkra való alkalmazásával természetesen egyetértek.
Ezek után biztos többekben felmerül a kézenfevő kérdés: ha a matematikai statisztikában ilyen központi szerepe van a hibás pozitív döntés valószínűségének, akkor vajon betölt-e hasonló szerepet logikus ellentétpárja, a hibás negatív döntés valószínűsége? 25-próbás meneteinkben az is előfordulhat, hogy kijön mondjuk hét találat, amiből még Schmeidler túl engedékeny állatorvosi lótenyésztője sem következtet telepátia működésére. Mi többiek pedig még a nyolc találatból sem. Pedig előfordulhat, hogy közben egy-két találat mégis telepatikus információátvitelnek volt köszönhető, hiszen egyrészt hét azért több a várható véletlen átlagnál (ami ugye öt), másrészt nincs kizárva, hogy most a tényleg véletlen találatok lehettek akár ötnél kevesebben, hiszen azok is menetről menetre ingadoznak. Az, hogy hét találat lehet csupa véletlen, nem ugyanaz, mint hogy hét találat biztos csupa véletlen! Mikor tehát hét találatnál negatívan döntünk, bizony szintén hibát követhetünk el. Node mekkora ennek a hibának a valószínűsége?
Akiben az iménti gondolat felmerül, azzal a statisztika szakemberei egyetértenek, és valóban definiálják ezt a hibavalószínűséget. Másodfajú (vagy második típusú, az angol szakirodalomban „type 2”) hibavalószínűségnek hívják, míg az előbbit, a hibás pozitív döntés valószínűségét elsőfajúnak (vagy első típusúnak, „type 1”). Jelölésük α ill. β; tessék kitalálni, hogy melyik melyik. (E két görög betű miatt egyelőre nem érzem szószegőnek magam, mert képletekben itt nem használom őket.)
A másodfajú hibavalószínűséget a gyakorlatban azért használják kevésbé, mert ritkán lehet kiszámítani. Értéke ugyanis attól függ, hogy a keresett hatás mekkora. Ha például 25-próbás meneteinkben egy bizonyos adó – vevő pár a kísérlet körülményei között átlagosan nyolc találatot ér el, akkor Schmeidler képzelt kísérletezője nagyjából az elvégzett menetek felében kap legalább nyolc találatot, amiből telepátia jelenlétére következtet, míg a menetek másik felében nem. Mivel ekkor feltételezésünk szerint mindig működött telepátia, a meneteknek ezt a másik felét hibásan értékelte, tehát β = 50%. Ezzel szemben ha az igazi találatátlag mondjuk csak hat (mentenkénti átlagban egy telepatikus találat, ami még mindig több a semminél), akkor a hat körül ingadozó találatok nyilván kevesebb alkalommal lesznek nyolcszor vagy többször, mint amikor nyolc körül ingadoztak. Így aztán a másodfajú hiba 50%-nál gyakrabban lép fel. Egyszóval a bétát csak akkor lehet kiszámítani, ha ismert a valódi helyzet, esetünkben az a találatszám, amit a telepátia meg a véletlen együtt létrehoz. Ezért a másodfajú hibavalószínűségnek akkor van jelentősége, amikor valamennyire már ismert természetű jelenséget vizsgálunk, mert ekkor egy-egy újabb kísérlet tervezésekor aránylag reálisan előre kiszámíthatjuk, hogy a mért érték várhatóan mi körül és mennyire fog ingadozni. Ennek ismeretében β már meghatározható, és mivel függ az alkalmazott statisztikai minta nagyságától, segítségével beállíthatjuk a kellően nagy mintát egy elfogadhatóan kis hibavalószínűséghez.
Most még be kell vezetnem egy fogalmat, amely a továbbiakban gyakran előkerül majd, tehát célszerű alaposan megérteni. A statisztikai szignifikanciáról van szó. Gondolom, sokan emlékeznek ilyen mondatokra akár a tévéből is, mikor egy tudós érzékeltetni akarja, hogy állítása igen biztos alapon áll: „Ez az eredmény ezrelékes szinten szignifikáns”, vagy valami hasonló. Nos, a fenti mondat rögtön érthetővé válik, ha lefordítom az eddigiek nyelvére: „Ha ezt az eredményt elfogadjuk, mindössze egy ezrelék annak valószínűsége, hogy tévedünk.” Vagyis a szignifikancia szintje nem más, mint alfa, az elsőfajú hibavalószínűség.
Node ekkor mért adtak neki még egy nevet? Ennek kissé komplikáltabb oka van, de ígérem, hogy azért meg lehet érteni. Gondoljunk vissza, mi is az elsőfajú hibavalószínűség ebben a 25 ESP-próbás szituációban: annak valószínűsége, hogy ha a beállított határon lévő vagy annál nagyobb találatszámot mérve elvetjük a „csupán véletlen” hipotézisét, akkor tévedünk. Ha például a határt 8 találatban szabjuk meg, akkor ez a fajta tévedés 11% valószínűséggel következik be; amikor egy kísérletben tényleg pont 8 találat jön ki, akkor tehát a róla szóló közleménybe beírhatjuk, hogy az eredmény alapján feltételezünk valamit a véletlenen túl, és e feltételezésünk mindössze 11%-os valószínűséggel hibás. De mit célszerű beírnunk akkor, ha nem 8, hanem például 11 találatunk van? Ekkor kétségtelenül továbbra is igaz, hogy túlléptük a nyolcas határt, tehát írhatnánk ugyanazt, mint az előbb. Csak közben érezzük, hogy az eredmény az előzőnél sokkal erősebb, más szóval, most már sokkal kisebb a tévedés valószínűsége 11%-nál. Ha a határt távolabb húztuk volna meg, és ezzel az elsőfajú hibavalószínűséget csökkentettük volna, akkor is dönthetnénk pozitívan. Például ha a döntési határ 11 találat, akkor α alig több, mint fél százalék. (Rövidesen ezt is kiszámítjuk.) Nos, ennek közlésére való a szignifikancia szintje: az az elsőfajú hibavalószínűség, amit akkor kapunk, ha a döntési határt a véletlen átlagtól a lehető legmesszebb húzzuk meg úgy, hogy a kijött eredmény alapján a „csak véletlen” hipotézisét még elvethessük.
A pszichológiában és a tudományos parapszichológiában az a szokás honosodott meg, hogy mikor a kutató egy kísérleti eredményt publikál, szignifikanciaszintként csak 10 negatív kitevőjű hatványai közül illik választania az 5% alattiak közül. Tehát nincs olyan, hogy α = 0,0041, hanem helyette 0,01-et írunk. Vagy 0,000074 helyett 10-4-t, és így tovább. Ezt az önmérsékletet az a körülmény indokolja, hogy mint nemsokára rátérek, α értéke rendszerint közelítő számításból áll elő, amely valamennyire elkerülhetetlenül pontatlan; a közölt hibavalószínűség kis mértékű eltúlzása biztosítékot jelent arra, hogy nem állítunk többet, mint amit a statisztika megbízhatóan igazol.
A szignifikancia szintje tehát nemcsak attól függ, hogy egy eldöntött határ esetén mekkora az elsőfajú hibavalószínűség, hanem magától a mért eredménytől is. Esetünkben ez a szint annál kisebb, minél messzebb van a találatszám a véletlen átlagtól. És természetesen annál biztosabb az a következtetésünk, hogy ennek a találatszámnak a kialakításában a véletlenen kívül valami más is közrejátszott. Mellesleg pont ez indokolja a „szignifikancia”, magyarul „jelentőség” nevet: minél erősebb a szignifikancia szintje, annál nagyobb jelentősége van a kapott mérési eredménynek, hiszen az annál biztosabb következtetést tesz lehetővé. Némileg bezavarhat ugyan a megértésbe, hogy az erősebb szignifikanciaszint számszerűleg kisebb alfa-értéket jelent, de ezt hamar meg lehet szokni. Végtére az életben máshol is előfordul, hogy a kisebb a jobb.

2.32. Az egyes találatszámok valószínűsége és a Bernoulli-féle eloszlás
Ígértem, hogy ki fogjuk számítani az elsőfajú hibavalószínűséget bármilyen adott döntési határhoz. Most megtesszük. Előbb azonban nem 25-, hanem csak 4-próbás menetre, ahol öt helyett három lehetséges céltárgy van (mondjuk kör, csillag és kereszt). Így nem kell mindjárt nagyon kicsi törtszámokkal és hosszú szorzatokkal dolgoznunk, és ha ebből a módszer logikája világossá válik, utána az általános eset már könnyebb lesz, mintha mindjárt azzal kezdtük volna.

2.321. Négy próba ás három lehetséges ábra esete
Tegyük fel tehát, hogy 4 próbánk van; ekkor a találatok száma lehet 0, 1, 2, 3 vagy 4. A találati valószínűséget most nem százalékban kezeljük, hanem egyszerű törtszámokban, ahogy a matematikusok teszik: az eddigi 20%-ból így 0,2, azaz 1/5 lesz, a három céltárgynál érvényes 33,33...%-ból pedig 0,33..., azaz 1/3. Mivel elsőfajú hiba van terítéken – ami ugye akkor áll elő, ha a találatszám telepátia nélkül, csupán véletlen szerencsével esik a pozitív döntés tartományába –, fel kell tételeznünk, hogy ezúttal kizárólag véletlen találatok vannak. Itt jegyzem meg, hogy ezt a hipotézist, amiből a statisztikai következtetés során kiindulunk, nullhipotézisnek nevezik, mert legtöbbször azt jelenti, hogy a keresett hatás nem lép fel. Néha az oktatásban így is definiálják, hibásan, mert kiinduló hipotézisként feltételezhetjük a hatás egy ismert és várható szintjét is, és akkor a kísérletben az attól való esetleges eltérést akarjuk kimutatni. A nullhipotézist valójában nem aszerint választjuk ki, hogy mekkora a várható eredmény, hanem hogy mekkora eredmény esetén tudjuk előre kiszámítani a mért mennyiség lehetséges értékeinek valószínűségét – pontosan azért, mert csak ekkor tudjuk kiszámítani az elsőfajú hibavalószínűséget is. Most például azért indulunk ki a „puszta véletlen” nullhipotéziséből, mert így bármennyi találat valószínűsége pontosan meghatározható, ahogy mindjárt meg is tesszük. Ha megfordítva, abból indulnánk ki, hogy „működött telepátia”, az nem lenne elég konkrét, nem rögzítené számszerűleg a találati valószínűségeket.
Van tehát 4 próbánk. Leginkább azt várhatjuk, hogy találat ezek egyharmadában lesz, vagyis a véletlen átlag 4/3 (ami a 25 próbánál és 5 céltárgynál 5 volt). Egy találat ennél még kevesebb, úgyhogy az minket nem érdekel; abból nyilvánvaló badarság volna telepátiára következtetni. A döntési határ tehát lehet 2, 3 vagy 4. Kezdjük a legutóbbival, mert (én már tudom) az alfa a legegyszerűbben ahhoz jön ki.
Ha a döntési határ négy, akkor a nullhipotézist négy vagy több találat esetén vetjük el, de mivel most négynél több találat nem lehet, elég annak valószínűségét kiszámítanunk, hogy a négy próbából pontosan négy találat lesz. Ilyen esetekben, amikor egy-egy próbának mindössze két kimenetele lehet – nálunk találat vagy nem-találat, máshol például fej vagy írás, férfi vagy nő stb. –, statisztikai szakzsargonban a két kimenetelt sikernek és kudarcnak hívják, magát az ilyen kísérletet pedig Bernoulli-féle kísérletnek Jakob Bernoulli (1654 – 1705) svájci matematikus után. Ha összesen N próba van, és egy próbában a siker valószínűsége p, akkor k siker valószínűségét Bp(N,k)-val jelölik. Eszerint a mi feladatunk most B1/3(4,4) meghatározása.
Négy próbából négy siker akkor lesz, ha az egyedi, 1/3 valószínűségű siker minden próbában bekövetkezik. A valószínűségszámítás egyik elemi tétele szerint több esemény együttes bekövetkezésének valószínűsége egyenlő az egyedi események valószínűségeinek szorzatával, amennyiben ezek az egyedi események egymástól statisztikailag függetlenek, vagyis egyik kimenetelét sem befolyásolja az, hogy a többiben mi jött ki. Ez a feltétel most teljesül, hiszen a véletlent nyilván nem érdekli, hogy az előző vagy a következő próbákban mi történt. Az egyedi siker valószínűségét tudjuk: 1/3. Négy darab 1/3-ot összeszorozva az eredmény
B1/3(4,4) = 1/34 = 1/81 = 0,012                (2.1)
Ugye mondtam, hogy egyszerű lesz. Ha négyből négy találat után úgy döntünk, hogy volt itt valami a véletlenen túl, akkor 1%-nál alig több annak valószínűsége, hogy tévedünk. (Persze csak akkor, ha ezt a négypróbás menetet egyetlen egyszer végezzük el. Több ilyen között már nagyobb eséllyel akad négytalálatos véletlenül is, tehát akkor az összes elvégzett próbával kell számolnunk.)
Most lássunk neki annak az esetnek, ahol a döntési határ 3. Itt akkor vetjük el a nullhipotézist, ha 3 vagy 4 jön ki. A valószínűségszámítás egy másik elemi tétele szerint ha egy A esemény bekövetkezését egy B vagy egy C esemény bekövetkezése definiálja, akkor A valószínűsége egyenlő B és C valószínűségének összegével. Itt is van azonban egy feltétel: B és C nem következhet be együtt, bekövetkezésüknek ki kell zárnia egymást. Ha ez a feltétel nem teljesül, akkor a kombinált esemény valószínűsége nem egyenlő az összetevő események valószínűségének összegével, hanem annál kisebb. Most persze ilyen bonyodalom nincs, mert ugyanabból a négy próbából nem lehet egyszerre három és négy találat. Ha tehát sikerül kiszámítanunk a B1/3(4,3) valószínűséget, akkor B1/3(4,4)-et hozzáadva készen vagyunk.
Hogy jöhet létre négyből három siker? Ideírom a lehetőségeket, a sikert S-sel, a kudarcot K-val jelölve: SSSK, SSKS, SKSS, KSSS. Ez négy alternatív esemény, amelyek egymást kizárják, és közülük bármelyik következik be, az mind megfelel a „három siker” eseményének; valószínűségeiket tehát össze kell adni. Nézzük például az elsőt: SSSK. Ez maga is összetett esemény, amelynek összetevői most nem vagy-, hanem és-kapcsolatban vannak: akkor következik be, ha az első próba siker, és a második próba siker, és a harmadik próba siker, és a negyedik próba kudarc. Az első valószínűsége 1/3, a másodiké is 1/3, a harmadiké is 1/3, a negyediké pedig 2/3. Összeszorozva 2/81. Ez volt SSSK, most jön SSKS. Node ennek ugyanannyi a valószínűsége, mint SSSK-nak, mert csak a szorzótényezők sorrendje változott, az pedig a szorzatnak mindegy; és ugyanez a helyzet a további kettővel. Így megkapjuk a kívánt valószínűséget:
B1/3(4,3) = 4 * 2/81 = 8/81                (2.2)
Ezt összeadva B1/3(4,4)-gyel, az eredmény 9/81 = 1/9 = 0,111. Ha a nullhipotézist már 3 találatnál elvetjük, akkor kicsit több mint 11% valószínűséggel tévedünk.
Ez se volt túl komplikált, igaz? (Azért ne csüggedjünk, a java még hátravan.) Mennyi lesz B1/3(4,2)?
Két siker alternatív esetei: SSKK, SKSK, SKKS, KSSK, KSKS, KKSS. Szerencsére ezek valószínűsége is mind egyenlő, hiszen mindegyikben két siker és két kudarc szerepel: 1/3 * 1/3 * 2/3 * 2/3 = 4/81. Mivel hatan vannak vagy-kapcsolatban, a „két siker” eseményéhez ezt hattal kell szoroznunk:
B1/3(4,2) = 24/81                (2.3)
Ezután már nem kell külön megmagyaráznom – három azonos nevezőjű törtet Európában talán mindenki össze tud adni –, hogy amennyiben a puszta véletlen hipotézisét két találatnál vetjük el, tévedésünk valószínűsége 33/81 = 0,407: kerekítve 41%.
Gyakorlásnak még érdemes kiszámítani B1/3(4,1)-et és B1/3(4,0)-t, de ez legyen házi feladat, nem részletezem. Az eredmény: B1/3(4,1) = 32/81, B1/3(4,0) = 16/81.
Vegyük észre, hogy az összes lehetőség Bernoulli-féle valószínűségét összeadva pontosan 1 jön ki:
B1/3(4,0) + B1/3(4,1) + B1/3(4,2) + B1/3(4,3) + B1/3 (4,4) = (16 + 32 + 24 + 8 + 1)/81 = 81/81 = 1                (2.4)
Természetesen nem is lehetne másképp, hiszen ez az összeg annak az eseménynek a valószínűsége, hogy „négy próbából vagy 0, vagy 1, vagy 2, vagy 3, vagy 4 találat jön ki”, ami biztosan, azaz 100% valószínűséggel bekövetkezik. Méghozzá nyilván nemcsak akkor, ha a próbák száma négy, az egyedi találat valószínűsége pedig 1/3, hanem N és p bármilyen értékére, ha az összes lehetséges találatszám valószínűségét összeadjuk.
A matematikában bevezettek egy ügyes jelölést olyan összegre, amelyben betűk szerepelnek, és ezért nem tudjuk konkrétan, hogy hány tagja van. Általános N esetén mi most pont ebben a helyzetben vagyunk. A Bp(N,k) számok k szerinti összegét, ahol k sorra felveszi a 0, 1, 2, ..., N-2, N-1, N értéket, a következő módon jelölik: k=0ΣNBp(N,k). Az összegezést itt a görög Σ (nagy szigma) betű írja elő, és hogy összegezni k-ra kell 0-tól N-ig, azt a Σ mellé írt két „rendezői utasítás” jelzi: balra lent hogy mire összegezzünk és hol kezdjük, jobbra fent pedig hogy hol fejezzük be. Csak gyorsan egy egyszerű szemléltető példa: i=0Σ3(5i) = 0 + 5 + 10 + 15 = 30. Ezzel a jelöléssel az összegre vonatkozó tétel a következőképpen néz ki:
k=0ΣNBp(N,k) = 1                     (5)

2.322. Az általános eset: N próba és p egyedi sikervalószínűség
Ha egy N-próbás menetben úgy döntünk, hogy legalább K találatszám esetén vetjük el a puszta véletlen hipotézisét, akkor (már bizonyára mindenki tudja), az elsőfajú hibavalószínűséget az adja meg, hogy kizárólag véletlen találgatást feltételezve mennyi lesz a „K vagy több találat” esemény valószínűsége. Ehhez pedig össze kell adni a K, K+1, K+2 stb. találat valószínűségeit egészen N-ig:
α =k=KΣNBp(N,k)                (2.6)
Következő feladatunk tehát az, hogy módszert találjunk a Bp(N,k) valószínűség kiszámítására tetszőleges N, p és k esetén.
Emlékezzünk vissza, mit csináltunk, amikor N = 4 és p = 1/3 volt! Bármelyik k-nál először kijelöltük a négy próba eredményeinek azokat a kombinációit, ahol pont k siker jött ki (például k=3-ra SSSK, SSKS, SKSS és KSSS). Aztán meghatároztuk ezek bekövetkezési valószínűségeit, majd a kapott valószínűségeket összeadtuk. Szerencsére elég volt bármelyiket megszorozni a kombinációk számával (k = 3 esetében néggyel), mivel mind azonos volt. Nos, ugyanez a dolgunk most is, csak nem konkrét számokkal, hanem képletekkel.
Ezúttal N elemű sorozataink vannak, azaz egy ilyen kombináció N elemi eseményből áll, amelyek mindegyike bekövetkezik. Mivel ők most is statisztikailag függetlenek, a kombinált esemény valószínűsége az elemi események valószínűségeinek szorzata. Az N elemi esemény között most k siker és (N-k) kudarc szerepel. Ennélfogva a szorzat k darabot fog tartalmazni a siker, és (N-k) darabot a kudarc egyedi valószínűségéből. A siker egyedi valószínűsége definíció szerint p. A kudarcé pedig (1-p), hiszen ha a összadjuk a siker valószínűségével, 1-et kell kapnunk: az az esemény ugyanis 100%-osan biztos, hogy a próba eredménye vagy siker vagy kudarc, harmadik eset nincs. Így tehát bármelyik k-sikerű kombináció valószínűsége pk(1-p)(N-k).
És hányan vannak az ilyen kombinációk? Ez kicsit több gondolkodást igényel, mint az eddigiek; az eredményhez csak több lépéssel közelíthetünk. Először látszólag nehezítjük a feladatot: hány N-elemű sorozat létezne akkor, ha mind az N elem különböző volna?
Képzeljük el ezeket a sorozatokat egymás alá írva egy táblázatban, ahogy N = 3-ra itt be is mutatom:

A B C
A C B
B A C
B C A
C A B
C B A
Tegyük fel, hogy az elemek elhelyezésében igyekszünk bizonyos rendet tartani, hogy biztos ne felejtsünk ki semmit. Ehhez például az elemeket megszámozzuk, vagy betűk esetén felhasználjuk az ábécésorrendet. Az első helyre nyilván N elemet rakhatunk, és ezt célszerűen olyan módszerrel tesszük, ahogy a fenti táblázat készült: az első helyen mindaddig nem változtatunk, amíg mögötte az összes lehetőség ki nem merült. És aztán ugyanezt a módszert követjük a többi helyen is. Így mindig egyértelműen adott, hogy hova mi kerüljön.
Hányféleképp tölthetjük be a második helyet? Mivel az N elem közül egyet már az első helyre elhasználtunk, ide marad N-1. Az első két elemnek tehát összesen N*(N-1) kombinációja lesz. (Vigyázat: kezdők itt hajlamosak azt hinni, hogy ez N + (N-1), de kicsit belegondolva a hiba világossá válik.) Szemléltető táblázatunkban, ahol N = 3, ezzel a lehetőségek száma ki is merül, mert harmadiknak mindenhova már csak a megmaradt egyetlen betűt tehetjük. Ha N háromnál nagyobb, akkor ismét az előző logikával a harmadik helyre (N-2) elem közül lehet választani. Így az első két helyen lévő minden egyes kombinációt még (N-2) különböző elemmel folytathatjuk, tehát az első három hely lehetőségeinek száma N(N-1)(N-2). És így tovább: végeredményben azt kapjuk, hogy N elemnek összesen N(N-1)(N-2)...3*2*1 lehetséges sorrendje van.
Erre a szorzatra a matematikusok szintén kitaláltak egy tömör írásmódot (úgy látszik, ők csak számolni szeretnek, írni nem): N! A neve pedig „N faktoriális”. Definíció szerint tehát N faktoriális egyenlő az egész számok szorzatával egytől N-ig.
Nekünk persze most az N helyen nem N különböző elemünk van, hanem csak kettő: siker és kudarc. Mégpedig a sikerből k és a kudarcból (N-k) darab. Emiatt aztán egy csomó kombináció, ami az előbb mind különbözött, most azonos, tehát az összes kombináció száma nyilván sokkal kisebb. Először gondoljuk meg, mekkora csökkenést okoznak a sikerek, aztán az eredményt már biztos könnyű lesz alkalmazni a kudarcokra ugyanúgy. Képzeljünk el egy konkrét kombinációt, ahol az N hely közül néhányon ott ülnek az S betűk. Ha két S-et egymás között kicserélünk, akkor, ugye, most nem kapunk két eltérő kombinációt; holott az előbbi, csupa különböző elemű esetben, még azt kaptunk. Ezért a többi helyen lévő elemek minden egyes kombinációjához most nem két eset járul emiatt a két S miatt, hanem csak egy: következésképp az összes eset száma megfeleződik. A tanulság tehát: ahány féle módon az S-eket el lehet rendezni egymás között, annyiad részére csökken az N-elemű kombinációk száma ahhoz képest, ahányan a csupa különböző elemű esetben voltak.
Node azt már tudjuk, hogy k elemet hányféleképp lehet k helyen elrendezni, hiszen pontosan ugyanezt a feladatot N-re már megoldottuk: az eredmény k!. k darab siker jelenlétében ezért az eredeti N! kombinációból N!/k! lesz. És analóg módon az (N-k) darab kudarc ezt a számot tovább osztja (N-k)!-sal. Végeredményben tehát a k sikert tartalmazó kombinációk száma N!/(k!(N-k)!). Ez a kifejezés a matematika ilyesmikkel foglalkozó, kombinatorika nevü ágában olyan fontos, hogy külön neve van: binomiális együttható (Bronstejn és Szemengyajev 1987, 2.2 fejezet). Jele pedig (Nk), kiejtve „N alatt a k”. (Itt a k igazából pont az N alatt van, csak normál szövegben nem tudom úgy leírni, ezért a továbbiakban ezt a kényszermegoldást alkalmazom.) Vagyis képletben
(Nk) = N!/(k!(N-k)!)                (2.7)
Mivel egy-egy ilyen kombináció valószínűsége, mint láttuk, pk(1-p)(N-k), és ezekből a kombinációkból az imént levezetett (Nk) van, a keresett valószínűség
Bp(N,k) = (Nk)pk(1-p)(N-k)                 (2.8)
Aki ettől a képlettől megijedt, annak van egy jó hírem: konkrét számításokban nem kell a számokat behelyettesítve a sok szorzást meg hatványozást mind elvégezni, mert az Excelben van egy BINOM.ELOSZLÁS (az angol változatban BINOMDIST) függvény, amely megteszi helyettünk. Beírjuk a k („Sikeresek), N („Kísérletek”) és p (Siker_valószínűsége”) értékét, az „Eloszlásfv” rubrikába pedig HAMIS-at vagy IGAZ-at attól függően, hogy egyetlen sikerszám valószínűségét keressük, vagy együtt az összesét nullától a megadott k-ig, és itt az eredmény egy szempillantás alatt.
A valószínűségek együttesét a lehetőségek teljes tartományában úgy hívják, hogy valószínűségeloszlás, vagy tömörebben eloszlás, ha a szövegkörnyezetből úgyis világos, hogy valószínűségekről van szó. A Bernoulli-féle valószínűségek esetében pedig a nagy baseli matematikus nevét természetesen az eloszlás is örökli, így ennek neve Bernoulli-eloszlás. A pszichológiában és a társadalomtudományokban gyakori a binomiális kísérlet és értelemszerűen a binomiális eloszlás név is, azon az alapon, hogy egy kéttagú összeg („bi-nom”) hatványozásakor hasonló képlet áll elő: (a + b)n = k=0Σn(nk)pk(1-p)(n-k).

2.323. N=25 és p=1/5 esete
Most már gyerekjáték meghatározni a találatszámok valószínűségének eloszlását Rhine tipikus menetében. Az eredmény, amit az Excel pár egérklikkelésre vidáman kiszámít és megrajzol nekünk, a 2.1. táblázaton és a 2.2. ábrán látható:
     k     B1/5(25,k) ezrelékekben
     0            4
     1           24
     2           71
     3          136
     4          187
     5          196
     6          163
     7          111
     8           62
     9           29
    10           12
    11            4
    12            1
2.1. táblázat. A Bernoulli-eloszlás értékei N = 25 és p = 1/5 paraméterekkel.

2.2. ábra. A Bernoulli-eloszlás grafikonja N = 25 és p = 1/5 paraméterekkel.

Az eloszlás itt természetesen k=25-ig tart, de 12 fölött a valószínűségek igen kicsik (bár nullánál azért mind nagyobb), úgyhogy már nem látszanak a grafikonon. Az összes együtt is csak 0,000369.

2.324. Az elsőfajú hiba valószínűsége 25 ESP-ábrás menetekben
A 2.1. táblázat adatai alapján rögtön ellenőrizhetjük, amit a 2.31. alfejezetben előlegeztem: hogy aki 8 találattól kezdve veti el a puszta véletlen hipotézisét, az 11% valószínűséggel tévedni fog. A (2.6) képletet kell alkalmaznunk, összeadva a találatszámok valószínűségeit 8-tól 25-ig. Gyakorlatban elég 12-ig, afölött elhanyagolhatóan kicsi számok lennének. Az eredmény 108 ezrelék, kerekítve 11%. (Remélem, nem hiszik el utánaszámolás nélkül, pláne egy olyan fickónak, aki parapszichológiával foglalkozik!)
Ugyanilyen könnyű meghatározni azt a találatszámot, amit döntési küszöbnek választva az elsőfajú hibavalószínűség 5% lesz. Most addig adogatjuk össze 12 találattól visszafelé az eloszlás értékeit, amíg a következő lépés már többet adna 5%-nál, azaz 50‰-nél. Mivel ez a találatszám 9 (46‰ összeggel), a pszichológiában szokásos 5% hibavalószínűségű döntési határt 9 találatnál kell meghúznunk. Ha óvatosabbak vagyunk, és mondjuk 1% hibánál nem engedünk meg többet, akkor a határ 11 találat, mert erre α = 5‰, míg 10 találatra már 17‰ volna. És így tovább; aki még kisebb számokra kíváncsi, az Excellel természetesen kiszámíttathatja a valószínűségeket 12 találaton túl, és három tizedesjegynél sokkal pontosabban is.

2.33. A Bernoulli-eloszlás közelítése Gauss-eloszlással.
Bernoulli-típusú kísérletek természetesen léteztek már a számítógép és vele a táblázatkezelő programok feltalálása előtt, amikor a (2.8) képlettel dolgozni igencsak fárasztó és unalmas lehetett. Szerencsére nem sokáig: a 18. században lendületbe jött valószínűségszámítás lehetővé tette a Bernoulli-eloszlás közelítését egy könnyebben kezelhető másikkal, amelyet De Moivre fedezett fel 1733-ban, húsz évvel Bernoulli ilyen témájú közleményei után (Schnedecor és Cochran 1967). Ezt az eloszlást mégsem róla nevezték el, hanem jóval később Carl Friedrich Gaussról (1777 – 1855); ő nálunk talán leginkább arról ismert, hogy Bolyai János neki küldte el dolgozatát új nemeuklidészi geometriájáról, mire ő visszaírt, hogy na ja, ezt már maga is felfedezte (Benedek 1985). Mindenesetre többek szerint ő volt minden idők legnagyobb matematikusa, akinek sok más terület mellett a valószínűségszámításban is elévülhetetlen érdemei vannak.

2.331. A Gauss-eloszlás
A Gauss-eloszlás igen fontos szerepet tölt be mind a természeti folyamatokban, mind a mérési eredmények kiértékelésének technikájában. Olyan sok jelenségre jellemző, hogy a pszichológusok meg a társadalomtudományok művelői nemes egyszerűséggel normális eloszlásnak hívják. Ahol egy mérhető mennyiség véletlenszerű hatások összjátékában alakul ki, ott az értéke rendszerint ilyen eloszlást követ, és ha ugyanabból a statisztikai adathalmazból több (kellően nagy) mintát veszünk, a mintákból számított átlagok is Gauss-eloszlás szerint ingadoznak a teljes adathalmaz átlaga körül. Így néz ki:
     2.3. ábra. Az emberi testmagasság Gauss-eloszlást követ.

Aki most találkozik vele először, mindjárt feltűnhet egy nagy eltérés a Bernoulli-eloszlástól: itt nem elkülönült számokhoz tartozó valószínűségek szerepelnek, hanem egy megszakítás nélküli görbe. Bizony, a Gauss-eloszlás folytonos, szemben a diszkrét Bernoulli-eloszlással. A vízszintes tengely ismerős: nyilván ott ábrázoljuk azt a független változót – mint amilyen a Rhine-féle kísérletben a találatszám –, amelynek értékei bizonyos valószínűséggel előfordulnak. Itt történetesen amerikai férfiak testmagasságát egy olyan időből, amikor még nem voltak akkorák, mint ma (Schnedecor és Cochran 1967). Nincs viszont számszerű értéke az egyes pontokhoz tartozó valószínűségeknek, amit egy függőleges tengelyen szerepeltethetnénk. Ám gondoljuk meg, ez szükségszerűen van így: ha a magasságot folytonosnak tételezzük fel, vagyis elvileg végtelen pontossággal mérhetőnek, akkor tényleg elenyészően kicsi annak valószínűsége, hogy valaki centiméterben mérve mondjuk pontosan 174,154...(plusz még végtelen számú tizedesjegy) magas. Ugyanakkor a görbe érezhetően jelzi valahogy mégis, hogy egy véletlenszerűen kiválasztott férfi magassága inkább 173 cm körül van, mint például 160 vagy 180 cm körül. Hogy jön be ide a valószínűség?
Ennek megértéséhez vegyük szemügyre ismét a Bernoulli-eloszlást, mindjárt kissé átalakítva úgy, hogy hasonlítson egy folytonos eloszláshoz.

2.4. ábra. Lépcsőssé alakított Bernoulli-eloszlás N=25 és p=1/5 paraméterekkel.

Ha az oszlopok magasságát továbbra is megfeleltetjük a találatszámok valószínűségének, ez ugyanaz az eloszlás, mint ami az 1. ábrán szerepel. Azt állítom viszont, hogy magát a lépcsős burkológörbét felfoghatjuk a 2.3. ábra Gauss-görbéjéhez hasonlóan is. Miért? Vegyük észre, hogy mivel a vízszintes tengelyen egész számok szerepelnek, az oszlopok szélessége pontosan 1; ezért az egyes oszlopok területének nagysága egyenlő az egyes találatszámok valószínűségével. Ez a kulcsa a folytonos eloszlásoknak: itt a valószínűségeket nem magasságok, hanem területek adják meg. Például a 7. oszlop területe annak valószínűsége, hogy a találatszám 6,5 és 7,5 közé esik. Tudjuk persze, hogy ha tényleg Bernoulli-féle kísérletről van szó, ebből a folytonos tartományból mindössze a 7,0 érték realizálódhat, de ez nem baj: az eloszlás új, immár folytonos felfogása ugyanazt az eredményt adja, mint a régi, viszont ez már általánosítható olyan mért mennyiségekre, amiknek nemcsak egész értékei lehetnek.
Hasonlóképp, ha például azt kérdezzük, hogy mekkora a valószínűsége a „2, 3 vagy 4 találat” eseménynek, akkor a 2., 3. és 4. oszlop területét kell összeadni, ahogy az a 4. ábrán látszik. 2, 3 vagy 4 találat valószínűsége tehát annyi, amekkora a görbe alatti terület 1,5 és 4,5 között.

2.5. ábra. A „2 <= találatszám <= 4” esemény valószínűsége a folytonossá alakított Bernoulli-eloszlás grafikonján.

Innen a függőleges tengely értelemszerűen lemaradt, mert a régebben azon szereplő számok már nem jelentenék a valószínűség értékeit. Az általánosítás ezután természetes bármilyen folytonos eloszlásra, nemcsak a lépcsőszerűekre. Például a 2.6. ábra Gauss-görbéjén a szürke terület adja meg annak valószínűségét, hogy egy véletlenszerűen kiválasztott amerikai férfi az eloszlás kimérésének idején magasabb volt 183 centiméternél.

2.6. ábra. A „magasság > 183 cm” esemény valószínűsége a Gauss-eloszlás grafikonján.

A folytonos eloszlások grafikonját leíró függvényt nem illik eloszlásfüggvénynek hívni (ahogy a diszkrét eloszlások pontszerű függvényét hívjuk), épp azért, mert ennek pontjai nem valószínűségeket jelentenek. A nevük sűrűségfüggvény, némi költői fantáziával szintén érthetően: mintha a folytonos skála minden pontjához azt mutatnák meg, hogy az illető pont körüli események a többihez képest milyen sűrűn fordulnak elő. Pongyola szóhasználattal az egész függvényt Gauss-eloszlásként szokták emlegetni, tartsuk észben azonban, hogy maga a görbe, azaz a sűrűségfüggvény, csak mint az alatta lévő területek kiszámításának eszköze bír jelentőséggel.

2.332. A Gauss-eloszlás paraméterei és matematikai alakja
No de hogyan számíthatók ki ezek a területek, például a szürkített, 183 cm-től plusz végtelenig tartó rész az 2.6. ábrán? Annyi rögtön látszik, hogy ez a terület függ legalább két dologtól: attól, hogy a harang alakú görbének hány centinél van a közepe, és attól, hogy milyen széles. Például ha ugyanilyen széles volna, de nem 173,2, hanem 160 cm körül helyezkedne el, akkor a mi 183 cm-ünk már nagyon a jobb szélére esne, tehát a terület igen kicsi volna. Jelentősen megnőne viszont, ha a görbét széthúznánk kétszer ilyen szélesre változatlan középpont körül.
Valóban, egy Gauss-eloszlású mennyiség kezeléséhez ismernünk kell az eloszlás két paraméterét, amelyek a közepét és a kiterjedését jellemzik. Az első neve várható érték, a másodiké szórás. Leggyakoribb jelölésük μ és σ. A várható érték fogalma köznapi ésszel is egyszerű, lényegében ugyanaz, mint a számtani közép. Akkor jönne ki, ha az eloszlással jellemzett összes számot átlagolnánk:

μ = (i=1ΣNmi)/N                (2.9)

ahol az átlagolt értékek számát N-nel, az i-edik átlagolandó értéket pedig mi-vel jelöltük. A szórás kicsit bonyolultabb, de nem kevésbé észszerű: itt az átlagtól való eltéréseket átlagoljuk. Csak ezt nem érdemes a szokott módon tennünk, mert az nullát adna,

i=1ΣN(mi - μ)/N = i=0Σ(Nmi)/N – (i=1ΣN)μ/N = μ – Nμ/N = 0,

érthetően, hiszen a pozitív és negatív eltérések pont kiegyenlítenék egymást. Úgy kell átlagolnunk, hogy ezek azonos irányba hassanak. Átlagolhatnánk az abszolút értéküket (a diákok gyakran ezt javasolják először, mikor tippet kérek tőlük), de az abszolút értéket matematikailag nehéz kezelni, ezért inkább négyzetre emelünk, majd az átlagolás után az eredményből négyzetgyököt vonunk. Ez utóbbira azért van szükség, hogy a szórás mértékegysége az eredeti adatokéval azonos maradjon.

σ = √(i=1ΣN(mi - μ)2/N)                 (2.10)

A (2.10) és a (2.9) képletet összevetve jól látszik, hogy a szórás négyzete igazából nem egyéb, mint (mi - μ)2 várható értéke; ezt a tulajdonságát a 3.335 alfejezetben fel is fogjuk használni.
Az 2.6. ábra eloszlásán például μ = 173,2 cm és σ = 6,6 cm. A várható érték és a szórás meghatározására a (2.9) és a (2.10) képlet ritkán ad gyakorlati utasítást – inkább csak a definíció célját szolgálják –, mert alkalmazásukhoz az összes mi–t mérni kellene. A 2.6. ábra eloszlásának esetében például minden amerikai férfi testmagasságát egytől egyig. Mivel ez rendszerint lehetetlen, a mérést a teljes populáció helyett annak csak egy reprezentatív mintáján végzik el, és a képletekbe az így kapott adatokat helyettesítik be. Ekkor a megegyezés szerinti jelölések az előbbiektől kissé eltérnek, érzékeltetendő, hogy itt csak mintáról van szó: az adatok száma n, az átlag m, a szórás s lesz, és ilyenkor az átlagot nem nevezzük várható értéknek. Van némi változás a (2.10) képletben is, mert most a μ értéke nem ismert pontosan, tehát kénytelenek vagyunk az m mintaátlaggal helyettesíteni; emiatt a mért (mi – m)2 különbségek valamivel kevésbé ingadoznak a hipotetikus (mi – μ)2 különbségeknél, és ezt kompenzálandó nem n-nel, hanem (n-1)-gyel osztunk. (Matematikailag be lehet bizonyítani, hogy ekkor n növelésével s értéke pontosan σ-hoz tart, míg n-nel osztva egy kicsit mellé menne.) Így a mintaszórás képlete a következő:

s = √(i=1Σn(mi - m)2/(n-1))                 (2.11)

Minél nagyobb a mért minta, átlaga és szórása annál közelebb lesz a populáció átlagához és szórásához. Hogy egy adott mintaméret esetén mennyire közel, azt később mutatom meg, amikor ezt az információt majd használni is fogjuk.
μ és σ ismeretében már felírhatjuk a Gauss-eloszlás sűrűségfüggvényének matematikai alakját. Csak illendőségből egyébként, mert a továbbiakban nem kerül elő. Szóval ha egy Gauss-eloszlású mennyiséget x-szel jelölünk, amelynek várható értéke μ és szórása σ, akkor φ(x)-szel jelölt sűrűségfüggvénye

φ(x) = (1/√(2πσ2)exp((x-μ)2(2σ2))                 (2.12)

ahol exp((x-μ)2(2σ2) azt jelenti, hogy a természetes logaritmus alapszámát (jelölése e, értéke közelítőleg 2,71) az ((x-μ)2/2σ2)-edik hatványra emeljük. Amikor az Excel megrajzolta nekem a 2.3. és az 2.6. ábra görbéjét, ezt a képletet alkalmazta néhány elég sűrűn elhelyezkedő magasságértékre, majd a kapott pontokat egy-egy kis egyenesszakasszal kötötte össze. (Szigorúan véve tehát az ábrán lévő görbe az eredeti pontokon kívül csak közelítés.) Nekünk erre a képletre azért nem lesz szükségünk, mert kihasználjuk a Gauss-eloszlás egy szerencsés tulajdonságát: azt, hogy a sűrűségfüggvény és értelemszerűen az alatta lévő területek semmi mástól nem függnek a várható értéken és a szóráson kívül. Ezért minden konkrét Gauss-eloszlás visszavezethető egy közös, úgynevezett standard normál eloszlásra, amelynek értékei viszont táblázatba vannak gyűjtve. Valahányszor a matematikai statisztikában ki kell számítani egy Gauss-eloszlású mennyiség valamely tartományának előfordulási valószínűségét, elég hozzá a standard normál sűrűségfüggvény alatti területek táblázata.

2.333. A standard normál eloszlás
Ha a Gauss-eloszlás sűrűségfüggvényének alakja kizárólag a várható értéktől és a szórástól függ, akkor az 5. ábra görbéje alá egy az egyben lerajzolhatjuk ugyanazt, csak más számokkal a tengelyen. Például azokkal, amelyek a 2.7. ábra alsó felén láthatók:

             2.7. ábra. Általános és standard Gauss-eloszlás.

Biztos egyből kitalálták: ezt az alsót hívjuk standard normál eloszlásnak. Az ilyen eloszlású, mértékegység nélküli mennyiség neve közmegegyezés szerint Z, függetlenül attól, hogy miből származtattuk (itt például centiméterben mért magasságból). A standard normál Z-t az definiálja, hogy normál (Gauss-) eloszlású, várható értéke 0 és szórása 1. Lehetett volna más várható értékű és szórású változót is kijelölni standardnak, és a táblázatával az ugyanolyan jó hasznot hajtana, de talán egyetértünk abban, hogy ez a választás elég természetes.
A magasság minden értékének megfelel egy Z-érték. Egy adott h magasságból könnyű a neki megfelelő Z(h)-t kiszámítani, hiszen csak annyi a dolgunk, hogy h-t a saját átlagától kezdődő és a saját szórásnyi egységekben mért mennyiséggé alakítsuk át:

Z(h) = (h – μ)/σ                (2.13)

Így például ha egy adott mi pontosan egy szórásnyira van balra a várható értéktől, akkor a neki megfelelő Z(hi) mínusz egy lesz, mert a (2.13) képlet számlálójába -σ kerül; ha egy másik hj a várható értéktől jobbra van másfél szórásnyival, akkor Z(hj) = 1,5; és így tovább. Az ábra szürke területének bal széle pedig Z = 1,48-nál van, mert ennyi (183-173,2)/6,6. És ami nekünk most a legfontosabb: a két szürke terület láthatóan pont egyforma, tehát annak valószínűsége, hogy egy véletlenszerűen kiválasztott amerikai férfi 183 cm-nél magasabb, ugyanannyi, mint annak valószínűsége, hogy Z > 1,48.
Ezt a szürke területet lehet leolvasni a standard normál eloszlás táblázatából amit kézenfekvő okból Z-táblázatnak is neveznek. Angol címe, „Areas under the normal curve” szó szerint azt jelenti, hogy „Területek a normál görbe alatt”. Az első oszlop nem kíván magyarázatot, a másodikban a Z-től balra, a harmadikban az attól jobbra eső terület van. „Cum p” jelentése kumulatív valószínűség: minden olyan esemény akkumulált valószínűsége, amikor egy standard normál változó valahova minusz végtelen és az adott Z-érték közé esik. „Tail” pedig angolul farkat jelent, jelen esetben a sűrűségfüggvény farkát; leggyakrabban ugyanis a táblázatot olyan Z-knél használjuk, amelyek erősen a jobboldalon vannak, így tőlük jobbra már csak az eloszlás farokszerű nyúlványa található.
183 cm-nél nagyobb magasság valószínűségét úgy kapjuk meg, hogy leolvassuk a Z = 1,48 értékhez tartozó „Tail p-t”: 0,0697, azaz picit kisebb hét százaléknál. Ilyen egyszerű. És ha nem az amerikai férfiak magassága van terítéken, hanem az olasz nők mellbősége, a japán karatésok reakcióideje, a magyar kukoricacsövek hossza, vagy bármi más, ami Gauss-eloszlást követ, elég ez az egyetlen táblázat. Csak persze ismerni kell az aktuális mellbőség stb. várható értékét és szórását a (2.13) képlet alkalmazásához.

2.334. Az Empirikus Szabály
Olvassuk le az egész számokhoz tartozó területértékeket a Z-táblázaton:

z    Terület, azaz p(-∞ < Z < z)     Százalékban, kerekítve
0                     0,5                                    50
1                     0,8413                               84
2                     0,9772                               97,5
3                     0,9987                               100

ahol nagy Z az általános Z változót jelenti, kis z egy kijelölt konkrét Z-t, p(-∞ < Z < z) pedig annak valószínűségét, hogy Z-t megmérve az mínusz végtelen és z közé esik, magyarul hogy Z mért értéke kisebb z-nél. Mivel a görbe 0 körül szimmetrikus, a terület nullától minden konkrét z-ig ugyanakkora, mint –z-től nulláig. Így az előző táblázatból következik, hogy standard normál eloszlású változók értéke

a./     kb. 68% valószínűséggel esik -1 és +1 közé,
b./     kb. 95% valószínűséggel esik -2 és +2 közé, és
c./     közel 100% valószínűséggel esik -3 és +3 közé.

Általános, azaz nem feltétlenül standard Gauss-eloszlású változók értéke ennek megfelelően

a./    kb. 68% valószínűséggel -σ és + σ közé,
b./    kb. 95% valószínűséggel -2σ és +2σ közé, és
c./    közel 100% valószínűséggel -3σ és +3σ közé esik.

Ez az összefüggés-család olyan jól használható, hogy saját nevet kapott: Empirikus Szabály. Belőle lehet a szórás jelentését mennyiségileg is érezni azon a minőségi állításon túl, hogy jellemző az eloszlás kiterjedésére. Ha tudjuk, hogy egy embercsoportban az intelligencia-hányados normális eloszlású, és szórása 15 pont, akkor ebből rögtön érezhető, hogy a csoport kb. 68 %-ának IQ-ja az átlag két oldalán lévő plusz-mínusz 15 pontnyi sávon belül lesz, a legtöbb csoporttagé (pontosabban a csoport 95%-áé) a ±30 pontnyi sávon belül, és nagyon keveseké a ±45 pontnyi sávon kívül. Vagy ami ezzel egyenértékű, egy véletlenszerűen kiválasztott ember IQ-ja 68% valószínűséggel esik a ±15 pontnyi sávba az átlag körül, és így tovább.

2.335. A Bernoulli-eloszlás kapcsolata a Gauss-eloszlással
Azt állítottam, hogy a Bernoulli-eloszlás jól közelíthető Gauss-eloszlással; most megmutatom, hogy a közelítést hogyan kell a gyakorlatban végrehajtani. A matematikai részletek ismét veszély nélkül átugorhatók, ha valaki elhiszi a végeredményt nélkülük is.
Mivel a Gauss-eloszlást a várható érték és a szórás jelöli ki a végtelen sok lehetőség közül, először a Bernoulli-eloszlás k (sikerszám) változójának várható értékét és szórását kell kifejeznünk az eloszlást jellemző paraméterek, N és p függvényében. Ehhez képzeljünk el nagyon sok N-próbás kísérletet, amelyek mindegyikében kijön egy sikerszám. Ezeket mind átlagoljuk, és aztán ahogy a kísérletek számát tovább növeljük, újra meg újra átlagolva, ez a lassan alakuló átlag fogja egyre jobban megközelíteni a várható értéket. (Intuitíve persze érezzük, hogy a várható érték végül N és p szorzata lesz, sőt, ezt azt érzést stikában én már ki is használtam első, 4-próbás gondolatkísérletünk ismertetése során. De talán nem árt matematikailag precízen is belátni.) Az átlagot közismerten úgy képezzük, hogy a k-értékeket összeadjuk, és aztán elosztjuk azzal a számmal, ahányan vannak. Mikor már igen sok mért k-értékünk van, az összeghez ezek egyre inkább a saját valószínűségük arányában járulnak hozzá; ezért végeredményben az átlag úgy írható fel, mint a lehetséges k-értékeknek a valószínűségükkel súlyozott összege. Mivel a valószínűségek 0 és 1 közöttiek, és összegük 1, itt már nem kell a végén semmivel osztani. A megfelelő képlet tehát, k várható értékét E(k)-val jelölve

E(k) = k=0ΣNkBp(N,k)                (2.14)

Ide behelyettesítjük a (2.8) képletet, majd kifejtjük a binomiális együttható (2.7) képlete szerint:

E(k) = k=0ΣNk(Nk)pk(1-p)(N-k) = k=0ΣNkN!/(k!(N-k)!)pk(1-p)(N-k)                 (2.15)

A k = 0-hoz tartozó tag 0 lesz a k-val való szorzás miatt, így az összeg valójában 1-től kezdődik. A binomiális együttható nevezőjében a k! átalakul (k-1)!-sá, mert utolsó tényezőjét kilövi a kifejezés elején lévő k szorzó. Az N!-ból szándékosan levesszük a szintén utolsó N-et, és kiemeljük az egész összeg elé; ugyancsak kiemelünk egy p-t a pk-ból. Mindezzel a képlet a következővé alakul:

E(k) = Np*k=1ΣN(N-1)!/((k-1)!(N-k)!)pk-1(1-p)N-k                  (2.16)

Az összegezésen belül vezessük be a h = k-1 és az M = N-1 új változókat! Ezekkel (N-k)-ból (M-h) lesz, a binomiális együttható pont (Mh)-vá alakul, és a h szerinti összegezés 0-tól M-ig megy. Vagyis az összeg nem más, mint az összes Bp(M,h) valószínűség összege. Mivel ennek értéke kötelezően 1, az eredmény az, amit vártunk:

E(k) = Np                (2.17)

A szórás kissé több algebrát igényel, de a számítás logikája ugyanaz. Itt a (k-Np) különbségek négyzetének várható értékét kell kifejeznünk ugyancsak N és p függvényében (lásd a megjegyzést a (2.10) képlet után), és akkor megkapjuk a szórás négyzetét:

σ2 = E((k-Np)2) = k=0ΣN(k-Np)2Bp(N,k)                  (2.18)

Mint az iskolában mindenki megtanulhatta, (k-Np)2 = k2 – 2kNp + N2p2. A várható érték képzése az összeg tagjain külön-külön elvégezhető, mert úgyis csak összeadás szerepel benne, és összeadáshoz a tagokat tetszés szerint csoportosíthatjuk. Az utolsó tag igen egyszerű, hiszen nincs benne k: N2p2 várható értéke egyszerűen önmaga. Miután k várható értékét már az előbb meghatároztuk, a második tag sem gond: várható értéke 2NpE(k) = 2N2p2. Mivel ezt le kell vonni, a harmadikkal együtt -N2p2. Így

σ2 = k=0ΣNk2Bp(N,k) - N2p2 = k=0ΣNk2N!/(k!(N-k)!)pk(1-p)(N-k) -N2p2                 (2.19)

Most először ugyanazt csináljuk, mint E(k) levezetésénél: észrevesszük, hogy az első tag 0, kiemelünk egy N-et és egy p-t, egyszerűsítünk az egyik k-val, majd az összegezésen belül bevezetjük az M és h új változókat. A következőt kapjuk (érdemes önállóan utánaszámolni):

σ2 = Np*h=0ΣM(h+1)Bp(M,h) -N2p2                 (2.20)

Most meghatározzuk a Σ-n belüli összeget, célszerűen azzal kezdve, hogy felbontjuk (h+1) szerint. Az első, h-s tag pont olyan, mint (15), csak M = (N-1)-ig megy N helyett, így annak értéke (N-1)p. A második tag egyszerűen 1, mert egyenlő a Bpp(M,h) valószínűségek összegével a teljes tartományukon. Így az eredmény:

σ2 = E((k-Np)2) = N(N-1)p2 + Np - N2p2 = N2p2 – Np2 + Np - N2p2 = Np(1-p)                 (2.21)

Mivel ez a szórás négyzete, maga a szórás a következő lesz:

σ = √(Np(1-p))                (2.22)

Például ha N = 25 és p = 1/5, mint a Rhine-féle menetekben, akkor σ = √(25*(1/5)*(4/5)) = 5*2/5 = 2. Sok ilyen menetet végezve, ESP nélkül a találatszámok ekkora szórással fognak ingadozni a várható érték, azaz 25*(1/5) = 5 körül. Vagyis amennyiben 25 próbánál a Bernoulli-eloszlás elég jól közelíthető Gauss-eloszlással, az empirikus szabály értelmében a találatszám csupán az esetek 5%-ban esik kívül az 1 és 9 közötti sávon (átlag ± két szórás). Ha ESP is működik, és megnöveli a találati valószínűséget 1/5-ről, azaz 0,2-ről például 0,3-ra, akkor az ingadozás középértéke 25*0,3 = 7,5 találat lesz, a találatszámok szórása pedig √(25*0,3)*(0,7) = 2,29, kicsivel nagyobb, mint ESP nélkül.

2.336. A közelítés pontossága
De vajon igaz-e, hogy a Bernoulli-eloszlás tényleg jól közelíthető Gauss-eloszlással? Most már eleget tudunk ahhoz, hogy ezt eldöntsük.
Nézzük például a Rhine-típusú menetek helyzetét. Elővesszük a jó öreg Excelt, amely már eddig is kiszámított néhányat a Bernoulli-féle eloszlásfüggvény és a Gauss-féle sűrűségfüggvény pontjai közül. Most mindkettőből kiszámíttatunk vele egy-egy sorozatot úgy, hogy egymással egyenértékű paramétereket adunk meg. A BINOM.ELOSZLÁS ablakába Kísérletek = 25 és Siker.valószínűsége = 1/5 kerül, a NORM.ELOSZL ablakába pedig Középérték = 5 és Szórás = 2. Az utolsó rubrikába mindkettőnél HAMIS-at írunk, mert most az eloszlás, illetve a sűrűségfüggvény pontjaira vagyunk kíváncsiak, nem az akkumulált összegre. A „Sikeresek”, illetve az „x” rubrikába jönnek a független változó értékei, ezúttal sorra az egész számok nullától 12-ig. A nagyobbakhoz tartozó eredményről már tudjuk, hogy mind elhanyagholhatóan kicsi lenne, ezért a programot nem is fárasztjuk velük. Az eredmény a következő táblázaton és ábrán látható:
  K  Bernoulli, %  Gauss, %   Különbség
  0      0,38      0,88     0,50
  1      2,36      2,70     0,34
  2      7,08      6,48     -0,60
  3      13,58      12,10     -1,48
  4      18,67      17,60     -1,07
  5      19,60      19,95     0,35
  6      16,33      17,60     1,27
  7      11,08      12,10     1,02
  8      6,23      6,48     0,25
  9      2,94      2,70     -0,24
  10      1,18      0,88     -0,30
  11      0,40      0,22     -0,18
  12      0,12      0,04     -0,08
2.2. táblázat. A Bernoulli-féle eloszlásfüggvény és a Gauss-féle sűrűségfüggvény százalékban kifejezett értékeinek összehasonlítása.

2.8. ábra. A Bernoulli-féle eloszlásfüggvény (kék, sötétebb) és a Gauss-féle sűrűségfüggvény (rózsaszín, világosabb) százalékban kifejezett értékeinek összehasonlítása.



Úgy szemre a két görbe egész jól passzol egymáshoz, és a táblázat szerint a függvényértékek eltérése sehol sem nagyobb másfél százaléknál. Egy darabig nézegetve feltűnhet a Bernoulli-eloszlás enyhe aszimmetriája a tökéletesen szimmetrikus Gauss-eloszláshoz képest. Ez azért van így, mert a Bernoulli-féle kísérletben a sikerek száma nem lehet nullánál kisebb, míg a Gauss-görbe természetesen ott is folytatódik.
Ebből mindjárt levonhatunk egy egyszerű szabályt arról, hogy milyen Bernoulli-eloszlásokat nem lehet kielégítően közelíteni Gauss-eloszlással: olyanokat, amelyekhez a megfelelő Gauss-görbe nem fér el eléggé a két végpont, azaz nulla és a próbák száma között. Számszerűleg, ha a háromszoros szórás átlag körüli sávja túlnyúlik nullán vagy a próbaszámon, akkor a Bernoulli-eloszlás kezd aszimmetrikussá válni, ha pedig valamelyik végponton a kétszeres sáv is túlnyúlik, akkor aszimmetriája már jelentősen lerontja a közelítés pontosságát. Mivel a szórás, mint láttuk, Np(1-p) négyzetgyöke, ez utóbbi kellemetlenséget a nulla közelébe eső tartományon a következő feltételt betartva kerülhetjük el:

Np > 2√(Np(1-p))                (2.23)

Mindkét oldalt négyzetre emelve és rendezve

N > 4(1-p)/p                (2.24)

Ha például p = 1/5, akkor a feltétel N > 16, ami Rhine tipikus meneteiben teljesült. Ha nagyobb közelítési pontosságra törekszünk, és mondjuk két és félszeres szórástartománynak is helyet akarunk biztosítani, akkor a feltétel nyilván N > 2,52(1-p)/p = 6,25(1-p)/p lesz, p=1/5-re N > 25. Még nagyobb pontosságra törekedve előírhatjuk a háromszoros szórássávnyi helyet, és így tovább. A várható érték másik oldalára hasonló feltétel írható fel, ami nyilván akkor számít, ha p nagyobb 1/2-nél; ekkor a (2.24) képlet megfelelőjében (1-p)/p helyett p/(1-p) szerepel.
Az ESP-kísérletek szempontjából tulajdonképpen nem az a fő kérdés, hogy a Bernoulli-féle eloszlást a Gauss-féle sűrűségfüggvény pontonként mennyire jól közelíti. Minket az elsőfajú hiba valószínűsége érdekel, amihez (a 2.323. alfejezetben) összeadtuk a döntési küszöb fölötti találatszámok valószínűségét. Ennek az összegnek egy terület felel meg a görbe alatt, ahogy szürkítve a 2.9. ábrán látható. Ezt kell közelítenünk a folytonos Gauss-görbe alatti terület megfelelő részével. A kérdés tehát az, hogy a Gauss-eloszlás területei jó közelítést adnak-e. Mégpedig leginkább itt, az eloszlás farkánál, ahova a döntési küszöböt helyezni szoktuk.

2.9. ábra. Az elsőfajú hiba valószínűségének megfelelő terület, amit a Gauss-görbe alatti területtel közelítünk.

Az Excelben a Bernoulli-eloszlás és a Gauss-eloszlás területei is könnyen kiszámíthatók: az előző megoldáshoz képest annyi a különbség, hogy a BINOM.ELOSZLÁS és a NORM.ELOSZL ablak utolsó rubrikájába most IGAZ kerül. Természetesen ezúttal a beírt Bernoulli-féle sikerszám mindenütt eggyel kevesebb a döntési küszöbnél, mert maga a küszöb már a szürkített részbe számít. A normális eloszlás ablakának „x” változója pedig a döntési küszöbnél mindenütt 0,5-tel kevesebb, mert ahogy a 8. ábrán látható, nekünk az egész balszélső oszlopot közelítenünk kell, maga a k küszöbszám viszont az oszlop közepén van. Végül a kiszámított területeket ki kell vonnunk 1-ből, mert az Excel a beírt k-tól balra lévő területet számítja ki, mi pedig most a jobbra lévőre vagyunk kíváncsiak.
Mindezt elvégezve a 2.3. táblázatot kapjuk:
Küszöb  Bernoulli, %  Gauss, %   Különbség
  8      10,91      10,56     -0,35
  9      4,68      4,01     -0,67
  10      1,73      1,22     -0,51
  11      0,56      0,30     -0,26
  12      0,15      0,06     -0,10
2.3. táblázat. Az eloszlás jobb szélén lévő területek közelítésének hibája a döntési küszöb függvényében.


A különbségképzésben a Gauss-féle területekből vontuk ki a Bernoulli-féle területeket, így a negatív értékek azt jelentik, hogy ebben a tartományban a közelítés mindenütt kissé alulbecsli az igazi területet és ezzel az elsőfajú hibát. Gyakorlati szempontból azonban ez nem probléma, mert 5%-os szignifikanciához a döntési küszöb mindkét módszer szerint 9 találat, 1%-hoz pedig mindkettő szerint 11 találat, úgyhogy a közelítési hiba a döntést nem befolyásolja. Ahogy a próbák száma nő, a Gauss-eloszlásos közelítés egyre pontosabb lesz.







2.34. A Z-próba
Akik már feladták a részletek követését, ezen a ponton érdemes újra bekapcsolódniuk: mostanra minden összejött annak a gyakorlati eljárásnak a megismeréséhez, amit a kutatók alkalmaznak. Sokan ők is anélkül, hogy a mögötte lévő matematikát értenék, de ha jól csinálják, ez a végeredményt nem befolyásolja. Az eljárás, amit Z-próbának hívunk, magában foglalja a következő logikai lépéseket:

  1. Nullhipotézisként feltételezzük, hogy a kísérletben kizárólag véletlen találatok voltak. (Ezt fogja cáfolni az eredmény, ha a véletlen átlagtól igen távol van, mert akkor kis hibavalószínűséggel indokolttá teszi, hogy elvessük.)
  2. A nullhipotézisnek megfelelő Bernoulli-eloszlást közelítjük Gauss-eloszlással; ez konkrétan azt jelenti, hogy meghatározzuk a közelítő Gauss-eloszlás várható értékét és szórását a (2.17) és (2.22) képletekből.
  3. Kiszámítjuk a mért találatszámnak megfelelő Z-értéket a közelítő Gauss-eloszlás szerint. Erre a (2.13) képlet szolgál, egy apró kiegészítéssel amiatt, hogy itt egy diszkrét eloszlásból folytonosat csináltunk (ezt mindjárt részletesebben elmagyarázom).
  4. Megállapítjuk a kísérletben elért szignifikanciaszintet, vagyis azt, hogy a kapott Z az elsőfajú hibavalószínűség (α) mekkora értékét választva esik még a nullhipotézis elvetésének tartományába. Ehhez kikeressük az aktuális Z-hez tartozó α-t a standard normál eloszlás táblázatából.
A 3. ponthoz ígért magyarázat a következő. A (2.13) képlet, ahogy ott remélem érhető volt, arra szolgál, hogy egy általános Gauss-eloszlású változót visszavezessünk egy standard normál eloszlású változóra. Most tényleg ezt tesszük, ám esetünkben az eredeti változó (a találatszám) csak egész szám lehetett. Így eloszlása a közelítés előtt lépcsős alakú volt, ahogy a 2.8. ábrán látható. Mi végeredményben egy területet közelítünk, az eredeti eloszlás néhány oszlopának összterületét: a 2.8. ábrán jól látszik, hogy a balszélső oszlop közelítéséhez a Gauss-görbe alatti területből annyit kell figyelembe vennünk, amennyi az oszlop bal szélétől kezdődik. Ez pedig nem pontosan a találatszámnak megfelelő Z-értéknél van, hanem annál 1/2-del balra. Ezért a k-nak megfelelő Z (2.13) képletének számlálójából 1/2-et le kell vonnunk. Ezt hívják folytonossági korrekciónak. Főleg viszonylag kis N esetén veszélyes elhanyagolni, mert az eredményt elég jelentősen befolyásolhatja. (Megjegyzés: alkalmazása viszont nem indokolt akkor, ha a Gauss- közelítést nem területre, hanem pontszerű függvényértékre alkalmazzuk, ami az ESP-kutatásban is előfordul, mint nemsokára látni fogjuk.)
Nézzünk minderre egy példát! Legyen a próbák száma ezúttal 100, a véletlen találati valószínűség változatlanul 1/5, a mért találatszám pedig 30.
A véletlen szerinti Bernoulli-eloszlás paraméterei N = 100 és p = 1/5. A közelítő Gauss-eloszlás várható értéke Np = 20, szórása √(100* (1/5)*(4/5) = 10*2/5 = 4. Így a mért Z-érték (30 – 20 – 0.5)/4 = 2,375. A táblázatban pont ekkora Z nincs, de van 2,37 és 2,38; az előbbihez 0,0089, az utóbbihoz 0,0087 terület tartozik, vagyis 1,375-höz nyilván pont a kettő közötti, azaz 0,0088. (Ezt az fajta hézagkitöltő műveletet interpolációnak nevezzük.) A pontos érték egyébként lényegtelen, mert mint emlékezhetünk, a 0,05-nél kisebb alfáknak úgyis csak valamelyik negatív egész kitevőjű hatványát illik megadni. A mi esetünkben ez nyilván α = 0,01. Kísérletünk eredménye tehát 1%-os szinten szignifikáns. Aki ennek alapján elveti a „puszta véletlen” hipotézisét, legfeljebb 1% valószínűséggel téved. Hogy ezek után ki mit dönt, az már nem a mi dolgunk.
Még egy apró megjegyzés azoknak, akik esetleg találkoznak a tudományos parapszichológia viszonylag régi szakcikkeivel. Rhine idejében a Z-próba standard normál Z változóját még nem így jelölték, hanem CR-rel; ez a „Critical Ratio” rövidítése azon az alapon, hogy a többlet-találatszám és a szórás arányából számítják ki.

2.4. Az ESP létezésének vizsgálata ábraválasztásos kísérletekkel
2.41.Összesített adatok

Később összegyűjtött adatok szerint (Rhine, Pratt, Smith, Stuart és Greenwood 1940; Radin 1997) az 1940-es évekig 185 kísérlet eredményeit publikálták ebből a típusból, elsősorban Rhine és munkatársai. A próbák száma összesen 3,6 millió volt. (Ebben a számban nincsenek benne a tömeges részvevőkkel egyszerre végzett kísérletek.) A korai kísérletek nagy része azonban módszertanilag túl gyenge volt ahhoz, hogy eredményeit komolyan lehetne venni (Thouless 1935). A 2.2 alfejezetben összefoglalt követelmények közül néha szinte egyik sem teljesült; maga Rhine például, mint telepatikus adó, gyakran ült le egy-egy vevővel kísérletezni pont a Schmeidler által elrettentésképp leírt módon (Brian 1982). Később a módszert fokozatosan finomították, egészen odáig, hogy az adó és a vevő két különböző épületben tartózkodott a kísérlet alatt, véletlenszám-táblázat alkalmazása pedig rutinszerűvé vált.
A módszertani fejlődést elősegítette az a fejlemény, hogy nem sokkal az ESP-ábrák bevezetése után kiderült: statisztikailag szignifikáns eredményhez adóra nem feltétlenül van szükség. Más szóval, felfedezték a clairvoyance jelenségét, pontosabban – mivel maga a jelenség más helyzetekben már ismert volt –, azt, hogy a clairvoyance ezzel a módszerrel ugyanolyan jól tesztelhető, mint a telepátia. Az ESP-ábrákat egyszerűen betették lezárt és megszámozott borítékokba, úgyhogy azokat véletlen számok szerint sorba rendezve máris készen álltak a menet céltárgyai. Így az érzékszervi átszivárgás lehetősége erősen beszűkült: csak arra kellett vigyázni, hogy az ábrák ne látsszanak át a boríték anyagán, meg hogy a vevő a borítékokba ne nézhessen bele. Kiderült továbbá, hogy ha a kísérlet részvevői nem érzik a telepátia létezését valószínűbbnek a clairvoyance-énál, akkor a kétféle kísérletben nagyjából egyforma sikert érnek el. Sőt, ha nem tartják ezeknél nehezebb feladatnak az ábrák prekognitív kitalálását sem – ilyenkor az ábrák sorrendjét a tippelés után állapítják meg –, akkor az eredményük szintén hasonló a telepátia- és a clairvoyance-kísérletek eredményéhez. Magától értetődik, hogy módszertani buktatók tekintetében a prekogníciós helyzet még a clairvoyance helyzeténél is biztonságosabb. Így nem csoda, hogy a durhami laboratórium főprofilja hamarosan a clairvoyance és a prekogníció ESP-ábrás kutatása lett.
A 2.10. ábrán olyan kísérletek összefoglaló eredményei láthatók, amelyek módszertanilag mentesek voltak a nyilvánvaló hibáktól. A zárójelbe tett számok az illető módszerrel mért próbák számát jelentik. A függőleges vonalak hossza plusz-mínusz kétszeres szórásnak felel meg; azért nem egyenlők, mert a szórás, azaz √(Np(1-p)), függ a próbák számától. Az ábrán látszik is, hogy ahol ez a szám nagyobb, ott a hibasáv keskenyebb.

2.10. ábra. ESP-ábrás kísérletek összefoglaló eredményei, 1934 – 1939 (Radin 1997).

Az ábráról két dolgot azonnal le lehet olvasni. Egyrészt az átlagos találatszám igen szerény mértékben haladja meg a véletlen szerint várható 20%-ot: a többlet 0,5% és 2% között mozog. Másrészt még ezek a találatszámok is több szórásnyira vannak a véletlen átlagtól, tehát az összesített pozitív eredmény mindegyik kísérletfajtára magasan szignifikáns.
Matematikai statisztikában kezdőknek érdemes itt tudatosítaniuk (ha maguktól még nem jöttek rá), hogy nagy mintákra még ilyen kis többletek is szignifikánssá válnak. Ez azért van, mert ami itt kicsi, az csak a találatarány többlete, maga a többlet-találatszám ennek és a próbák számának szorzata, ami sok próba esetén igencsak jelentős lehet. Ugyanakkor a szórás, amivel ezt a többletet osztani kell a Z kiszámításához, nem a próbák számával arányos, hanem annak csak a négyzetgyökével, tehát fokozatosan lemarad a találatszám többlete mögött, ahogy a minta nő. Itt jegyzem meg, hogy mivel a találatarány nem más, mint a találatszám osztva a próbák N számával, a szórása is a találatszám szórásának N-edrésze lesz, vagyis √(Np(1-p))/N = √(p(1-p)/N). A 2.9. ábra függőleges hibatartományait ebből a képletből lehetett meghatározni.
Az ábráról esetleg az is feltűnik, hogy a négyféle kísérlet eredményei között elég nagy különbségek vannak. Egyelőre nem mutattam meg, hogyan számolunk szignifikanciát találatszámok különbözőségére, de már az eddigiek alapján is érezhető, hogy ha két találatszám jócskán kívül esik egymás kétszeres szórástartományán, akkor legalább 1%-os szignifikanciaszinten különböznek. Ez így is van. Jelen esetben azonban ebből nem következik, hogy az eltéréseket maguknak a kísérletfajtáknak az eltérése okozza; vagyis hogy például a zárt boríték + válaszfal elrendezés szükségképp hatékonyabb zárt borítékoknál válaszfal nélkül. Rhine-ék ugyanis ezeket a módszereket nem véletlenszerűen alkalmazták a kísérleteikhez jelentkező személyekre, és nem is szisztematikusan variálták a módszert ugyanazokkal a személyekkel. Sokkal jellemzőbb volt, hogy bizonyos ideig az egyik módszerrel dolgoztak, aztán a másikkal, és így tovább. Ezért szinte garantált, hogy a különböző fajta kísérletekben nem egyformán tehetséges személyek vettek részt, és maguk a kísérletezők sem voltak mindig ugyanabban az állapotban, ami a lelkesedésüket és más, a kísérlet sikeréhez fontos tényezőket illeti (ezekről később). A kapott szignifikáns eltérések ez utóbbi körülmények hatását is tükrözhetik.
Később szükségünk lesz egy összesített Z-értékre a 2.9. ábra adatai alapján. Külön-külön a négy kísérletfajta mért Z-jét meg tudjuk becsülni abból, hogy átlagos találtarányuk hány szórásnyira van a p=0,2 vonaltól. Ahol közelítünk, mindenütt a kisebb értéket vesszük, hogy a matematikai statisztika konzervatív beállítottságának megfelelően inkább lefelé tévedjünk. Zárt borítékra ez a becsült Z kb. 6, zárt boríték+válaszfalra 16, távolságra 10, időeltolásra 4. Mennyi lehet együtt? Mivel nem akarom az időt húzni, matematikai bizonyítás nélkül közlöm a normális (azaz Gauss-) eloszlás egy idevágó tulajdonságát:
Normális eloszlású változók összege is normális eloszlású; az összeg, illetve a szórásnégyzet várható értéke egyenlő a tagok várható értékének, illetve szórásnégyzetének összegével. Standard normál eloszlású változók szórása 1, tehát szórásnégyzetük is 1, ezért a mi négy Z-nkből képzett összeg szórásnégyzete 4, tehát szórása 2. Várható értéke a nullhipotézis szerint természetesen 0, mert ennyi az összetevőké is. Így az összeg „majdnem” standard normál eloszlású, mindössze a szórása 2 a standard normál 1 helyett. Sebaj, ezen könnyű segíteni egy olyan új változóval, amely pont fele az eredetinek; ezt nevezzük összesített Z-nek, amely a nullhipotézis szerint már tökéletes standard normál változó lesz. Mért értéke az eddigiek szerint Z(össz.) = (6 + 16 + 10 + 4)/2 = 18.

2.42. Kétségek az adattömeg bizonyító erejéről.
Felmerül most egy kézenfekvő kérdés: ha már az 1930-as évek ESP-kísérletei ilyen egyértelműen pozitív eredményeket adtak, miért számít az ESP mindmáig parajelenségnek, és miért folyik vita még a létezéséről is?
A spiritiszta parapszichológusoknak erre egyszerű válaszuk van. Azért, mondják, mert a fafejű materialista tudósok az ilyen, tisztán lelki jelenségeket ideológiai okból képtelenek elfogadni, hát becsukják szemüket a legmeggyőzőbb bizonyítékok előtt is. Sőt, mivel a „hivatalos” tudományban az ESP kutatása ugyanezen ideológiai előítélet miatt nem kapott polgárjogot, többnyire módjuk sincs rá, hogy a bizonyítékokkal megismerkedjenek. A tudománynak és neves művelőinek pedig a legtöbb mai társadalomban elég nagy tekintélyük van ahhoz, hogy kétkedésükkel a laikusokat is elbizonytalanítsák.
Nagyon valószínű, hogy ebben a véleményben van igazság, hiszen az ember ideológiai álláspontja – a tudósé is – erősen befolyásolja a ítéletalkotást olyan jelenségekről, amik összefüggnek a világnézettel, és nem lehet tagadni, hogy a parapszichológia tárgyát majd mindenki ilyennek fogja fel. (Mi, materialista ESP-kutatók, természetesen kivételek vagyunk, de rajtunk kívül nem sokan.) Nem csodálkozhatunk azon, hogy egy meggyőződéses materialista nehezen hinné el olyan kísérletek eredményét, amelyek egy anyagon túli világ létét bizonyítják. Csakhogy a kétkedők között nemcsak ilyenek vannak: közismert több olyan tudós vallásos meggyőződése, aki a parajelenségek létét éppúgy tagadja, mint a materialisták. (Magyarországon például a néhai Szentágotai János agykutató professzor, az MTA akkori elnöke, ugyanolyan elkötelezetten szokott nyilvánosan érvelni az „áltudományok” – köztük az ESP kutatása – ellen, mint a keresztény értékek mellett.) A tudományos világkép ugyanis alapvetően nem abban különbözik a spiritiszták világképétől, hogy materialista, hanem hogy elfogadja és mélyen átérezteti a világ anyagi egységét: azt, hogy az anyagi világról feltárt tények egy minden részletében logikus rendszert alkotnak, amelyben nincsenek belső ellentmondások, és nincsenek kívülről, összefüggéstelenül rápakolt feltételezések. Ezért egy keresztény, muzulmán, hinduista vagy akármilyen más vallású tudós, ha az anyagi világra nézve a tudományos világképben gondolkodik – miközben ettől függetlenül vall egy transzcendens hitrendszert, amely nem az anyagi világra vonatkozik –, nyilvánvaló képtelenségnek érzi, hogy néhány megfogható anyagi jelenség kilógjon a természeti törvények koherens rendszeréből, és másféle, ebben a rendszerben nem értelmezhető törvényszerűségek szerint működjön. Vagy pláne bármiféle törvényszerűség nélkül. Ha egy angyal átrepül fénysebességnél gyorsabban két pont között, az rendben van, mert az angyalokra definíció szerint nem érvényes a relativitáselmélet. De ha Uri Geller azt állítja, hogy egyetlen pillanat alatt testileg teleportálódott New Yorkból egy onnan 60 kilométerre lévő városba (Geller 1990, 17. fejezet), annak a legfinomabban szólva is lódítás-szaga van. Akár még akkor is, ha maga Geller és a mutatványaival foglalkozó parafizikusok ezeket a mutatványokat lényegében materialista módon, ismeretlen „erők” megnyilvánulásaiként fogják fel. (Az „erőket” azért tettem idézőjelbe, mert ez az elnevezésük, ahogy az ezoterikus irodalomban használják, nyilvánvalóan metaforikus: nincs közük a fizikai erőfogalomhoz azzal az egzakt logikai és matematikai kapcsolattal, ahogy a tudomány egységes rendszerén belül a fogalmak viszonyát kezeljük.) Visszatérve tehát Rhine kísérleteinek fogadtatásához, a tudósok nagy részének kétkedése alapvetően nem a materialista világnézetükből fakadt, hanem abból az igényből, hogy a világ tapasztalható jelenségeit egyetlen összefüggő logikai keretben értsük meg.
Jó példa erre Albert Einstein véleménye, amit levélben fogalmazott meg egy parapszichológiával is foglalkozó pszichoterapeutának, Jan Ehrenwaldnak (közli Gardner 1978):
„A kvantitatív, kártyaválasztásos kísérleti módszert tekintve, benyomásaim a következők. Egyrészt nem vonom kétségbe a módszer megbízhatóságát. Másrészt gyanúsnak találom, hogy a ’clairvoyance’- és a ’telepátia’-mérések azonos találati valószínűséget adnak, és hogy az eredményeket nem befolyásolja az adó és a vevő, illetve a kártyák és a vevő közötti távolság. Ez apriori a legnagyobb mértékben valószínűtlen, következésképp az eredmény kétséges.”
(„My impressions concerning the quantitative approach to experiments with cards, and so on, are the following. On the one hand, I have no objection to the method’s reliability. But I find it suspicious that ’clairvoyance’ yield the same probabilities as ’telepathy’ and that the distance of the subject from the cards or from the ’sender’ has no influence on the result. This is, a priori, improbable to the highest degree, consequently the result is doubtful.”)
Kétkedni persze nem mindig könnyű; ha egy jelenséget rendszeresen a saját szemünkkel látunk, olyan helyzetben, ahol alternatív értelmezések (pl. bűvésztrükk, hallucináció) ki vannak zárva, akkor valódiságába előbb-utóbb kénytelenek vagyunk belenyugodni. Az ESP-kísérletek eredményeinek azonban voltak és ma is vannak elfogadható alternatív értelmezései. Vagy legalábbis olyanok, amelyeknek elfogadásához nem kell nagyon elrugaszkodni a mindennapi tapasztalatoktól.
Először is, ezek a kísérletek csak statisztikusan értékelhetők ki, azaz mindig marad valamekkora esély rá, hogy az egész eredmény véletlen egybeesésekből állt elő. Az elsőfajú hiba valószínűsége, az a bizonyos α, lehet nagyon kicsi, de a nullát soha nem éri el. Egy szakterület művelői megállapodhatnak abban, hogy egy bizonyos küszöbérték alatt nullának illik tekinteni, de ez a megállapodás senkire nem kötelező; egyénileg mindenki beállíthatja a küszöböt a megállapodástól eltérően is. Ha pedig más szakterületről van szó, még az ”illik” szempontja sem érvényes.
Másodszor, ha vizsgált jelenség olyan gyenge és nehezen kimutatható, mint esetünkben, akkor sose vehetjük száz százalékig biztosra, hogy minden műtermék lehetőségét kizártuk. Említettem, hogy az ESP-ábrás módszer a harmincas években fokozatosan finomodott, és néhány év alatt az összes ma ismert hibától mentes lett. De ahogy Rhine és munkatársai eleinte nem tudtak az általunk ismert hibákról, esetleg mi sem tudunk olyan továbbiakról, amiket majd az utódaink fedeznek fel. Statisztikai természetű kísérletek a rejtett módszertani pontatlanságokra kiváltképp érzékenyek, ahogy többek között Einstein utalt rá az imént idézett levél folytatásában (Gardner 1978):
„A rajzolásos eredmények nekem többet nyomnak a latban, mint a sok statisztikus mérés, ahol egy apró módszertani hiba felfedezése mindent megkérdőjelezhet.”
(„The drawing results seem to me to have more weight than the large scale statistical experiments where the discovery of a small methodological error may upset everything.”)
A kritika e fajtájának jogosultságát a parapszichológusok némelyike is belátta. James Crumbaugh amerikai pszichológus (aki egy ideig szintén dolgozott Rhine intézetében) például ezt írta: (Crumbaugh 1969, a Schmeidler-szerkesztette kötet 64. oldalán):
„Mivel az ESP-t produkáló feltételek nem ismertek pontosan, a sikertelen kísérletekről Rhine feltételezi, hogy nem találtak rá a megfelelő feltételekre... A valós tények pont fordítva is elképzelhetők: előfordulhatott a sikeres kísérletekben olyan ismeretlen hiba, ami ugyanannyira rejtett és nehezen feltárható, mint a sikertelenekben hiányzónak vélt feltételek. A valódi helyzetet mindaddig nem tudhatjuk, amíg az ESP fellépésének feltételei nincsenek elég pontosan specifikálva ahhoz, hogy következetesen ismételhető eredményű kísérleteket végezhessünk.”
(„Since the exact conditions which produce ESP are unknown, experiments that fail are presumed by Rhine to have failed to hit upon these conditions... The real facts may be otherwise: There may be some unknown error in the positive experiments which is just as elusive and subtle as the true conditions for the production of ESP are presumed in the negative experiments. We cannot know which is the true situation until the conditions of the occurrence of ESP can be specified accurately enough to yield a consistently repeatable experiment.)
Harmadszor, a tudományos kutatás gyakorlatában nem ismeretlen a szándékos csalás, aminek hatását csak a kísérletek mások általi ismétlésével lehet megbízhatóan kiküszöbölni. A parapszichológiában az adatok meghamisításának két esete került napvilágra, közülük az egyik Rhine laboratóriumában (Rhine 1974), már az ESP-ábrás időszak után. A gyanú azonban végigkísérte tevékenységüket gyakorlatilag kezdettől, épp azért, mert eredményeik annyira valószínűtlenek voltak. Eloszlatásához bizonyára elég lett volna, ha a kísérleteket megismétlik tőlük független kutatók, és hasonlóan szignifikáns eredményeket kapnak. Ez azonban nem következett be: az ötvenes-hatvanas évekre a tudományos parapszichológián belül általános lett az a tapasztalat, hogy ESP-kísérletekben a szignifikáns eredmény soha nem vehető biztosra, és még az eleinte igen hatékonynak látszó módszertani újításokról is rendre kiderül, hogy más kezében többnyire hatástalanok. A Journal of Parapsychology minden számában több sikeres kísérlet beszámolója jelent meg, köztudott volt azonban Rhine közlési stratégiája, amely szerint véletlen eredményekre kár pazarolni az újságpapírt; senki nem tudta, hogy hány kézirat maradt fiókban sikertelen kísérletről, de mivel az eddigre már némiképp kiszélesedett kutatóbázis tagjai nyilván beszéltek egymással saját munkájukról, annyi világos volt, hogy ilyenek szép számmal akadnak. Mikor pedig egy szkeptikus érdeklődő próbált szerencsét az ESP-ábrák módszerével, gyakorlatilag soha nem kapott pozitív eredményt. Így aztán aki egy α = 10-5 vagy hasonló szignifikanciaszintű találatarányt már nem tudott véletlennek tekinteni, és a közölt kísérleti módszerben sem talált kivetni valót, még mindig megnyugodhatott abban, hogy ezeket az impozáns adatokat a közlemény szerzője bizonyára csak fabrikálta, hiszen mások nem erősítették meg.

2.43. Az "asztalfiók-hatás" kezelése
A fiókban maradt kísérleti beszámolóknak azonban nemcsak a csalásokkal kapcsolatban van jelentőségük, hanem általánosabban is. Ha feltételezzük (ami gyakorlatilag biztos), hogy Rhine idejében voltak publikálatlan, véletlen kimenetelű kísérletek a pozitív kimenetelű publikáltak mellett, akkor bármiféle csalás nélkül kétségessé válik, hogy a 2.10. ábrán bemutatott adatok az ESP létét statisztikusan igazolják. Hiszen ekkor bekövetkezett ugyanaz az adatszelekció nagyban, amit Schmeidler kicsiben bemutatott két menet példáján, amelyek közül a sikertelent eldobták bemelegítésnek nyilvánítva (2.2. alfejezet eleje). Ráadásul most nem tudjuk, hány ilyen eldobott kísérlet volt, tehát úgy tűnik, semmi esélyünk nincs megbízható következtetésre.
Nos, fekete-fehér válasz arra a kérdésre tényleg nem adható, hogy a feltételezett sikertelen kísérletek tényleg felhígítják-e a sikeresek eredményét annyira, hogy együtt már ne számítsanak szignifikánsnak. Hasonló a helyzet, mint amiből kiindultunk a 2.31. alfejezetben: ott arra a kérdésre nem tudtunk válaszolni, hogy egy adott találatszámból következik-e telepátia működése a menet során. Helyette egy másik kérdést tettünk fel: hogy aki az adott találatszám ismeretében igennel válaszol, milyen valószínűséggel hibázik. Erre a kérdésre a matematikai statisztika már felelni tud, és aztán már a kérdezőn múlik, hogy a feleletből mire következtet.
Ugyanezzel a logikai fogással élünk most is, azaz a kérdést átalakítjuk úgy, hogy megválaszolható legyen. Új kérdésünk a következő: ha ismert a próbák száma és a kijött Z-érték, hány további próba tenné ezt összesítésben nemszignifikánssá, ha feltételezzük, hogy minden további próba sikertelen kísérletből származik?
Tételezzük fel például, hogy a 2.10. ábra adatait szolgáltató, összesen 906 000 próba mellé még 100 000 sikertelen próba jön ki, úgy, hogy együtt az egymillió-hatezerből kapott Z-érték már kisebb legyen az elfogadható leggyengébb szignifikanciának megfelelő Z-nél. 100 000 próbát biztos össze tudtak szedni a Rhine eredményein felbuzdult amerikai és európai kutatók néhány év alatt, tehát ekkor a 2.10. ábra adatainak bizonyító ereje igencsak kétségessé válik. Ha viszont 100 000 többletpróba helyett mondjuk 100 000 000 jön ki, azaz minden egyes publikált próbára több mint 100 publikálatlan esik, akkor más a helyzet, mert ennyi fiókban maradt kísérletet reálisan már nem tételezhetünk fel. Ez utóbbi esetben kijelenthetjük: bár nyilván voltak sikertelen kísérletek, nem lehettek annyian, hogy a sikeresek eredményét teljes egészében kompenzálják. A döntés tehát itt sem a statisztika feladata, hanem a statisztikát használó személyé.
Most jön a többletpróbák számának konkrét meghatározása (Rosenthal 1979 nyomán), aminek elolvasása természetesen szintén kihagyható, ha értjük, hogy az eredmény majd mit jelent. A létező adatok paramétereit jelöljük kisbetűkkel, a feltételezett adattömeg paramétereit naggyal: n a meglévő próbák száma, N az asztalfiókban maradtaké, z az n próbában kapott eredmény, Z az asztalfiókban maradt N próba összesített eredménye. Ezekből ismert n és z, keressük N-t, Z-t pedig mindjárt kiszámítjuk, tudva, hogy csupa sikertelen kísérlet összesítéséből származik.
Rhine idejében 5%-os szignifikanciát már sikernek könyveltek el, és α = 0,05-nek Z = 1,65 felel meg. A feltételezett sikertelen kísérletekben tehát mindig 1,65-nél kisebb Z jött ki, de ezen kívül semmit nem tudunk róluk. Így az a legésszerűbb, ha a bennük kapott Z-ket is véletlenszerű eloszlásúnak tekintjük mínusz végtelen és 1,65 között. „Véletlenszerű eloszlás” itt természetesen a standard normál eloszlást jelenti, mivel a véletlenszerű találgatásból a találatszámok Bernoulli-eloszlásán át Gauss-eloszlás, majd abból a (2.13) képlet alkalmazásával standard normál eloszlás következik. Használhatjuk tehát a standard normál táblázatot. Azt a Z-értéket kell megkeresnünk, amelytől balra egészen mínusz végtelenig ugyanakkora a görbe alatti terület, mint jobbra 1,65-ig: ettől a Z-től kapunk ugyanakkora összesített Z-értéket balra és jobbra, más szóval, ez lesz az átlag. A feladat igazán nem nehéz. Az 1,65-től balra eső teljes terület 0,95, hiszen az 1,65-ös küszöbértéket pont ebből kaptuk. 0,95 fele 0,475. Ehhez nyilván negatív Z tartozik, mivel a mínusz végtelentől 0-ig tartó szakasz fölött pont 0,5 terület van. A táblázat csak pozitív Z-ket mutat, de sebaj: tudjuk, hogy a Gauss-görbe nullára szimmetrikus, tehát a mi negatív Z-nk abszolút értéke ott lesz, ahol a terület jobbról odáig 0,475. Ez a „jobbról odáig” a táblázaton mint „tail p”, farok-valószínűség szerepel, és ahol a tail p = 0,475, ott Z = 0,06. (Tessék ellenőrizni, mert én néha hibázok csupa pedagógiából!) Ez a -0,06 tehát a fiókban maradt kísérletek összesített Z-je.
Most akkor van n+N próbánk, amelyek összesítve 1,65-ös Z-t adnak. A publikált, illetve a fiókban maradt kísérletek találatszámát jelöljük k-val, illetve K-val az eddig követett kisbetű-nagybetű konvenció szerint; így a teljes n+N próbában a találatszám k+K lesz. Alkalmazzuk a (2.13) képletet, ezúttal folytonossági korrekció nélkül, mert itt olyan sok próba van, hogy a korrekció hatása elhanyagolható. A teljes n+N próba 1,65-ös Z-je a találatszámokkal így fejezhető ki (2.13) szerint:

1,65 = (k+K-(n+N)(1/5))/√((n+N)(1/5)(4/5))                (2.25)

Most jobb oldal betűit sorra számszerűsítjük, felhasználva a birtokunkban lévő információkat, míg egyedül N marad ismeretlen, és akkor azt a kapott egyenletből ki tudjuk számítani.
k értéke abból jön ki, hogy ismerjük a mért z-t: ez nem más, mint amit a 2.41 alfejezet végén kiszámítottunk, becsléssel a 2.9 ábra hibasávjaiból, és Z(össz.)-nek neveztünk. Nagysága 18. Ismét a (2.13) képletből a következő egyenletet kapjuk:

18 = (k – 906000/5)/√(906000*(1/5)*(4/5))                (2.26)

Innen k = 188053.
K-t nem tudjuk pontosan kiszámítani, mert nem ismerjük a fiókban maradt próbák N számát (pont azt keressük), de algebrailag kifejezhetjük N függvényében, hogy aztán így behelyettesítsük (2.25)-be, ahol N úgyis ottmarad ismeretlennek. A publikálatlan kísérletek összesített Z-jére az imént meghatároztuk a 0,06 értéket, ezzel

0,06 = (K – N/5)/√(N*(1/5)*(4/5))                (2.27)

Innen

K = 0,06√(N*(1/5)*(4/5)) + N/5 = 0,024√N + N/5                (2.28)

Ezen a ponton javaslok egy kis egyszerűsítést. Nem tudjuk ugyan, hogy N mekkora, de biztos elég nagy ahhoz, hogy N/5 mellett 0,024√N számottevő hibaokozás nélkül elhanyagolható legyen. (Ha pl. N kb. egyenlő n-nel, akkor N/5 = 181200, míg 0,02√N = 22,8.) Így megegyezhetünk abban, hogy

K = N/5                (2.29)

Most bepakolunk (2.25)-be mindent, amit eddig kiszámítottunk vagy N-nel kifejeztünk:

1,65 = (188053 + 0,2N-(906000+N)/5)/((2/5)√(906000+N))                 (2.30)

Néhány algebrai átalakítás után kapunk egy meglepően egyszerű egyenletet:

√(906000+N) = 10383                (2.31)

Most már csak mindkét oldalt négyzetre kell emelni, és íme:

N = 106 907 611                (2.32)

Ellenőrzésül ezt a számot visszahelyettesíthetjük a (2.25) képletbe, együtt k és n ismert értékeivel (188 053, illetve 906 000), és ha tényleg 1,65 jön ki, akkor jól számoltunk.
A helyzet tehát az, hogy a 2.10 ábrán bemutatott eredmény semmissé tételéhez durván százmillió fiókban maradt próba kellett volna. Érdekes: pár bekezdéssel előbb véletlenül pont ezt a számot hoztam fel példának olyan sok publikálatlan próbára, amit már nem tekinthetünk reálisnak. És ezt a becslést abból a feltételből kiindulva kaptuk, hogy publikálatlan kísérlet sikertelen volt, azaz nem járt szignifikáns találatszámmal, vagyis az eljárásunk határozottan konzervatív: ha mégis maradt a fiókban néhány sikeres kísérlet, akkor a „kiegyenlítéshez” még ennél is több sikertelenre lett volna szükség. Az asztalfiók-hatás tehát nem elég ahhoz, hogy a Rhine laboratóriumában mért adatokat pusztán véletlen egybeesésekkel magyarázzuk. Természetesen ez csak egyike volt az alternatív magyarázatoknak, a 2.42. alfejezetben említett többi változatlanul rendelkezésre áll.

2.44. A reprodukálhatóság problémája
2.441. Egy félreértés a szignifikancia körül

A statisztikai reprodukálhatóságról van egy alapvető félreértés, amely az ember- és társadalomtudományokban eléggé elterjedt, és a pszichológián át beszivárgott a tudományos parapszichológiába is. Eszerint ha egy hatást az A kísérletben szignifikánsan kimutattak, az A-t megismétlő B kísérlet akkor tekinthető sikeres replikációnak, ha a keresett hatás abban is szignifikánsan megmutatkozott.
Kérdezhetnénk: mi ezzel a gond, hiszen igazán logikusan hangzik. Minden statisztikus vizsgálatban a leglényegesebb kérdés, hogy az eredmény szignifikáns-e; ha igen, a kapott adatok jelentenek valamit, ha nem, ki lehet dobni őket. Ez utóbbi esetben a kísérlet semmire nem jó, többek közt replikációra sem.
E felfogás egyoldalú voltát először bemutatom egy szemléltető példán, majd a témát megbeszéljük általánosságban. Maradjunk az ESP-ábrás kísérleteknél, mert ezeket már jól ismerjük. Tegyük fel, hogy X kutató replikálni akarja a 2.10. ábrán „távolság” címszóval ellátott kísérletet. Elhelyezi a telepatikus adót és vevőt két helyiségben, szinkronizálja az óráikat, felügyelőt ültet melléjük stb., ahogy kell. Előre eldönti, hogy a Rhine-féle hagyományt követve a véletlen hipotézis elvetési küszöbét α = 0,05 hibavalószínűségre állítja be. Eldönti továbbá, hogy a kísérlet négy darab 25-próbás menetből áll majd. (Már tudja jól, hogy a próbák számát mindig előre kell eldönteni.) Oké, minden lezajlik, és kijön 27 találat. Alkalmazza a Z-próbát: a találatszám szórása √(100*(1/5)*(4/5)) = 4, majd ezzel Z = (27 – 20 – 0,5)/4 = 1,625. A 0,05-ös szignifikanciahatár Z = 1,65, mint tudjuk. Így hát ez az 1,625 bizony nem szignifikáns. Úgy látszik, gondolja X szomorúan, valamit nem csináltam jól... Vagy csak megint megnyilvánult a telepátia notórius tünékenysége, amire a kollégák már olyan sokat panaszkodtak régebben is.
X-nek természetesen igazat kellene adnunk, ha a szóban forgó kísérlet a maga nemében az első lett volna. Akkor egy 1,625-ös Z a szakma jól bevált konvenciója szerint azt jelentené, hogy itt nem érdemes mást feltételeznünk véletlen egybeeséseken kívül, és ennyi. Csakhogy itt már voltak nagy távolságú telepátia-kísérletek, összesen 164 000 próbával és összesítésben 21,5% találataránnyal (2.10 ábra). Egy kicsit körültekintőbb kutatónak ezért eszébe juthat: ugyan nézzük már meg, hogy ha az én adó – vevő párom szintén tudná ezt a 21,5% találatarányt produkálni, mekkora esély volna rá, hogy 100 próbájuk szignifikáns eredményt ad?
Hát most megnézzük; ígérem, nem lesz túl komplikált. Ha a találatarány várható értéke 21,5%, akkor 100 próbában a találatszám várható értéke természetesen 21,5 és szórása √(100*0,215*0,785) = 4,1. Így a találatszámok eloszlása Gauss-közelítésben a 2.11 ábrának megfelelően néz ki. (A beszürkített területtel egyelőre ne törődjünk.)

2.11 ábra. A találatszámok eloszlásának Gauss-közelítése 100-próbás, 21,5% várható találatarányú kísérletben.

Hol van X kísérletében az 5%-os szignifikanciahatár? Az ő nullhipotézise szerint a várható érték természetesen 20 találat, a szórás pedig 4, ezért a Z = 1.65-nek megfelelő találatszámot az

1,65 = (K – 20 – 0,5)/4                (2.33)

egyenletből lehet meghatározni. Az eredmény K = 27,1. Ő akkor kap szignifikáns eredményt, ha a találatszám ennél nagyobb, vagyis legalább 28. (Emlékszünk, a valóságban 27-et kapott, és azzal majdnem elérte az 1,65-ös Z-t.) Mekkora ennek a „legalább 28”-nak a valószínűsége? Ott az ábrán beszürkítve: máris látszik, hogy nem valami sok. És ha kiszámítjuk a 28 találatnak megfelelő Z-t, majd az annak megfelelő területet (most természetesen nem a nullhipotézis, hanem a valóság szerint), akkor Z(28) = (28 – 21,5 -0,5)/ 4,1 = 1,46-ot és abból 0,072 valószínűséget kapunk. Magyarul: még ha X mérőpárja tényleg képes volt is telepatikus kapcsolatba lépni egymással, mégpedig ugyanolyan hatékonyan, mint annakidején Rhine emberei a nagy-távolságú kísérletekben, neki most szignifikáns eredmény elérésére mindössze 7,2% esélye volt!
Ráadásul vegyük észre: százból 27 találat igazából sokkal nagyobb találatarány az eredetinél, 21,5%-kal szemben 27%. Nem igazságtalan dolog tehát X részéről, ha kudarcát a kísérleti személyek tehetségtelenségének vagy a telepátia „tünékenységének” tulajdonítja? Ők igazán igyekeztek, ahogy jelzi a 27%-os találatarány. Inkább önmagát kellene okolnia: a kísérletet eleve úgy tervezte meg, hogy a sikerre alig volt remény. Ezt a 7,2% valószínűséget, amire reálisan számítani lehetett, ő maga előre kiszámíthatta volna, hiszen ismerte a Rhine-intézetben kapott 21,5%-os találatarányt. És ha megteszi, rögtön kiderül, hogy ekkora várható találatarány mellett 100 próba messze nem elég.
Gyakorlásnak még gyorsan számítsuk ki, mekkora a siker valószínűsége egy ugyanilyen, de 1000-próbás kísérletben. Itt a találatszám várható értéke 215, szórása √(1000*(1/5)*(4/5)) = 12,65. A (2.33) egyenletből a mostani adatokkal az 5%-os szignifikanciahatár 226 találat; ezzel Z(226) = (225,5 – 215)/12,65 = 0,83, majd innen a terület 0,20. Még mindig csak húsz százalék! Minden öt 1000-próbás kísérlet közül átlag négyben nem lesz szignifikáns eredmény akkor sem, ha a részvevők ugyanúgy képesek telepatikus kapcsolatra, mint Rhine adói és vevői. Ugorjunk egy nagyot, és nézzük meg 10 000 próbával: nem részletezem, az eredmény 98%. Ez végre már olyan, amibe érdemes belefogni, persze felszerelkezve több hónapra való élelemmel...
Remélem, a fő tanulság mindenkinek világos: az elért szignifikanciaszint nemcsak a részvevők teljesítményétől függ, hanem a mért statisztikai minta méretétől is. Jelen esetben a próbák számától. Ezért félrevezető a szignifikanciaszintet önmagában a siker mértékének tekinteni, a mintaméret figyelembe vétele nélkül. És ugyanezért természetesen az is félrevezető, ha a replikáció sikerét az elért szignifikanciaszinthez kötjük.

2.442. A statisztikai hatásméret
Rendben van, akkor hát megegyezünk, hogy nem kötjük ahhoz; de valahogy mégiscsak illik eldöntenünk, hogy egy adott replikáció sikeres volt-e. És egyáltalán, jó lenne egy statisztikusan mért változót valami olyan mérőszámmal jellemezni, ami egyrészt nem érzékeny a minta méretére, másrészt elég általános ahhoz, hogy sok különböző változóra alkalmazható legyen. Ha lenne egy ilyen mérőszámunk, akkor a replikációt, azaz két kísérlet eredményének azonosságát, ennek a mérőszámnak az azonosságával definiálhatnánk.
Egyetlen kísérlettípuson belül persze nincs gond: ott rendelkezésünkre áll az eredeti mért változó, ESP-ábrás kísérletekben például a találatarány. Ha az eredeti kísérletben mondjuk N1 = 400 próba és k1 = 96 találat volt, az ismétlésben pedig N2 = 600 próba és k2 = 140 találat, akkor az első p1 = 0,24 és a második p2 = 0,233 találatarányát közvetlenül összevethetjük; hogy erre milyen statisztikai próba alkalmazandó, azt nemsokára megmutatom. A kutatóknak azonban ez a megoldás nem elég, ők szeretnék olyan kísérletek eredményét is összehasonlítani, amelyek közvetlenül nem ugyanazt a mennyiséget mérik. A tudományos parapszichológián belül maradva: később szó lesz például képátviteles telepátiáról, ahol nem előre rögzített ábrák vannak, hanem az átadandó kép bármi lehet; ott a kísérlet eredményét (az alkalmazott elemzési módtól függően) nem mindig jellemezhetjük találataránnyal, a siker nagyságát mégis jó lenne valahogy összevetni a választásos kísérletekével.
Van egy statisztikai változó, az a bizonyos (a nullhipotézis szerint standard normál eloszlású) Z, amit az elemzés során szinte mindig be szoktunk vezetni. Így célunknak ő annyiban megfelel, hogy elég általános. Annyiban viszont nem, hogy függ a mintamérettől, akárcsak a szignifikanciaszint. Az iménti két kísérlet közül például az elsőben Z1 = (96 – 400/5 – 0,5)/√(400*(1/5)*(4/5)) = 1,9375, a másodikban Z2 = (140 – 600/5 – 0,5)/√ (600*(1/5)*(4/5)) = 1,99. Vagyis míg találatarány szerint az első kísérlet volt sikeresebb, Z szerint a második, nyilvánvalóan a több próba miatt.
Csinálni kellene valamit ezzel a Z-vel, hogy ugyanúgy viselkedjen, mint a találatarány, vagyis hogy pusztán a mintaméret ne befolyásolja. Ehhez érdemes megvizsgálnunk, hogy egyáltalán hogyan függ a mintamérettől. Ha a (2.13) képletbe betesszük a binomiális kísérlet paramétereit (2.17) és (2.22) szerint, a következőt kapjuk:

Z = (k – Np)/√(Np(1-p)                (2.34)

A találatarány, ugye, k/N. Ezt úgy lehet a képletbe becsempészni, hogy a számlálót és a nevezőt egyaránt elosztjuk N-nel:

Z = (k/N – p)/√(p(1-p)/N)                (2.35)

A nevezőt valamivel osztani ugyanaz, mint a számlálót (vagyis az egész kifejezést) ugyanazzal szorozni. Jelen esetben √N-nel. Ezért (2.34) egyszerűbben így írható:

Z = (√N)(k/N – p)/ √(p(1-p))                (2.36)

Látszik, hogy Z majdnem arányos a k/N találataránnyal, helyesebben annak többletével a véletlen találatarányhoz képest; ha nem lenne √N-nel megszorozva, akkor tökéletesen arányos lenne. Definiáljunk hát egy új változót, amelynek értéke Z/√N: ez a változó N növekedésével se lemaradni nem fog a találatarány többlete mögött, se megelőzni nem fogja azt. Ugyanakkor mivel nem a találatarányból számítjuk ki, hanem Z-ből, másfajta (nemcsak binomiális) kísérletekre is általánosítható.
Ennek az új változónak a neve hatásméret, az angol szakirodalomban „effect size”. Jelölése az utóbbiból ES. Mivel Z-től csak egy olyan szorzótényezőben különbözik (1/√N), amely nem függ a mért mennyiségtől, valószínűségeloszlásának típusa nyilván megegyezik Z valószínűségeloszlásával, várható értéke és szórása pedig Z megfelelő paramétereinek √N-ed része. Vagyis konkrétan: ES normális eloszlású, várható értéke a nullhipotézis szerint 0 és szórása 1/√N, ahol N a próbák száma.
Számítsuk ki a hatásméreteket az előbbi példában, ahol Z1 = 1,9375 és Z2 = 1,99 volt! Tudjuk, hogy N1 = 400 és N2 = 600, tehát ES1 = 1,9375/√400 = 0,097 és ES2 = 1,99/√600 = 0,081. Annak eldöntéséhez, hogy a második kísérlet sikeres ismétlése-e az elsőnek, erről a két hatásméretről kell megállapítanunk, hogy a statisztikai bizonytalanságon belül egyenlők-e. Ha igen, akkor a második kísérletet elfogadjuk replikációnak, ha nem, akkor nem fogadjuk el.
Érdemes megjegyeznünk, hogy hatásméretnek több más statisztikai változót is hívnak, szakterülettől és kísérlettípustól függően. Közös jellemzőjük, hogy a közvetlen mért változónál általánosabban használhatók. Akit ez a téma bővebben érdekel, legegyszerűbben úgy informálódhat, hogy az interneten rákeres az „effect size” címszóra, itt rengeteg találatot fog kapni.

2.443. Két kísérlet mennyiségi összehasonlítása
A 2.41. alfejezetben ismertettem a normális eloszlású változók összegére vonatkozó tételt, miszerint az összeg eloszlása szintén normális, várható értéke egyenlő a tagok várható értékének összegével, szórásnégyzete pedig a tagok szórásnégyzetének összegével. Ezt a tételt felhasználva a hatásméretek azonosságára igen egyszerű statisztikai próbát végezhetünk.
ES1 és ES2 akkor egyenlő, ha ES1 - ES2 = 0. Definiálunk tehát egy olyan ESD különbségi változót (az ilyeneket rendszerint d vagy D hozzátevésével jelöljük a „differencia” szó nyomán), amely algebrailag egy összeg, és két összeadandó tagja ES1 és -ES2. Nullhipotézisünk az, hogy ESD = 0. Az összegekre vonatkozó tétel szerint ESD eloszlása normális, várható értéke közvetlenül a nullhipotézisből 0. És mennyi a szórása? Mivel az összeg-tétel szerint ilyenkor a szórásnégyzetek adódnak össze, ESD szórásnégyzete 1/N1 + 1/N2, szórása tehát √(1/N1 + 1/N2), esetünkben √(1/400 + 1/600) = 0,065. ESD mért értéke ES1 - ES2 = 0,097 – 0,081 = 0,016. Ez bőven belül van még saját egyszeres szórásán is, tehát nem különbözik szignifikánsan a nullától. A következtetés: példánkban a második kísérlet sikeres ismétlése az elsőnek.
E pillanatban úgy tűnik, a replikáció sikerének eldöntésére találtunk egy jó eljárást, a hatásméretek egyenlőségének statisztikai próbáját. Most megmutatom egy példán, hogy ez az eljárás sajnos szintén félrevezető lehet.

2.444. A véletlen replikációja
Tegyük fel, hogy ESP-ábrás kísérletben A elvégzi az előbb már példának választott 400-próbás kísérletet, és kijön neki 94 találat, amiből a megfelelő Z-érték 1,6875. Az eredmény tehát 0,05 szinten szignifikáns. Utána B egy szintén 400-próbás kísérletben 81 találatot ér el. Erre a Z-érték (tessék utánaszámolni!) 0,0625. Ez ugyan messze nem szignifikáns, de mi már tudjuk, hogy replikációnál a lényeg nem a szignifikancia, hanem a hatásméretek egyenlősége. Oké, hát lássuk a hatásméreteket: ES1 = 0,6875/√400 = 0,084 és ES2 = 0,0625/√400 = 0,003. Különbségük ESD = 0,084 – 0,003 = 0,081. A hatásméretek szórásnégyzete most egyenként 1/400, ESD szórásnégyzete így 2/400, azaz ESD szórása √(2/400) = 0,07. Így, ha ESD-re alkalmazzuk a Z-próbát, Z(ESD) = 0,081/0,07 = 1,15. Mivel ez nem szignifikáns, B elégedetten nyugtázhatja, hogy az ő hatásmérete nem különbözik A-étól, tehát replikációja sikeres volt.
Nézzük meg azonban, mi a helyzet, ha A és B kísérletét egyetlen közös kísérletnek tekintjük: vajon annak eredménye bizonyítja-e telepátia jelenlétét? Ebben a közös kísérletben a próbák száma 800, a találatok száma 94 + 81 = 175, és ezekből Z = (175 – 800/5 – 0,5)/√(800*(1/5)*(4/5)) = 1,28. Ez bizony jócskán elmarad a 0,05-ös szignifikanciahatártól, ami (néhányan már talán fejből tudják) 1,65. Ha a két kísérlet körülményei azonosak voltak, és feltételezhetjük, hogy eredményük csak a statisztikus ingadozás miatt különböző, akkor ketten együtt valószínűvé teszik, hogy az első szignifikáns eredménye véletlen volt, más szóval, az 5% valószínűségű elsőfajú hiba realizálódott benne. A második kísérlet tehát a hatásméretek nemszignifikáns különbsége alapján sikeresen replikálta az elsőt, ám valójában azt mutatta meg, hogy valószínűleg már az első kísérlet eredménye is véletlen volt; így amit sikeresen replikált, az egy véletlen (telepátia nélküli) eredmény.
Vegyük észre: a két hatásméret összevetéséhez alkalmazott Z-próba eleve igen gyenge arra a célra, hogy egy létező különbséget kimutassunk. Ha ugyanis e próba alkalmazásakor az elsőfajú hiba valószínűségét (α) 5%-ra vagy annál kisebbre állítjuk be, a másodfajú hiba valószínűsége (β) viszonylag nagy lesz. Miért? Kis α azt jelenti, hogy a nullhipotézist – esetünkben a két ES azonosságát – erősen kitüntetjük az ellenhipotézishez – esetükben a két ES különbözőségéhez – képest: csak akkor vetjük el, ha ezzel mindössze α valószínűséggel hibázunk. Így aztán az elvetésre addig nincs esélyünk, amíg a két ES különbsége igen nagy nem lesz. Nézzük meg a példát: itt ES2 csupán 0,003 volt, mégis a próba alapján azonosnak kellett tekintenünk a 0,084-es ES1-gyel. Ezek a statisztikai próbák jogosan ilyen konzervatívak akkor, ha a nullhipotézis valamilyen ésszerű okból tényleg kitüntetett, mint például ha arról van szó, hogy létezik-e az apriori kétségtelenül valószínűtlen telepátia. Ugyanez a konzervatív jelleg viszont indokolatlan olyan esetekben, amikor a két versengő hipotézis közül egyik sem eleve valószínűbb a másiknál. Most pont ez a helyzet, mert egy kísérlet replikációja lehet éppúgy sikeres, mint sikertelen, nincs okunk rá, hogy a sikerességnek eleve nagyobb esélyt adjunk.
Mi következik ebből? Bármilyen sajnálatos, a replikáció sikerét éppúgy nem célszerű pusztán a hatásméretek statisztikai egyenlőségével mérni, mint a replikáló kísérlet eredményének szignifikanciaszintjével. Mindkettő ad hasznos információt, használják is mindkettőt, de a körülményektől függően félrevezetők lehetnek. A szignifikanciaszint alapján hajlamosak vagyunk sikertelennek ítélni olyan replikációkat, amelyekben a minta viszonylag kicsi volt, de maga a mért hatás nem maradt el az eredeti kísérletben mért hatástól; a hatásméretek egyenlősége alapján pedig hajlamosak vagyunk sikeresnek ítélni olyan replikációkat, amelyekben a mért hatás sokkal kisebb volt az eredetinél, de a próba konzervatív jellege miatt ez nem derülhetett ki.
Saját javaslatom ilyen esetekben az, hogy egyesítsük az eredeti kísérlet és a replikáció adatait, és a kettőt együtt fogadjuk el sikeresnek akkor, ha az egyesített eredmény is szignifikáns. Ugyanez érvényes értelemszerűen akkor is, ha nem egy, hanem több replikációról van szó, illetve ha több olyan kísérletet akarunk értékelni, amelyek ugyanazt a hatást mérik. Az ESP létezésére vonatkozóan pont ezt tettük a 2.41. alfejezetben, ahol az eredményt a 2.10. ábra mutatta be. Az ott kapott Z = 18 meggyőzően bizonyítja, hogy amit a Rhine-intézet kísérleteiben kimutattak, az legalábbis a saját intézetükön belül reprodukálható volt annyira, amennyire egy statisztikai eredmény reprodukálható lehet. Hogy aztán ez tényleg ESP volt-e, az már nem statisztikai kérdés.
Akit a statisztikai replikáció kérdése mélyebben érdekel, olvasásra ajánlom Rosenthal (1986) és Utts (1986) cikkét a 7. fejezetben tárgyalandó ganzfeld-kísérletekkel összefüggésben.