Információ, adat, jel

2014.11.29 20:26

Korunkban, amikor az informatika szédületes fejlődése az egész társadalmat átalakítja, amikor az információs társadalomról, mint tényről beszélünk, az információ fogalmát még gyakran sokértelműség zavarja.

Az alábbiakban elkülönítjük az információ szó legfontosabb jelentéseit. Mivel az információt mindig jelek, jelsorozatok, jelhalmazok „hordozzák” először a jellel foglalkozunk.

 

A jel fogalma

A legtöbb meghatározás összhangban van a következő nagyon általános megállapítással: a jel valami mást helyettesít, mint önmaga. Pontosabban fogalmazva ez a jelölő vagy más szóval jeltest, amit reprezentál az a jelölt vagy a jel tárgya, a helyettesítés pedig egy szabály, törvény alapján történik. Összefoglalva:

A jelölő az a jelenség, tárgy, ami valami mást a jelöltet (a jel tárgyát) valamilyen szabály szerint helyettesíti, reprezentálja. A jelölő, a jelölt és az összekapcsoló szabály együtt alkotják a jelet. Ebben a felfogásban a jel egy reláció, amelynek konkrét tartalma rendkívül sokféle lehet. 

Jelentésről csak humán (vagy más) értelem, ill. informatikai értelmező közösség (közeg) esetében beszélhetünk. A jelben a jelölt, a jel tárgya a jelentés forrása.

Az általános jel fogalma elvben tartalmazza az élettelen és élő természetben található természeti jeleket, a technológiában és technikában előforduló mesterséges technikai jeleket, és a társadalomban használatos humán jelformákat. Ennek megfelelően nincs leszűkítve az érzékelhető vagy a nyelvi jelek halmazaira. 

A jel kifejtése; kódolása/dekódolása, átalakítása, komputációja, hatása, valamint az ember esetében jelentésének értelmezése, mindig valamilyen informatikai közegben; információtechnikai környezetben, szoftverkörnyezetben, sejtben, élőlényben, állatközösségben, speciálisan „humán társas közegben” történik. Az informatikai közeg nélkül a jel nem jel, csupán egy jelölő, mert nem történik meg a jelölő és a jelölt összekapcsolása, nem történik meg a jel kifejtése például biológiai környezetben vagy számítógépben, illetve nem történik meg annak értelmezése humán környezetben.

Különös jelentőségük miatt emeljük ki azokat a jelfajtákat, amelyek bárminemű emberi kommunikációban (esetleg a fejlettebb állatok kommunikációiban) jelentős szerepet játszanak! Nevezzük ezeket humán jeleknek. A humán jelek esetében megjelenik a jeltárgy reprezentációja (és asszociációi), a pszichikumban, az agyban, amelyet a jel jelentésének nevezhetünk.

A jelentés, első közelítésben az, amire gondolunk, amit érzünk, amikor a jelet (jelölőt) észleljük. E jelentés legfontosabb eleme az eredeti jelből a jel tárgyának a jelöltnek, agyi reprezentációja. A jelentés tehát a mentálisan felfogható jeleknek egy fontos velejárója, amely egy mentális megértési folyamat kezdetét is jelenti. Egyébként a jel teljes jelentése a megértési folyamat során bontakozik ki. A humán jel alapvetően interszubjektív jellegű entitás, mégis annak jelentése, függhet a szubjektumtól és a kontextustól is, ezért fontos a kommunikáció során a jelentések minél pontosabb és egységesebb konvenciója.

A jelekről bővebben „A jel definíciója …” című írásban olvashat.

Az információ szónak emeljük ki néhány gyakori jelentését és különítsük el egymástól! Az elkülönítés nem lesz nehéz, mert ezek a jelentések lényegesen különböznek.

 

Az adat és adatmennyiség

Ez a legegyszerűbb, talán nem is kellene ide sorolni. Az információt néha az általános adat értelemben használják, amit ha tudunk mérni, akkor adatmennyiségről is beszélhetünk. Az adat (legtöbbször valamilyen jelrendszerben ábrázolt) jelek sorozata, halmaza.  Az adat általában dolgokra azok tulajdonságaira, kapcsolataikra vonatkozó ismeret, valamilyen jelekkel ábrázolva. Az adatnak általában van jelentése, de a számunkra nem érthető, vagy értelmetlen jelhalmaz is adat, tehát nem foglalkozunk a jelentéssel. Adatnak tekintjük akkor is, ha nem igaz, vagy ha hibás a jelsorozat. Megjegyezzük, hogy az informatikának ez az adatfogalma általánosabb (több mindent magában foglal), mint a számítástechnikának a hagyományos adatfogalma. Ennél speciálisabb definíciókra most nem térünk ki. Lássuk az adatmennyiség meghatározását!

Az adatmennyiség az a mennyiség, azaz mérőszám és mértékegység, amely a jelek számát méri valamely alapul választott jelrendszerben és a neki megfelelő mértékegységben. Egysége a bit, amely egy darab bináris jel adatmennyisége.

A bináris jel olyan jel, amelyből kétféle van. Például + és – , pont és vessző, 0 és 1. Az adatmennyiségnek tehát van mérőszáma és mértékegysége, ez utóbbi a bit és a byte, valamint ezek többszörösei. (1 byte=8 bit) Az adatmennyiség egyszerű jól definiált fogalom. Semmit sem számít, hogy az adatot reprezentáló jelek és jelhalmazok milyen valószínűséggel fordulnak elő vagy, hogy mit jelentenek vagy, hogy jelentenek-e egyáltalán valamit. Lehetnek értelmetlenek is.

Az adatmennyiség azért tekinthető informatikai és jelelméleti szempontból általános és hasznos fogalomnak, mert gyakorlatilag mindenféle (érzékelhető vagy csak fizikailag mérhető) jel átalakítható digitális jellé, amely bináris egységekben már egyszerűen mérhető. Erről bővebben az adatmennyiség című cikkben olvashatunk.

 

Az információ mennyiségi bevezetése

R. V. Hartley 1928-ban javasolt formulája szerint egy n elemű X halmaz egy elemének azonosításához i = log n mennyiségű információra van szükség. A szemléletesség kedvéért e halmaz elemei lehetnek például jelek vagy jelsorozatok, amelyek különböző híreket reprezentálnak. Az információ a lehetséges elemek számának (n) logaritmusával arányos. Legtöbbször kettes alapú logaritmust használunk, és az ebből adódó bináris információ egységet a bit-et.

A formula szemléletes tartalma az, hogy i hosszúságú (darabszámú) bináris jelsorozattal éppen i bitet tudunk tárolni és n=2i halmazelemet (hírt) tudunk reprezentálni (megjelölni, kódolni), azaz i=log2 n. i-nél kevesebb bináris jel már nem elég a kölcsönösen egyértelmű ábrázoláshoz.

A gyakorlatban az egyes hírek, az X halmaz elemei nem azonos valószínűséggel fordulnak elő, és a váratlanabb kis valószínűségű elemnek (hírnek) nagyobb információt tulajdonítunk. Shannon ezt is figyelembe vette az egyedi információ definiálásakor. Ha az X halmaz k-adik elemének (xk-nak) az előfordulási valószínűsége pk akkor az azonosításához szükséges egyedi információ (definíció szerűen) ik = log (1/pk). Speciális esetben, ha minden elem előfordulási valószínűsége azonos, azaz pk=1/n, visszakapjuk a Hartley-formulát.

 

A Shannon-féle entrópia
(információmennyiség)

Mivel a gyakorlatban statisztikai sokaságokkal van dolgunk, a különböző egyedi információk helyett célszerűbb azok várható értékével számolnunk.

Tételezzük fel, hogy egy n elemű X jelhalmaz elemei függetlenek és rendre p1, p2, … pn valószínűséggel fordulnak elő (és a pk összeg egyenlő egyel), ekkor az egyedi információmennyiségek {log2 (1/pk)} várható értéke definíció szerint:

H = Szum( pk*log2 (1/pk) ), ahol összegezni kell k=1-től n-ig. H a Shannon-féle entrópia, vagy az információ várható értéke.

A képlet formailag azonos a statisztikus fizika entrópia képletével, és a jelentése is hasonló.

Az információt gyakran ebben az információmennyiség értelemben használjuk. Ha mindössze két elemünk van n = 2 (például két lehetséges hír) és azonos valószínűségűek p1 = p2  = 0,5, akkor a képletből adódóan  H = 1 bit.

Fontos, hogy információmennyiségről csak akkor beszélhetünk, ha a lehetséges elemek X halmaza és az elemek előfordulási valószínűségei is adottak. Tehát az információmennyiséget sok esetben lehet mérni, van mérőszáma és mértékegysége. Talán nem szerencsés, hogy a mértékegységét ennek is bit-tel jelöljük, mint az adatmennyiség egységét.

Az információmennyiség már nem olyan egyszerű fogalom, mint az adatmennyiség. Ismernünk kell a jelek előfordulásának valószínűségeit, de ezek ismeretében az információ magasabb matematika nélkül is kiszámítható. Mivel sok gyakorlati esetben nem ismerjük a jelek előfordulásának valószínűségeit, az információmennyiséget sem tudjuk kiszámolni. Érdekes és fontos, hogy az információ kiszámításánál nem játszik szerepet az üzenetek jelentése.

 

Mivel egy jel előfordulásának valószínűsége általában különbözhet jelentésének valószínűségétől, ezért (ha ez egyáltalán kiszámítható) különbséget kell tennünk a jelentés információmennyisége és a jelsorozat, a hír információmennyisége között. Ezekre más-más statisztikák (valószínűségi eloszlások) vonatkozhatnak. Ezt nem szokás megkülönböztetni, talán azért, mert a jelentés információmennyiségét gyakran nem lehet kiszámítani. Ritkán állapítható meg, hogy milyen statisztikát követ. (Mégis gyakran példálóznak vele, összekeverve a két fogalmat.)

 

Gondoljuk csak meg, ha egy esemény (ez a jel jelentése) ugyan gyakran bekövetkezik, de nem tárgya az információs csatornánknak (például nem beszélünk róla, ritkán jut tudomásunkra…), akkor a szóban forgó eseményt reprezentáló jel megjelenésének valószínűsége sokkal kisebb, mint az esemény valószínűsége. Ebből pedig az következik, hogy a kétféle információmennyiség jelentősen különbözik.

A jelentések valószínűségeit – néhány mesterséges szituáció kivételével – a valóságban nehéz meghatározni, illetve nem is tudjuk kiszámolni.

 

{Érdekes, hogy mivel a jelben a jelölő és a jel tárgya valójában lehet ugyanaz a dolog, azaz bármilyen dologra, mint önmagát reprezentáló jelölőre (jelre) tekinthetünk, a Shannon-féle entrópia érvényes mindenféle fizikai valószínűségi sokaságra is. Ebből adódóan tetszőleges anyag (stat. fizikai) entrópiája átszámolható információmennyiségre. A számszerű összefüggést a magyar származású zseniális Szilárd Leó fizikus vezette le fizikai törvényekből, jóval (kb. két évtizeddel) az információmennyiség Shannon-féle bevezetése előtt.}

 

A szemantikai információ

Első pillanatban az meglepő, hogy az információ kiszámításánál nem fontos a jelentés! Az információelmélet megalapozói (Claude E. Shannon és mások…) szerint nem. Talán nem véletlen, hogy csodálkozunk, hiszen ha információról beszélünk gyakran nagyon is fontos a konkrét jelentés. A következőkben a szemantikai információról lesz szó.

Ebben az esetben az információt, mint az előzetes ismeretekhez képest új ismeretet határozhatjuk meg.

Itt tehát fontos a jel vagy jelhalmaz jelentése, illetve annak kifejtése, hiszen e nélkül nem tudhatjuk, hogy mi az ismeret és azt sem, hogy új-e. Általános értelemben információ az adatokon végrehajtott gondolkodási vagy algoritmikus műveletek eredménye, ha az új ismeretet reprezentál.

Ha valamilyen okból az adatot (jeleket) nem tudjuk értelmezni, ill. dekódolni, akkor nem kapunk ismeretet. Ha az előzetes ismereteinkhez képest az ismeret nem új, akkor nem kaptunk információt. Megjegyezzük, hogy ugyanaz a jelsorozat különböző értelmező informatikai közegek (ill. kontextusok) számára hordozhat eltérő információt, tehát fontos a jelek értelmezése, kifejtése.

 

Előfordul az is, hogy az információt nem kötik az újdonsághoz, különösen a hétköznapi szóhasználat során. Csupán annyit követelnek meg, hogy dekódolható ismeret legyen, hogy az adat (jelsorozat) értelmezhető legyen, jelentéssel bírjon, illetve ez a dekódolás, műveletvégzés, kifejtés, értelmezés meg is történjen. Az információt tehát kifejtett, értelmezett adat, illetve jelhalmaz értelemben is használjuk.

 

Megjegyezzük, hogy az információra szokás úgy is tekinteni, mint olyan komplex fogalomra, amelynek öt szintje van, ezek: a statisztika, a szintaxis, a szemantika, a pragmatika és az apobetika. Ennek részletezésével nem foglalkozunk.

 

Végh András