10. szám --[ címlap | impresszum | keresés | mutató | tartalom ]

GOLDEN Dániel - TÓTH Tünde - TURI László
Virtuális örökkévalóság: objektumok a digitális könyvtárban

Elõzetes megjegyzések
1. Bibliográfiai szabványokról röviden
Digitális objektumok
A digitalizált szöveg
Nem-szöveges objektumok
Javaslat helyett
Felhasznált irodalom

A tanulmány a Neumann Kht. megbízásából készült.
(1.0 verzió, 1998 március)

1. Elõzetes megjegyzések

Tanulmányunk szempontjából digitális könyvtárnak nevezünk minden olyan szervezetet, amely digitalizált formában gyûjt, õriz, katalogizál és az olvasók számára hozzáférhetõvé tesz publikált vagy kéziratos mûveket, függetlenül attól, hogy azokat eredetileg is digitális formában készítették-e. A mûvek köre éppen olyan tág lehet, mint a hagyományos könyvtárakban: a folyóiratoktól a monografikus mûveken át a hangzó és képi anyagokig bármi. A digitalizálás formája és módja is rendkívül sokféle, bár a gyakorlat egyre inkább egységesül, kialakulnak a szabványos, illetve konvencionális eljárások.

A digitális könyvtár tárgyait -- William Y. Arms nyomán -- digitális objektumoknak nevezzük, melyekben megkülönböztetjük az adatot és az azt leíró metaadatot. E megkülönböztetésre azért van szükség, mert a mûfajok, nyelvek és kultúrák, valamint a hardver/szoftver eszközök állandó fejlõdése következtében a digitalizált anyagok napjainkra rendkívül nagy változatosságot mutatnak. A szabványosított formátumú metaadatok feladata a rendteremtés e sokféleségben.

Bár a digitális objektumok rögzítési szabványai is lehetõvé teszik a leíró-jellegû katalógus-adatok rögzítését, úgy véljük, célszerû megõrizni a hagyományos könyvtárakból ismert, a tárgyaktól fizikailag elkülönítve kezelt, önálló katalógus-adatbázisok rendszerét. Azaz szabványos formátumú bibliográfiai leíró adatbázisokat és ugyancsak szabványos formában rögzített digitális objektumokat kell létrehozni.

A digitális objektumokkal kapcsolatos metaadatok szabványosításának helyzete azonban majdnem olyan változatos képet mutat, mint maguk az adatformátumok. A Berkeley Digitális Könyvtár kutatói nyolc jelentõsebb szabványt, illetve szabványjavaslatot különböztetnek meg, bár csoportosításuk vitatható. Az alábbiakban a Berkeley-féle lista segítségével -- ám nem pontosan követve azt -- áttekintjük az egyes szabványokat. E szabványok többségének kizárólag a digitális objektum bibliográfiai leírása, katalogizálása a célja -- vagyis nem az adattartalom rögzítése -- ezért ezekkel itt csak említésszerûen foglalkozunk.

A digitális objektumok rögzítési szabványainak fejlettsége meglehetõsen eltérõ az egyes típusok között. A legkidolgozottabb a szövegek rögzítése, a leginkább változó, fejlõdõ az idõalapú mûvek (audio és video) rögzítése. Ha nem áll rendelkezésre gyártótól független rögzítési szabvány, a digitális könyvtár is kénytelen a legnépszerûbb gyártók formátumait alkalmazni. Az alábbiakban elsõsorban gyártóktól független szabványokat ismertetünk. A metaadat szabványok leírására szolgáló legelterjedtebb szabvány, vagyis a szabványok szabványa a késõbbi részletesen ismertetendõ SGML, mely elsõsorban szövegszerû formában kódolható digitális objektumok rögzítésére használható.

Éppen úgy, ahogy a hagyományos könyvtár is csak a legjobb minõségû papírra nyomott, legtartósabb fedélbe kötött könyv megvásárlását engedheti meg magának, a digitális könyvtár objektumainak rögzítése is csak információvesztés nélkül történhet. Csak olyan kódolási eljárást szabad használni, ami alkalmas az összes rendelkezésre álló információ rögzítésére, függetlenül attól, hogy erre az olvasónak éppen szüksége van-e. Nyilvánvaló, hogy az Internet mai adatátviteli kapacitása, a rendszerek inkompatiblitása még szükségszerûen határt szab az olvasó igényeinek, de ez nem szabad, hogy befolyásolja a digitális könyvtár rögzítési eljárását. A maximális hûséggel rögzített eredetibõl kell elõállítani az olvasó aktuális igényeinek, lehetõségeinek megfelelõ gyengébb minõségû vagy egyszerûbb változatot.

1.1 Bibliográfiai szabványokról röviden

Tanulmányunk elsõsorban a digitális objektumok rögzítési szabványaival foglalkozik. A digitális objektumok katalogizálásához használható szabványokról csak a teljesség kedvéért adunk rövid, utalásszerû áttekintést.

(a) Nem SGML-alapúak

MARC (Machine Readable Cataloging)

A számítógépes könyvtári katalógusok közismert és elterjedt formátuma, az elsõ metaadat-szabvány. Noha a késõbbiekben hivatkozunk még rá, ismertetése nem lehet e tanulmány tárgya. (Van már SGML-alapú változata is.)

Z39.50

Bibliográfiai információk lekérdezésére, a MARC alapján kidolgozott amerikai szabvány. Mivel nincs közvetlen összefüggésben a digitális objektumok tárolásával, e tanulmányban részletesen nem foglalkozunk vele.

ANSI/NISO Z39.56-199X

Sorozatban megjelent mûvek szabványos azonosítója, tetszõleges médiumhoz.

URC, Uniform Resource Characteristics

Az Interneten elérhetõ digitális objektumok azonosító-rendszere.

(b) SGML-alapúak

EAD, Encoded Archival Description

Állományleíró levéltári, múzeumi és kézirattári segédletek, mutatók rögzítésére, illetve intézmények közötti cseréjére kidolgozott SGML DTD. A projekt 1993-ban indult a kaliforniai Berkeley Egyetemen.

DOI, Digital Object Identifier

Weben publikált mûvek azonosító-rendszere, mely az ISBN-hez hasonlóan egyetlen kötött szerkezetû kódszámmal azonosítja a kiadót és az adott mûvet. A DOI rendszer magja egy központi adatbázis.

Dublini alap metaadatok

Mindössze tizenöt elembõl álló jelkészlet, mely a HTML-formátumú web file-ok leírására szolgál. A HTML formátumú file fejlécében elhelyezhetõ "META" kódok használatát szabályozza a javaslat.

2. Digitális objektumok

2.1 Történeti kitekintés

A szóbeliség korában a szöveg a lehetõ legszorosabban kötve volt elhangzásának teréhez és idejéhez. Az oralitás alkotásmódjából következõen a közvetítés -- amikor másvalaki mondta el a szöveget újra -- mindig újraszerzés is volt, a közvetítõ ill. közvetítõk sorának szellemi terméke.

A kéziratos korban a szöveg kevésbé volt újraformálható, a szerzõ sajátja volt, melyet a mediátorok vagy híven vagy hibásan másoltak újra. Ekkor jön létre a textológia tudománya, melynek célja a hibák kijavítása, és a voluntas auctoris, a szerzõ szándéka szerinti szöveg megállapítása és továbbadása. A szövegkritika gondoskodik arról, hogy az olvasók a legjobb, a leginkább hiteles szöveget kapják. A másolók egyszerre csak egy szöveget, egy -- esetleg csak az ideák szintjén létezõ -- kritikai fõszöveget másolnak.

A nyomtatás felfedezése lehetõvé tette, hogy egy adott lenyomat (egyetlen másolat) több száz, ezer vagy millió példányban jelenjék meg; ez elvben a szöveg élettartamát is meghosszabbította, hiszen egyetlen példány megsemmisülése nem számított, nem számít pótolhatatlan veszteségnek.

A nyomtatás lényegében nem módosítja a szöveghagyományozás eljárását: egy vagy több forrásból állítanak elõ egy következõt. Ebben a korszakban lehetõvé válik az úgynevezett fakszimilék kiadása. A fakszimile elvben pontos mása az eredetijének. Vannak fényképes hasonmások, és vannak kvázi-fakszimilék, amelyek a nyomtatott szövegek újraszedésével készülnek. De még ezek a forrásuk pontos másának tûnõ kiadványok sem tudják cáfolni a textológia alaptörvényét, mely szerint a másolat mindig különbözik az eredetijétõl. Hol összecserélik a lapokat, hol elcsúsznak a többszínnyomással, vagy retusálják a pacákat, melyekbõl a vérbeli textológus Sherlock Holmes elméjéhez illõ következtetésekre képes jutni. No és természetesen nem lehet a vízjeleket, a papír állagát, az ívfüzetek terjedelmét soha, semmiféle fakszimilében híven visszaadni, s ezek megint csak olyan jellegzetességek, amelyekbõl messzemenõ következtetéseket lehet levonni. A fakszimile-kiadás tehát éppolyan szövegkiadás, mint bármely másik, azoktól csak annyiban különbözik, hogy összemérhetetlenül jobban õrzi a forrás írás- és szedésképét.

Valószínû, hogy a digitális korszak alkotásmódja is más lesz, mint az elõzõeké. Innen nézve a hagyományos értelemben vett "... irodalom egy olyan speciális eset, ahol a szöveghez nem kapcsolódnak kép-, hang- ill. mozgóképállományok". (HORVÁTH 1996.) A hardver- és szoftverfejlõdési tendenciák is az olyan integrált "office-komplexumok" irányába mutatnak, melyekkel szemben alapvetõ követelmény lesz a különbözõ médiumok összehangolt kezelése, egyre bonyolultabb hipermédia-dokumentumok lejátszása ill. létrehozása. A speciálisan digitális mûfajok sajátos tulajdonságai még csak mostanában körvonalazódnak.

2.2 Az objektumok fajtái

2.2.1 Digitális és digitalizált

Elsõ lépésben meg kell különböztetnünk a nem-digitális (alapvetõen: nyomtatott) médiumok átírásával keletkezõ ("digitalizált") objektumokat, ill. az eleve digitális formában születõket. Az elsõ esetben a digitális könyvtárbeli archiválás szükségszerûen átírást is jelent (lásd részletesen lejjebb), a másodikban azonban ez korántsem magától értetõdõ. Hiszen egy objektum legtökéletesebb archiválása magának az eredetinek a változatlan formában való megõrzése.

Egy multimédia cd-rom komplex struktúrájának visszaadására valószínûleg nehéz az eredeti kódolásnál megfelelõbbet találni, arról nem is szólva, hogy a médium alapvetõen grafikus jellege miatt az ilyen típusú kiadványokról minden bizonnyal csak "fakszimiléket" lenne érdemes kiadni, minden más forma lényegi információvesztéssel járna. De Papp Tibor Disztichon-generátor címû számítógépes költészeti alkotásának az eredeti Macintosh rendszertõl eltérõ környezetben való reprodukálása is tulajdonképpen a mû újraírásával volna egyenértékû.

A digitális dokumentumok archiválásakor tehát egymástól elválaszthatatlannak látszik az információ, illetve az információt fizikailag hordozó eszköz megõrzése és tárolása. Nincs ez másként a hagyományos médiumok, a könyv, a film, a hanglemez esetében sem, ezek éppúgy fizikai természetûek, mint a cd-rom vagy a merevlemez. A különbség csak annyi, hogy a számítógépen készített dokumentumok esetében igénybe vett technikai segédlet jóval bonyolultabb és hamarább elavuló. Ahogy a hanglemezre karcolt zenét csak a megfelelõ lejátszó segítségével tudjuk élvezhetõvé tenni, a digitális dokumentumhoz is hozzátartozik az a program, amely képes a szöveget, képet, hangot, mozgóképet kezelni és megjeleníteni. Ám a program csak egy adott operációs rendszer alatt, az operációs rendszer pedig kizárólag egy adott hardverkonfiguráción futtatható...

A digitális könyvtárnak tehát valószínûleg az eleve digitális formában születõ objektumok eredetijének megõrzése és szolgáltatása volna az egyik feladata -- az ehhez szükséges hardverfeltételek biztosításával együtt. Ilyen értelemben a digitális könyvtárnak digitális múzeummá (is) kell válnia. Talán még nincs késõ, hogy az utolsó HT-k, Commodore-ok és Spectrumok, a padlásokon rejtõzõ ChiWriter-ek és WordStar-ok begyûjtése megtörténjék!

Digitalizált és digitális közt félúton helyezkednek el az ún. kiadói file-ok: olyan elektronikusan kódolt dokumentumok, melyek létrehozásában azonban a majdani nyomtatott változat játszik meghatározó szerepet. Nehéz eldönteni, vajon a digitális objektumot vagy inkább az ennek nyomán elõállított nyomtatottat tekintsük az archiválás alapjának. Elõbbi esetben (a nyomdai kódok értelmezésének nem-ismeretében) lemondunk a dokumentum 'valódi' képérõl, utóbbiban nyugodt szívvel vethetjük alá szisztematizáló átírásnak a digitális objektumot.

2.2.2 Két- és háromdimenziós médiumok

A digitálisan tárolt információ nem minden esetben tudja pótolni a nem-digitálisat. Az idõbeli mûvészetek, mint a film és a zene esetében a digitális technika jobbnak bizonyult a nem-digitális rögzítéseknél. A térbelieknél, mint az építészet, a szobrászat, a festészet stb. a digitális formátum egyelõre inkább csak a tudományos kutatás ill. az ismeretterjesztés segédeszköze lehet. A térbeli tárgyak digitális megjelenítésére ma ismert eljárások még nem adnak olyan mértékben valósághû másolatot, mint amennyire például a digitalizált zene az akusztikus zene reprodukciója lehet.

2.2.3 Átmeneti mûfajok

A hagyományos statikus nyomtatott szöveg számára a digitális médium számos megújulási lehetõséget kínál: a térbeli szöveg, a kinetikus szöveg, a multitext (=automatikus szöveggenerátor által elõállított szöveg), a hipertext, a multimédia vagy éppen a számítógépes szótár, lexikon, adatbázis formációit. Ezen új objektumfajták kezeléséhez egészen új szemléletre van szükség: a hagyományos értelemben vett szöveg vele (legalább) egyenrangú más információkkal (képi megjelenés, hipertext-kapcsolatok, hierarchikus struktúra) egészül ki; az objektum archiválásának a szövegen túli összetevõkre is messzemenõen figyelemmel kell lennie.

Számos kérdést vet fel a világhálón publikált hiperszöveges dokumentumok archiválása: Hogyan õrizhetõek meg a linkekben hordozott információk? Hol húzhatók meg egy ilyen dokumentum határai, azaz archiválandók-e mindazok a távoli hálózati anyagok is, melyekre a forrás mutat? Mennyire tekintendõk a hiperszöveg részének a benne felhasznált egyéb médiumok: egy ábra természetesen igen, de a háttér már nem? Hogyan tehetõ értelmessé az archiválási szándék a folyamatosan változó hálózati dokumentumok esetében, ahol lényegében két lehetõség közül választhatunk: vagy egyáltalán nincs múlt (az identitás megragadhatatlan), vagy túl sok múlt van (tíz percenként automatikus backup).

2.3 A kódolhatóság szintjei

A digitális információ nem más, mint meghatározott számú jel variálása, -- nyolc bites rendszerben például mindössze 256 elembõl áll a jelkészlet. E variációk többé-kevésbé kötött mintákat követnek: szövegfile-ok esetében a kötöttség nagyobb, képfile-ok esetében viszont ez kevésbé jellemzõ.

Valójában a hagyományos információhordozók is elhelyezhetõk egy képzeletbeli skálán, melynek egyik végén a rendkívül kis számú elembõl -- az angol nyelv esetében például 26 írásjegybõl -- sokféle mintával építkezõ írott szöveg áll, a másik végén pedig az elméletileg végtelen számú jelet tartalmazó kép. Minél kisebb a jelek száma, annál könnyebb a számítógépes kódolás szabványosítása. Az európai kottaírás e képzeletbeli skálán a két véglet között, inkább a szöveghez közel kaphatna helyet, hiszen jelkészlete bõvebb, de mégis megoldható kódolt, kereshetõ számítógépes rögzítése. A térkép azonban már inkább a másik véglet felé közelít, bár a korszerû digitális térképek és térinformatikai szabványok bizonysága szerint megoldható a véges számú elembõl álló jelkészletre redukálás. Mindenesetre nem véletlen, hogy a térképi ábrázolás digitális forradalma jó néhány évet késett a szöveges információkéhoz képest. A skála másik végére helyezhetõ képi ábrázolás elemeinek szabványos digitalizálása pedig már szinte megoldhatatlan feladatnak tûnik, annak ellenére, hogy készülnek olyan mûvészettörténeti adatbázisok -- például az ICONCLASS alapján készülõ Marburgi Index --, melyek egy-egy korszak képi emlékeit igyekeznek a közös tartalmi elemek alapján meghatározott elemszámú szöveges információvá redukálni, így lehetõvé téve az adatbázisokban megszokott keresést. Ugyanakkkor a képi ábrázolás jelkészletét sokkal inkább meghatározza az adott kultúra, mint az írásét, így valamely képi jelkészlet tényleges leírása általában az adott korpusz teljeskörû feldolgozásával lehetséges. (Itt is vannak persze kivételek, pl. a fraktálok ebbõl a szempontból különleges, belsõ mintázattal rendelkezõ képnek tekinthetõk.)

Minden információhordozóról elmondható, hogy jelkészlete idõben változó. E változás általában szûkülést jelent, vagyis a jelkészlet egyre kisebb elemszámra redukálódik, -- amint azt késõbb a magyar nyelv írásjelkészletének változásán is bemutatjuk. Feltehetõen több médiumra is igaz, hogy jelkészletének szûkülésében, egységesedésben nem kis szerepe van a rögzítés technikai változásának, azaz a nyomtatott, újabban pedig digitális terjesztésnek.

A következõkben az egyes információhordozók rögzítésének kérdéseit a kódolhatóság szintjeit követve igyekszünk áttekinteni.

3. A digitalizált szöveg

3.1 Elméleti problémák

A nyomtatott forrásból származó szövegek digitalizálása számos elméleti problémát is felvet. Nem mindegy, hogy mit és hogyan rögzítünk. Az elektronikus szövegkiadás hasonló szakmai felkészültséget igényel, mint a nyomtatott médiumbeli. A magyar nyelvû szöveghagyomány kritikai igényû kiadása irodalomtörténészi-textológusi szakértelmet igénylõ feladat. A textológus szemével nem létezik a szöveg, csak szövegek vannak (HORVÁTH Iván, Szöveg) -- az idõk során az újabb és újabb kiadások mindig új, az eredetitõl többé vagy kevésbé eltérõ szövegváltozatokat hoznak létre: "[...] kiderült, hogy a megírás csak egy stádiuma a szöveg állandó keletkezésének, hiszen a mû a publikált változatokban is továbbfejlõdik." (DÁVIDHÁZI 1989, 3--4, 328--343.) Az elektronikus és nem-elektronikus rögzítések során bekövetkezõ szövegromlások lehetséges fajtáira nézve ld. Megjegyzések a Szépirodalmi polchoz 1-2 (Golden Dániel), URL: https://www.mek.iif.hu/porta/bbs/golden.txt, URL: https://www.mek.iif.hu/porta/bbs/golden2.txt.

De már az sem egészen egyértelmû, hogy pontosan milyen információk rögzítendõk egy nyomtatott szöveg esetében. Természetes célunk lehet, hogy egy minél intelligensebb digitális objektumot hozzunk létre, tehát minél több szemantikai jellegû információt (pl. szerzõ, cím, bekezdés, verssorhatár, szakaszhatár stb.) kódoljunk. A szkeptikus megközelítés azonban nem hajlandó ilyen mértékben az aktuális szövegkódoló interpretációjára bízni magát: õ csak a szintaktikai információkra tart igényt, melyekrõl maga szeretné eldönteni, milyen jelentést hordoznak (pl. hogy a kurzív szedés kiemelést, idézetet vagy példát jelent-e). Az abszolút bizalmatlanság álláspontjának azonban ez is kevés (illetve sok), õ a szöveg grafikai képének pontos mását szeretné megkapni, s azt is maga kívánja eldönteni, mi minõsül az adott kontextusban jelnek, s mi egyszerû papírhibának...

Különleges esetet jelenthetnek a vizuális költészeti alkotások, ahol az egyes szövegrészek pozíciói, sõt az alkalmazott betûtípus is információhordozó. (A betûtípusok valószínûleg önálló digitális objektumokként is archiválandók, s inkább a vektoros felépítésû Postscript formátumban, mint TrueType-ban. Korlátozottabb mértékben, de más szövegek esetében is szükség lehet a térbeli elhelyezkedés vagy a grafikai megjelenés bizonyos aspektusainak rögzítésére.

A kortárs textológiának a szövegváltozatok megállíthatatlan burjánzásáról szóló tapasztalata a szövegek tárolásának kérdését is más megvilágításba helyezi. A teoretikus felismeréseknek és az ezeken alapuló gyakorlatnak (HORVÁTH et al., 1992.) olyan adatmodell felel meg, melyben az alapegység nem a mû, s nem is a könyv, hanem a kettõ találkozásaként létezõ szöveg (GÁL 1989.). Ebben az eredendõen bibliográfiai struktúrában természetesen elhelyezhetõek maguk a szövegek (többfajta átírásban is akár), s az adott változatok fakszimiléi is.

Az adatbázis-struktúrával szemben is megfogalmazhatóak azért bizonyos kételyek: az egyik a 'mûfaj' globális kritikája, mely szerint elvileg lehetetlen egy a jövõre nézve teljes megoldás kidolgozása; a jövõ tartalmi/technikai újdonságai, ill. az ezek megkövetelte rögzítési és tárolási kívánalmak semmiféleképpen nem láthatóak elõre. A másik kifogás a feldolgozandó anyagok eltérõ természetére hivatkozik: ami a régi magyar vers zárt korpuszára bevált, nem biztos, hogy minden lényeges változtatás nélkül alkalmazható lesz a közelmúlt szövegeire, nem is szólva a digitális korról, amikor ahány mentés -- annyi szövegváltozat, illetve csak egyetlenegy, de állandóan újraíródó...

3.2 Szövegstruktúra

3.2.1 Project Gutenberg

Minden bizonnyal az elsõ szövegdigitalizálási kezdeményezés, minden elektronikus és digitális könyvtárak õsapja. Az 1971-ben indult projekt filozófiája a következõ: "A Gutenberg Project e-szövegeinek olyan könnyen kezelhetõeknek kell lenniük, hogy soha senkinek ne okozzon gondot, hogy miként használja, olvassa, idézze és keresse õket ... Ez arra indított bennünket, hogy a Gutenberg Project e-szövegeit 'tiszta ASCII-ben' [Plain Vanilla ASCII] jelenítsük meg ... Ennek egyszerû oka van: ez az egyetlen olyan szövegformátum, mely kényelmes a szemnek és a számítógépnek is."

Kényelmes, mondhatnánk, mindaddig, amíg nem akarunk bonyolultabb tartalmakat kifejezni, pl. táblázatot, grafikont, matematikai képleteket alkalmazni. De szabályozás híján már az egyszerû kiemeléssel is meggyûlik a bajunk: a projekt az adott dokumentum létrehozójára bízza, hogy milyen karaktereket kíván használni pl. a kurzív szövegrészek jelölésére.

Az egyszerûség csapdája két ellentétes oldalról is bezárul. Egyrészt nem teszi lehetõvé a szükséges információmennyiség továbbítását (a "könnyen olvasható" itt tehát azt jelenti: "túl könnyen"), márpedig egy digitális nemzeti könyvtár célja csakis a lehetõ legmagasabb minõség biztosítása lehet -- egy információban gazdag dokumentum mindig lebutítható lesz az éppen aktuális szerényebb igényeknek megfelelõen, fordítva azonban ez nem tehetõ meg. Másrészt azt az illúziót táplálja, hogy létezik egy olyan legkisebb közös többszörös, mely afféle "common sense"-ként korokon, földrészeken, nyelveken stb. átívelõen mindenki számára érthetõ marad. Holott a háttérben egy egyszerû szabvány, az ASCII áll, mely fölött eljárt az idõ, arról nem is szólva, hogy a nem-angol nyelvû felhasználók igényeit már születése pillanatában sem volt képes kielégíteni.

Rendben van, mondhatnánk, ha a tiszta ASCII felel meg magas igényeinknek, keressünk olyan szöveg- ill. kiadványszerkesztõ programot, mellyel legtitkosabb vágyainkat is megvalósíthatjuk. Számtalan ilyen áll rendelkezésünkre, válasszuk talán a legelterjedtebbet, a Microsoft Word-öt! Valóban, ebben már elég sok mindent meg tudunk csinálni (még különbözõ betûtípusok is vannak). Itt azonban a Gutenberg-hívõ diadalittasan csap az asztalra: azt aztán megnézheted, hogy néhány év múlva mit tudsz kezdeni az így készített dokumentumoddal! És igaza is van, hiszen a Word sok esetben még önmagával (saját korábbi változataival) sem teljesen kompatibilis, nemhogy más forgalomban lévõ szövegszerkesztõkkel; dokumentumunk elszigetelõdése az idõ elõrehaladtával egyenes arányban nõni fog...

Mi a megoldás? Egyfelõl a legteljesebb bonyolultság lehetõségének megteremtése, másfelõl a lehetõ legteljesebb program- és rendszerfüggetlenség megteremtése. Csak olyan rendszer felel meg egy hosszútávú digitális szövegrögzítés céljaira, mely képes tökéletesen követhetõ módon számot adni saját kódolási eljárásairól, s ezzel biztosítja a platformfüggetlenséget, az átjárhatóságot, szükség esetén az anyagok megbízható konvertálhatóságát.

A megoldás a két szempont összeegyeztetése egy olyan metanyelvben, mely lehetõvé teszi számunkra, hogy tetszõleges bonyolultsági fokú szövegkódolási rendszert definiáljunk, pusztán a tiszta ASCII-karakterek felhasználásával. Ez a rendszer az SGML.

3.2.2 SGML, Standard Generalized Markup Language (ISO 8879:1986)

A metaadat használatának alapfeltétele, hogy egyértelmûen elválasztható legyen magától az adattól. Az SGML szabvány alkalmazásaiban a "<>" zárójelpár-karaktereket szokás használni erre a célra. Azt, hogy milyen jellegû metaadatot érdemes rögzíteni, a szövegrögzítés célja határozza meg. Ha a könnyû programozhatóság fontosabb, mint az adat rendszerfüggetlensége, a rendszerek közötti átjárhatóság, akkor a metaadatok feldolgozási utasítások lesznek. A hardver- és szoftverfüggetlen adat kulcsa azonban az, hogy a metaadatok általánosabb érvényû információt rögzítsenek: minõsítsék azt az adatot, amelyre vonatkoznak. Vagyis nem magát a végrehajtandó utasítást kell metaadatként megadni, hanem a szövegszegmentum azon tulajdonságát, amely ezt rendszeresen kiváltja, feltételezi.

Egy példával: ha az alcím kiemelését például a kövér betûkre vonatkozó utasítással jelezzük, az más rendszerben csak akkor lesz értelmezhetõ, ha a kövér betûk ott is ugyolyan kódot kapnak. Ezért célszerûbb azt a tényt rögzíteni, hogy az adott szövegrészlet alcímként funkcionál. Szöveges adatok esetében például olyan jellemzõ tulajdonságot kell rögzíteni, mely képes kifejezni az adott szegmentum viszonyát a szöveg többi szegmentumához. E szempontoknak megfelelõ tulajdonság a szövegszegmentumok hierarchikus elrendezettsége. Lotman szavaival:

"A szöveg hierarchikus jellege, azaz rendszerének szétesése alrendszerek bonyolult konstrukciójára, oda vezet, hogy a belsõ struktúrába tartozó számos elem a különféle típusú alrendszerekben határjellegûnek bizonyul (a fejezetek, strófák, verssorok, félverssorok határai). A határ, amely jelzi az olvasónak, hogy szöveggel van dolga, és tudatában felidézi a megfelelõ mûvészi kódok egész rendszerét, strukturális jellegû, erõs helyzetben. Tekintve, hogy: egyes elemek egy bizonyos határ jelei, mások viszont néhány, a szövegben elfoglalt általános helyzetük szerint egybeesõ több határ jelei (egy fejezet vége egyben a könyv vége); tekintve, hogy a hierarchia szintjei alapján beszélhetünk egyik vagy másik határ domináns helyzetérõl (a fejezethatárok hierarchikusan magasabban állnak, mint a strófahatárok, a regény határa magasabban, mint a fejezet határa), strukturálisan összemérhetõvé válik az elhatárolás ilyen vagy amolyan jelének szerepe. /.../ A fenti tételek alapján hasznos szabályok adódnak. Elõször: a szöveg leírásának nyelve -- hierarchia." (58-61)

Az SGML szabvány elsõdleges feladata az, hogy szintaktikai szabályokat biztosítson a szöveg hierarchikusan rendezõdõ elemeinek formális leírásához. Tehát a szabvány nem azt határozza meg, hogy az egyes szövegtípusokban milyen szegmentum-rendszer feltételezhetõ, hanem azt, hogy ez a rendszer hogyan definiálható. A gyakorlat tanúsága szerint a rögzítés, illetve felhasználás céljától, koncepciójától függõen egyszerre többféle hierarchia is megjelenhet egyetlen dokumentumban. Ezeket az SGML szabvány alapján egymással azonos értékû, ún. konkurens struktúrákként lehet kódolni, vagyis a szöveget nem kell kizárólagosan hozzárendelni például az oldalszámok vagy a mûfaji egységek struktúrájához, azaz párhuzamosan, az összekeverés veszélye nélkül jelölhetõek pl. az oldal- ill. strófahatárok.

Nem határozza meg a szabvány azt sem, hogy az így definiált szegmentumok milyen számítógépes eljárással azonosíthatók vagy dolgozhatók föl a szövegben, -- ezek a szövegfeldolgozó programrendszerek feladatai. A szabvány feltételezi -- de nem írja elõ -- egy olyan számítógépes programnak a használatát, amely kapcsolatot teremt a szövegben jelölt szegmentumok, a szegmentumok definíciója, valamint a szöveg lehetséges felhasználása között. E program (a szabványban: "parser") ellenõrzi, hogy a szövegben jelölt szegmentumok azonosak-e a definiáltakkal és emellett esetleg e szegmentumokat át is tudja szervezni.

A program mûködéséhez a következõk szükségesek:

(a) A szintaxis bizonyos alapvetõ jellegzetességeinek a definiálása, például a különbözõ speciális karaktereknek, a kódok hosszának vagy a szintaxisban megengedett variációknak a meghatározása. Bár a hasonlat nem tökéletes, mondhatni, hogy ez a szövegleíró-nyelv alkalmazott nyelvjárásának leírása. Ennek az adatcsoportnak a szabványban használt neve: "SGML Declaration".

(b) A szövegben feltételezhetõ hierarchikus szegmentum-rendszernek és jelölésének leírása. A szabványban ennek a leírásnak a neve "Document Type Definiton" (a továbbiakban: DTD).

(c) Természetesen maga a feldolgozandó szöveg is szükséges a program mûködéséhez. A szabványban az ilyen számítógépen rögzített és a DTD-ben meghatározott szegmentumok jelölésével ellátott természetesnyelvi szöveg neve: "document instance". Egy "SGML Declaration" egy vagy több DTD-re vonatkozhat, és egy DTD egy vagy több "document instance" szegmentum-rendszerét írhatja le. Azokat a szövegket, amelyeknek azonos a szegmentum-rendszere, a szabvány szövegtípusoknak tekinti.

A hierarchikusan rendezõdõ szövegszegmentumoknak, azaz a hierarchia alkotóelemeinek a szabványban használatos elnevezése: "element" (a továbbiakban magyar megnevezése: alkotóelem). A rendszerben az azonos szerepet betöltõ alkotóelemek azonos nevet kapnak, mely nem fejez ki semmi mást, csak az adott szegmentum viszonyát a szöveg többi szegmentumához.

Azt mondhatjuk, hogy az a szövegleíró-nyelv, amelyik utasításokat ad a számítógépnek (például: "innentõl aláhúzandó!"), csak igéket használ, az SGML pedig csak névszókat: a szövegszegmentumok nevét és az azt egyedítõ, a hasonló nevû szegmentumoktól megkülönböztetõ tulajdonságokat. Ugyanis a szabvány szerint a szegmentumot nyitó azonosítójel -- a zárójelpár között -- nemcsak a szegmentum nevét tartalmazhatja, de egy vagy több erre vonatkozó "attribute"-ot is (a továbbiakban magyar megnevezése: tulajdonság). Mivel egyetlen szegmentum többféle szempontból, azaz többféle tulajdonsággal is jellemezhetõ, ezért maga a tulajdonság is két részbõl áll: a tulajdonság megnevezésébõl és az adott szegmentumra jellemzõ ú.n. értékébõl.

Az "entity" is a szöveg valamely szegmentumára való hivatkozás eszköze, akárcsak az "element" fogalma. De ellentétben az "element" fogalmával, mely az adott szegmentumra annak szegmentum-rendszerbeli pozíciójával utal, az "entity" a szegmentumot egy mindenféle hierarchiától független egységnek tekinti. Ez az egység a szegmentumok hierarchiájának bármelyik szintjén elõfordulhat, tetszõleges méretû lehet, lehet strukturált és strukturálatlan is. Az "entity" fogalma azt hangsúlyozza, hogy a szöveg kisebb és nagyobb -- egymástól független -- szegmentumokból áll: a teljes dokumentum is egy "entity", a legnagyobb. Ezzel szemben az "element" fogalmának lényege a szegmentumok hierarchiába rendezõdõ kapcsolata, függõsége.

A szabványban e két szemlélet nem ellentétben áll, hanem kiegészíti egymást: az "entity" fogalma amellett, hogy lehetõvé teszi a szövegen kívüli bármely egységre való egyértelmû hivatkozást, számos más feladatra is alkalmas.

Az "entity" alkalmazása igen egyszerû. A dokumentumot megelõzõ DTD-ben kell -- a szabványban meghatározott szintaxissal -- azonosítani az egyed tartalmát annak tetszõlegesen választott nevével, majd a dokumentumban ezzel a névvel lehet az egyedre hivatkozni, -- az egyed nevét az elején "&" és a végén ";" karakterrel választva el a szövegtõl. A szabvány szerint mûködõ elemzõ-program behelyettesíti az egyed nevét annak tartalmával. Az egyed olyan -- legalább egy karakterbõl álló -- szövegegység helyettesítésére, azonosítására szolgál, amelyet a számítógép közvetlenül nem tud feldolgozni, megjeleníteni vagy továbbítani, illetve amelyet a felhasználó valamilyen okból nem kíván közvetlenül kezelni, -- például azért, mert túl hosszú.

Az SGML szabvány a szintaktikai szabályokon kívül olyan listákat is tartalmaz, melyekben számos közvetlenül föl nem dolgozható karakter -- például a mai magyar nyelv összes ékezetes magánhangzója -- valamint matematikai és egyéb szimbólum külön-külön egyedként van azonosítva. Ezekben a listákban (a szabványban: "public entity set") minden egyed meghatározásához hozzátartozik a hivatkozott karakter formájának rövid, angol nyelvû leírása. Az egyedek neve -- tehát az a rövidítés, amivel a szövegben hivatkozni kell rá -- természetesen csak az angol ábécé karaktereit tartalmazza. A listák csak egyezményes hivatkozási alapként használhatók, semmiféle utalást nem tartalmaznak a karakter nyomtatón vagy képernyõn való megjelenítésére, -- hiszen a szabvány alapelve az, hogy csak az adat tárolását határozza meg, felhasználását nem.

3.2.3 HTML, Hypertext Markup Language

A web közismert adatformátuma, bemutatására nincs szükség. Fontos azonban megjegyezni, hogy a HTML is egy SGML-alkalmazás, vagyis egy DTD, amit a World Wide Web Consortium definiált. A web-böngészõk valójában olyan SGML-olvasók, melyek csak egyetlen -- viszonylag egyszerû -- DTD feldolgozására alkalmasak. A HTML DTD elsõsorban olyan alkotóelemeket tartalmaz, melyek a képernyõ-megjelenítést szabályozzák, vagyis minimális mértékben határozza csak meg az adat logikai-szemantikai szerkezetét, hierarchiáját. Bár tartalmaz strukturált szemantikai leíráshoz használható kódokat -- például a H1, H2 és H3 címeket vagy az "address" alkotóelemet --, de ezek rendeltetésszerû használata nem terjedt el. Ebbõl következõen a HTML-formátum kevéssé alkalmas jól visszakereshetõ, strukturált digitális objektumok rögzítésére.

3.2.4 TEI, Text Encoding Initiative

Három számítógépes nyelvészeti és irodalmi kutatásokkal foglalkozó angolszász tudományos tásaság indította a projektet 1987-ben. Az akkor meghatározott cél kiállta az idõk próbáját: olyan szöveg-, illetve adatrögzítési útmutatót készíteni, mely egyaránt szoftver-, hardver- és alkalmazásfüggetlen és alkalmas bármilyen nyelvû és korú szöveg rögzítésére. Rendkívül fontos, hogy nem szabványt, hanem útmutatót kívántak alkotni a kezdeményezõk. Az elsõ ilyen dokumentum 1990-ben készült el, majd a szakmai vita alapján 1992-re a második, és végül 1994-re a harmadik, immár véglegesnek tekintett ajánlás is megjelent. Az egyes változatok között egyre szélesebb kört vontak be az értékelésbe, ez persze az eredeti elképzelésekhez képest szükségszerûen egyre több kompromisszumos elemet is hozott. Jelenleg folyik a végsõ szöveg kisebb hibáinak javítása, illetve a projekt további sorsának a vizsgálata. Az ajánlás azonban lényegében késznek tekinthetõ.

A TEI ajánlás egyaránt igyekszik állástfoglalni a metaadat rögzítés két fõ kérdésében: mit és hogyan? Az utóbbira a válasz egyszerû: a TEI a metaadatokat az SGML szabványnak megfelelõen rögzíti. A TEI tekinthetõ az SGML-en mint szintaxison alapuló szemantikai rendszernek. Az elõbbi kérdésre ugyanakkor az ajánlás igyekszik egy minél szélesebb kör számára elfogadható megoldást kínálni, melyet az Oxford és Chicago központtal mûködõ projekt vezetõi gyakran hasonlítanak a chicagói pizzához: a vendég elõbb eldönti, hogy vékonyabb, ropogós vagy vastagabb, kenyérszerû tésztát kér, majd kiválasztja a feltéteket. A szövegrögzítésre vonatkoztatva ez azt jelenti, hogy az ajánlás meghatározza az (1) minden szövegre érvényes alap kódkészletet (core tags), (2) a fõbb szövegtípusok szerint különbözõ hat fõ kódkészletet (base tag sets), és (3) az elsõsorban a szövegrögzítés céljától függõ kiegészítõ kódkészleteket (additional tag sets), melyekbõl tizet különböztet meg az ajánlás.

(1) Az alap kódkészlet nemcsak a legelemibb, általánosan érvényes szövegelemek metakódját tartalmazza (pl. bekezdés, sor, dátum, stb.), de a szöveg egészére vonatkozó bibliográfia jellegû információkat tartalmazó ún. fejlécet (header) is. Az ajánlás meglehetõsen sokféle információ rögzítését javasolja, bár nem zárja ki a pusztán azonosításra szolgáló, minimális fejléc alkalmazását sem.

(2) Az ajánlásban megkülönböztetett fõbb szövegtípusok:

próza
vers
dráma
lejegyzett beszéd
nyomtatott szótárak
terminológiai adatbázis

(3) Kiegészítõ kódkészletek:

hipertext kapcsolatok, mutatók jelölése
analitikus információk kódolása
strukturális nyelvészeti és más elemzések eredményének kódjai
a szöveg értelmezésekor, rögzítésekor felmerülõ bizonytalanságok jelölése
kéziratos források átírásánál használatos különleges jelek
kritikai szövegrögzítés
nevek és dátumok kódolása
gráfok, fák és hálózatok ábrázolása
táblázatok és képletek
nyelvi korpuszok

Az ajánlás megkülönböztet egy negyedik csoportot is, a járulékos dokumentumokat (auxiliary document types), melyek közül a legfontosabbnak az ún. írásrendszer definíció tûnik (writing system declaration). Az írásrendszer definíció célja, hogy meghatározza a kérdéses nyelv, lejegyzésének módja (ábécé, szótagírás, stb.) és a lejegyzéshez használt írásjelkészlet közötti összefüggéseket. E technikai megoldás tehát lehetõvé teszi a magyar karakterkészlet pontos rögzítését.

Mint említettük, az ajánlás jelenlegi szövegét többévi tudományos vita és konszenzus-keresés elõzte meg, melyet a bevezetõben így összegeznek a szerkesztõk:

"Az ajánlás nem kíván különbséget tenni a szövegre vonatkozó "objektív" és "szubjektív" információ, illetve a szöveg "megjelenítése" és "interpretációja" között. E megkülönböztetések -- noha szûkebb, jobban meghatározható összefüggésben gyakran hasznosnak bizonyulhatnak -- itt leginkább úgy jelentkeznek, mint olyan kérdések, melyekben lehetséges a tudományos konszenzus és olyanok, melyekben nem. Kétségtelen, hogy e konszenzus tartalma megváltozhat. A TEI ajánlás nem ajánlja és nem teszi kötelezõvé semmiféle metaadat rögzítését. // A szövegrögzítés pontosságáról, illetve az interpretáció helyességérõl mindig magának a felhasználónak kell döntenie. Az ajánlás csak eszközt biztosít magának a szövegrögzítésnek a dokumentálására, így maga az eljárás, illetve a mögöttes értelmezõi döntések átláthatóvá válnak a szöveg felhasználója számára."

A TEI-ajánlást számos bírálat éri, általános jellegû és lényegi egyaránt. Az 1200 oldalas dokumentáció természetesen nem könnyû olvasmány, a teljes rendszer megismerése az SGML ismerete mellett is komoly elmélyülést igényel. Kezdõ TEI-alkalmazóknak nagy segítség lehet a TEI Lite DTD, mely egyszerûsített, ám a teljes változattal kompatibilis kódkészletet kínál.

A felhasználótól megkívánt erõfeszítések mellett a TEI jelentõs gépi erõforrást is igényel, ugyanis a TEI DTD meglehetõsen bonyolult SGML-alkalmazásnak számít. Az elsõ változat elkészültekor, az '90-es évek elején nem volt olyan PC-kompatibilis szoftver, ami a teljes DTD feldolgozására képes lett volna, a közismert DOS memória-korlátok miatt erre akkoriban csak Unix- és Macintosh-alapú számítógépek voltak képesek. Ezek az akadályok azóta elhárultak, de a kezdeti nehézségek nyomát õrzi az, hogy a TEI-kódolók által legelterjedtebben használt SGML-editor továbbra is a Macintosh-alapú Author/Editor (SoftQuad). Köszönhetõen az SGML egyre nagyobb népszerûségének az ipari dokumentáció és a könyvkiadás (elsõsorban szótár- és lexikonkiadás) területén, napjainkban már rendkívül széles az SGML-kompatibilis shareware és kereskedelmi szoftverek választéka.

A technikai és tartalmi nehézségek ellenére a TEI ajánlás akadálytalanul terjed, ugyanis gyakorlatilag nincs alternatívája, vagyis jelenleg nincs más, ilyen mélységig kidolgozott metaadat-ajánlás. Az angolszász szövegtudományokban meghatározónak számító tudományos társaság, a Modern Language Association (MLA) 1997 augusztusában elfogadta mint kötelezõ szövegrögzítési formát. Robin Cover SGML-oldala 1998 elején közel ötven olyan jelentõsebb projektrõl tud, mely a TEI-ajánlás alapján mûködik. Noha a rögzített szövegek többsége továbbra is angol nyelvû, ma már jelentõs számban található közöttük francia, latin, olasz, német, holland, svéd, norvég, spanyol, japán, görög és héber nyelvû szöveg is.

Külön említést érdemel a MULTEXT projekt, illetve ennek kelet-európai változata, a MULTEXT-East. Az Európai Unió által támogatott MULTEXT projekt célja az, hogy a TEI-ajánlás alapján kialakított ún. Corpus Encoding Specification DTD-nek megfelelõ többnyelvû mintakorpuszokat hozzon létre, ezzel tesztelve a többnyelvû szövegek számítógépes feldolgozásának lehetõségeit, illetve a TEI alkalmazhatóságát nem-angol nyelvû szövegekre. A MULTEXT-East projekt keretében egyetlen regényt (Orwell 1984 c. mûvét) rögzítettek tíz nyelven, az egyes változatokat egységes azonosítórendszerrel rendelve egymáshoz. A tíz nyelv: bolgár, cseh, észt, lett, litván, magyar, orosz, román, szerb-horvát és szlovén. (A magyar változatot Tihanyi László, a Morphologic, illetve Oravecz Csaba, az MTA Nyelvtudományi Intézet munkatársa készítették.)

Hasonló kísérleteket folytat a Copernicus együttmûködési program keretében a TELRI projekt is, Platon Állam címû mûvét rögzítették 17 nyelven.

A MULTEXT-East szövegen kívül magyarországi TEI-alkalmazásokról nincs tudomásunk, bár SGML-alapú szövegkorpuszokról és projektekrõl igen: házi készítésû DTD-t használ a Nyelvtudományi Intézet a készülõ nagyszótár szövegkorpuszához és az Akadémiai Kiadó is.

A részleteket érintõ, lényegi bírálatok és kérdések számára a TEI-projekt Listserv-fórumot tart fenn, melyen a felhasználók észrevételeire a szerkesztõk, illetve a tapasztaltabb felhasználók válaszolnak.

3.2.5 SGML és a Web

A HTML sokat segített és sokat ártott is az SGML szabványnak. Segített, hiszen a World Wide Web nélkül az SGML a legtöbb számítógép-használó számára talán még ma is az az obskurus mûszaki szabvány volna, ami 1987-ben, amikor a TEI-projekt vezetõi elhatározták, hogy ezt kell megtanítani a bölcsészeknek. Az egyszerû HTML-böngészõk és -szerkesztõk elterjedése óta az element, entity és attribute fogalma szinte trivialitásnak számít. Természetesen a DTD és a hierachikus szövegstruktúra továbbra is ismeretlen maradt, hiszen -- mint említettük -- a HTML egyetlen, szinte kizárólag tipográfiai célú DTD-t használ.

A HTML-alapú web hihetetlenül gyors világméretû hódításának elsõ éveiben az ortodox SGML-felhasználók fanyalogva beszéltek a HTML-rõl, mint valami játékszerrõl. A szerver-kliens szerkezetû dinamikus web-adatbázisok megjelenése azonban megváltoztatta a helyzetet. Lou Burnard, a TEI-ajánlás egyik szerkesztõje -- maga is ortodox SGML-felhasználó -- 1996-ban már így ír:

"Mégis miért használjuk a HTML-t? A gazdasági, politikai és szociológia érvek mellett van még egy eddig figyelmen kívül hagyott szempont: a web tartalmának jelentõs része eredendõen tiszavirág-életû. Ezek az anyagok csak "itt és most" kívánnak hatni, például terméket eladni vagy egyszerûen szenzációt kelteni. Ebbõl következõen semmi értelme ezekre több energiát pazarolni, mint a hasonló papír brosúrákra. A gondot inkább az okozza, hogy éppen úgy HTML-t kell használnunk ha egy fontos kézikönyvet digitalizálunk, mint ha éppen egy üdítõitalt reklámoznánk.

Valójában azonban még az értékesebb mûvek rögzítésénél is csak akkor tûnik fel a HTML gyengesége, ha a szerzõ vagy a kiadó szempontjából vizsgáljuk a helyzetet. Ha a képernyõkép tetszetõs, az olvasó számára végsõ soron mindegy, hogy az korszerû objektum-orientált adatbázis-kezelõbõl, postscript file-ból vagy pedig feketemágiával elõállított HTML-file-ból származik-e. /.../

A HTML-nek mint szerver-formátumnak van néhány nyilvánvaló hátránya. Noha a kezdeti költségek alacsonyak, HTML-dokumentumokkal aligha tanácsos komolyabb, hosszabb távú szolgáltatást indítani. A hivatkozások konzisztenciájának megõrzése már egy csak viszonylag dinamikus állomány esetében is rendkívül sok fejfájást okozhat."

A megoldást, úgy tûnik, a tényleges SGML és a kurrens HTML-verzió ötvözése jelentheti, mindkettõt arra használva, amire való: valódi SGML-formátumot használni a szerver oldalon és HTML-t a kliens-oldali megjelenítéshez. Íme néhány e hibrid megoldás elõnyei közül Burnard idézett cikke alapján:

(A szerver-oldali SGML elõnyei)

A dokumentum rögzítése, kódolása illeszkedhet a szöveg, illetve felhasználásának sajátosságaihoz.
A keresés kontextus-érzékeny lehet, ezáltal sokkal pontosabb, használhatóbb eredményt ad.
A dokumentum könnyen konvertálható, illetve adaptálható tetszõleges célokra.

(A kliens oldali HTML elõnyei)

Könnyen hozzáférhetõek a böngészõk minden hardver-platformon.
A letölthetõ böngészõ plug-in programokkal sokféle kiegészítõ funkció megoldható.
A HTML-stíluslapok terjedésével a megjelenítés is könnyebben befolyásolható.

Az elsõ és legismertebb SGML-alapú WWW-szerver az Oxford English Dictionary-hez használt PAT szövegkezelõ kiegészítése, ezt használja a Michigani Egyetemen mûködõ Humanities Text Initiative projekt és a Virginiai Egyetemhez tartozó Electronic Text Center. E megoldásban a felhasználótól kapott keresõkérdéseket a szerver SGML-formátumúvá konvertálja, majd megfelelõ szövegrészeket SGML-bõl HTML-be és ezt küldi a felhasználónak vissza. Ez természetesen meglehetõsen nagy teljesítményû szervert igényel. Egyszerûbb, olcsóbb megoldásnak tûnik az, ha a szerver csak SGML-formátumú szöveget szolgáltat, a megjelenítést pedig egy kliens-oldali kiegészítõ program (plug-in) feladata. Erre jelenleg csak a SoftQuad által készített, ingyen letölthetõ Panorama SGML-olvasó alkalmas.

E terület napjainkban rendkívül gyorsan fejlõdik, különösen ígéretes lehetõségnek tûnik a World Wide Web Consortium által 1998 február elején elfogadott XML 1.0 web-szabvány, melyet a TEI-felhasználók is üdvözöltek. Az XML az SGML egyszerûsített változata, vagyis többféle dokumentum-típus rögzítéséhez használható metaadat-szabvány (szemben a HTML-lel, ami csak egyféle dokumentum-típushoz használható). Az XML-szabvány nem tartalmazza az SGML azon részeit, melyek nehezen programozhatónak és ritkábban használtnak bizonyultak, ugyanakkor megõrzi az SGML flexibilitását. Bár az XML még rendkívül új fejlemény a web világában, a Microsoft már a szabvány bejelentése elõtt elkészítette saját Java-alapú XML-parser programját.

3.3 Karakterek kódolása

3.3.1 A betûtõl a karakterig

A betûírás a kezdetektõl fogva grafikai tevékenységet jelentett, a betûket rajzolni kellett, ezért aztán ahány kézírás, annyiféle a, b stb. létezett (eltekintve persze a normatív, kalligrafikus írásmódtól). Ebben a tekintetben nem hozott alapvetõ változást a nyomtatás megjelenése sem: a manufakturálisan elõállított ólombetûk szintén elég nagy változatosságot mutattak.

Az így elõállított grafikus jelek értelmezésekor ahhoz hasonlóan járunk el, mint amikor a különbözõ frekvenciájú hangokat élesen elkülönített fonémák rendszerévé alakítjuk. A különbözõ formákat adott tûréshatáron belül egy bizonyos graféma eltérõ megjelenéseinek tekintjük. A graféma tehát az írásnak nevezett ponthalmaz legkisebb jelentéssel bíró egységeként definiálható.

Az egységesülés felé az elsõ lépést a fénynyomás megjelenése jelentette: itt már valóban identikus betûkrõl beszélhetünk. Ez azonban egy olyan lényeges változással járt együtt, amely azután a számítógépek esetében csak még hangsúlyosabbá vált: a betût mint grafémát felváltotta a betû mint számkód. Az új digitális technika alapja a kód és funkció közötti kölcsönösen egyértelmû megfeleltetés lett; jelen esetben egy adott számkódhoz egy adott betû megjelenítése tartozik. A sorrend felcserélõdött: többé nem a sok különbözõbõl hozunk létre absztrakcióval egy ideális közöset, hanem az absztrakt általánosat igyekszünk további manipulációkkal (betûtípus stb.) minél egyedibbé tenni.

E két eltérõ logika különbsége a következõképpen szemléltethetõ: míg az elsõ szerint az á az egy a és egy ' együttese, addig a második szerint nem más, mint pl. '225', aminek lényegében semmi köze az a-hoz, ami viszont '97'.

3.3.2 Kódtáblák

A számítógép tehát karakterkódokban gondolkodik. A karakterek egy adott gyûjteményét karakterkészletnek (character set) nevezzük. Az egy készletbe tartozó karaktereknek bináris kódokhoz való egyértelmû hozzárendelésével egy kódtáblát (codepage) kapunk. (Korábban a technikai lehetõségek korlátai miatt, mivel minden karakter nem fért el egyszerre, alternatív kódtáblákat kellett kidolgozni, s így az elviekben akár egységesnek is tételezhetõ "latinbetûs írásrendszerû nyelvek" karakterkészletét is alkészletekre kellett szétszabdalni; bõvebben ld. lejjebb.) A humán felhasználó kedvéért azonban egy további lépésre is szükség van: a gép kénytelen a vizuális (képernyõn ill. nyomtatón való) megjelenítésrõl gondoskodni. Amikor szövegszerkesztõ programmal dolgozunk, akkor egy adott karakterkészlethez készült betûkészletet (font) használunk. Egy betûkészlet az egyes betûk és más jelek grafikus képeibõl (glyphs) épül fel. Például a 245-ös kód az ISO Latin 2-es kódtábla szerint a magyar kis hosszú õ-t jelenti, ez azonban csak akkor fog valóban ilyenként megjelenni, ha egy a kódokat ennek a kódtáblának megfelelõen interpretáló betûkészletet alkalmazunk, pl. a 'régi' Windows-betûkészletek közül a "... CE" jelûeket. A betû konkrét grafikai megjelenése pedig azon múlik, milyen betûtípus (Helvetica, Times stb.) alapján készült az általunk választott betûkészlet (ld. még Character sets and codepages).

Tekintsük át röviden a kódtáblák (leegyszerûsített) történetét -- magyar szemmel. (Az alkalmazott rövidítések: ANSI: American National Standards Institute; ISO: International Organization for Standardization; MSZH: Magyar Szabványügyi Hivatal.)

A személyi számítógépek elsõ karakterszabványa az ASCII (American Standard Code for Information Interchange) volt. Ez a szabvány (ANSI X3.4-1986 (R1992), ill. ISO 646:1991) 7 bitet bocsátott rendelkezésre a kódok tárolásához, ennek megfelelõen összesen 128 különbözõ karakter (vagy egyéb jel) egyidejû használatát tette lehetõvé. Ez tökéletesen elegendõ is volt az angol nyelvû szövegek esetében, ám figyelmen kívül hagyta a más nyelveken kommunikálni kívánók igényeit.

A következõ lépés a 7 bitrõl 8 bitre való áttérés, ez a lehetõségek megduplázása volt. Az így rendelkezésre álló összesen 256 karakterhely -- az új, 8 bites kódlapok elsõ felét (0-127) továbbra is egységesen az ASCII-ben meghatározott karaktereknek tartották fenn -- már elégnek bizonyult a legtöbb nyugat-európai nyelv speciális karaktereinek feldolgozására (ANSI/ISO 8859-1:1987 "Latin 1"). Ám a bõvítésnek ebbõl az elsõ körébõl kimaradtak a kelet-európai nyelvek. Központi megoldás híján az egyéni útkeresés ideje jött el, így került kifejlesztésre a speciálisan a magyar felhasználók igényeit szem elõtt tartó ún. CWI kódtábla. Ez azonban nem találkozott a nagy számítástechnikai cégek érdekeivel, akik érthetõ módon egy átfogó kelet-európai kódtáblában gondolkodtak. Az elsõ változat, melyet az IBM dolgozott ki, operációs rendszerében pedig a Microsoft is alkalmazott, 852-es kódlap néven vált ismertté, s részévé vált a magyar szabványnak is (Codepage 852 (Eastern Europe); MSZ 7795-3:1992 / ASCII/PC).

De ezzel még nem ért véget a magyar felhasználók kálváriája: grafikus operációs rendszerében a Microsoft áttért az ISO által is elfogadott, "Latin 2"-ként emlegetett kódtáblára (ISO 8859-2:1987, mely lehetõvé teszi az albán, cseh, angol, finn, horvát, ír (gael), lengyel, magyar, német, román, szlovák, szlovén és szoráb nyelvek karaktereinek egyidejû használatát. Természetesen ezt sem lehetett figyelmen kívül hagyni a magyar szabvány meghatározásakor (MSZ 7795-3:1992 / ASCII), melyben egy harmadik kódtábla is helyet kapott: a 'nagygépeknél' használatos EBCDIC (Extended Binary-Coded Decimal Interchange Code) (MSZ 7795-3:1992 / EBCDIC).

A dolog egyetlen szépséghibája az maradt, hogy a Latin 1 és Latin 2 (illetve a további nyelveket bekapcsoló Latin 3-10) kódtáblák egymás alternatíváiként tudnak csak mûködni, ami azt jelenti, hogy ugyanahhoz a 8 bites kódhoz az egyikben ilyen, a másikban amolyan karakter rendelõdik. Ilymódon az eltérõ kódtáblák által támogatott nyelvek (pl. a magyar és a francia) elvileg nem használhatóak egy szövegen belül (a HTML-dokumentumok esetében pl. ez a mai napig leküzdhetetlen akadályt jelent).

Ennek a problémának a megoldását tûzték ki célul a Unicode megálmodói: a karakterek kódolásához immár 16 bitet igénybe vevõ kódtáblában a világ összes nyelvének (s nemcsak, ill. elsõsorban nem a latinbetûs írásrendszerûeknek) összes karakterét szeretnék elhelyezni. A 2.0-s változatában nemzetközi szabványként is elfogadott kódtáblában (voltaképpen az ISO 10646-1:1993 'elsõ fele': UCS-2 (Universal Character Set); a teljes ISO 10646 4 byte-ot tart fenn: UCS-4) 65536 kódhely áll rendelkezésre, melyek közül jelen pillanatban kb. 39000-et definiáltak, 18000-et késõbbi használatra lefoglaltak, s 6000-et bocsátottak az egyes felhasználók privát használatára. De még ez utóbbi, hivatalosan szabad területnek szánt rész felosztásának, betöltésének koordinálására is született 'civil' kezdeményezés.

A Unicode-ra épül a Windows 1250-es jelû karakterkészlete, s feltételezhetõ, hogy hamarosan minden népszerû grafikus operációs rendszerben problémamentesen megoldódik a Unicode-karakterek kezelése.

3.3.3 Alternatív megoldások

Eltérõ megközelítést képvisel az SGML korábbiakban már bemutatott módszere: a speciális, az ASCII-ban nem található karaktereket "entity"-ként, kizárólag ASCII-jeleket felhasználó 'körülírásukkal' határozza meg (pl. á: á). Az SGML ilyen értelemben nemcsak platform-, de kódtábla-független kódolási rendszerként is mûködik. Az SGML Latin 1 készlete 62 karaktert tartalmaz, az ehhez kiegészítésként kapcsolódó Latin 2 készlet <!ENTITY % ISOlat2 PUBLIC "ISO 8879-1986//ENTITIES Added Latin 2//EN"> 122 karaktere között megtalálhatóak a magyar nyelvéi is. Az SGML-ben tehát szintén nem jelent problémát az ún. Latin 1 és Latin 2 karakterek párhuzamos használata.

Érdekes színfoltot jelent az Internet, ezen belül a World Wide Web rohamos terjedésének köszönhetõen elõtérbe került HTML-nyelv. Mint afféle tisztességes SGML-alkalmazás, elsõ pillantásra ez is megkerülni látszik a kódtábla-problémát, hiszen a speciális karaktereket szintén a fenti struktúrájú "entity"-ként kódolja -- legalábbis látszólag. Ugyanis a HTML-nek a gyakorlati megjeleníthetõség érdekében kompromisszumot kellett kötnie a rendelkezésre álló technikai lehetõségekkel. Azaz, alkalmazkodnia kellett a 8 bites operációs rendszerekhez, s azok kódtábla-szisztémájához. Ennek megfelelõen a HTML-dokumentumok fejlécében -- csakúgy, mint az SGML-alapúakban -- definiálhatjuk a szöveg kódolásakor használt kódtáblát, ám ennek alapértéke nem más, mint az ISO 8859-1... Az á formula sajnos csupán csalóka felszínnek bizonyul, mely alatt a á kód bújik meg, melyre a HTML könyörtelenül le is fordítja ravasz körülírásunkat.

Az ebbõl eredõ probléma a magyar nyelvû szövegekben -- immár ismerõs módon -- a kis és nagy õ és û betûknél jelentkezik. Míg az összes többi magyar karakter megtalálható, ráadásul ugyanazokon a kódhelyeken a Latin 1 készletben, addig ezek olyan helyre tévedtek (245 és 251 ill. 213 és 219), melyek a rivális kódtáblában már mások (a spanyol hullámos o ill. a francia kalapos u) számára foglaltak. Ezt fogalmazza meg a magyar szövegeket HTML-ben kódolók azon empirikus tapasztalata, mely szerint "otilde-t kell írni, hogy magyar õ jelenjék meg". Ez azonban már attól függ, hogy olyan betûkészletet állítunk-e be a felhasználói oldalon, mely az adott kódot a Latin 2-es táblának megfelelõen interpretálja. A kódolói, szolgáltatói oldalon viszont mindaddig tisztázatlan állapot uralkodik, amíg meg nem történik az ISO Latin 2 kódtábla fejlécben való definiálása.

A fentiek figyelmen kívül hagyásával, 'gondatlanul' használt HTML pedig azzal a veszéllyel jár, hogy a magyar nyelv történetének kései kutatói néhány évszázad távolából visszatekintve arra a megállapításra juthatnak majd, hogy a második évezred fordulóján a magyar nyelvben két párhuzamos írásrendszer élt: az egyik a hagyományõrzõ, mely az elavult, kézírásos médiumra volt jellemzõ, s mely a tradicionális dupla éles ékezetes õ-höz és û-höz ragaszkodott, a másik a haladó, a "bedrótozott" beszélõk csoportja által támogatott, mely a hullámos o-t és a kalapos u-t részesítette elõnyben. Pusztán a kódokból mindenesetre ez lesz kiolvasható...

A magyar nyelvû szövegek rögzítéséhez szükséges karaktereknek a fenti kódtáblák ill. kódrendszerek szerinti kódjait táblázatban foglaltuk össze. A szabványok nem feltétlenül határozzák meg az összes rendelkezésre álló kódhely tartalmát; az 'üres helyeket' a gyakorlatban alkalmazott karakterkészletek szabadon használhatják (pl. a 8 bites Windows-karakterkészletek bõvebbek, mint az alapjukul szolgáló ISO 8859-es szabványok).

3.3.4 Anomáliák

A tökéletes megoldástól azonban még mindig elég távol vagyunk.

A mai magyar nyelvtani rendszer fonetikus alapokon nyugszik. Ennek megfelelõen az érvényben lévõ helyesírási szabályzat (A magyar helyesírás szabályai, Akadémiai Kiadó, Budapest, 1984) több írásjegybõl álló, de önálló betûknek tekinti a következõket: cs, dz, dzs, gy, ly, ny, sz, ty, zs. Ez a meghatározás nem pusztán formális: szerepet játszik a betûrendbe sorolásnál, vagy ami még fontosabb: az elválasztási szabályoknál. Elõzetes teoretikus döntést igényel tehát, hogy a magyar nyelvû szövegek esetében egyszerûen írásjegyeket vagy a magyar ábécé betûit kívánjuk rögzíteni. (Az utóbbi esetben külön kódokat kellene alkalmaznunk a t, az y és a ty jelölésére; az elõbbi esetben viszont semmi okunk sincs arra, hogy az ü kódjaként ne fogadjuk el az "u + [umlaut]" szintetikus kódolási formát.) Ám ezzel még korátsincs vége a bonyodalmaknak: a 12. pont "régi, ma már egyébként nem használatos betûk"-ként határozza meg a következõket: aá, eé, eö, ew, oó, y, ch, cz, s, th, ts, w. A sor végén pedig fatális módon ez áll: stb.... (A betûk, 3-13. pont)

Meglehetõsen bonyolult a magyar nyelv írásjelhasználatának szabályozása is. Számítógépes dokumentumok létrehozásakor gyakorta figyelmen kívül hagyják a magyar (nyitó) idézõjelnek az angolszásztól való eltérését, vagy a kötõjel, a nagykötõjel és a gondolatjel közti különbséget. A kétjegyû betûkéhez hasonló problémát jelent a három pont esete, mely sajátos funkciójában semmiképpen sem tekinthetõ három mondatlezáró írásjel együttesének. Az ún. belsõ idézõjelet sem szabad összetévesztenünk a francia idézõjellel, hiszen a nyitó és záró jelek iránya éppen fordított. Meglepõ módon a helyesírási szabályzat nem foglalkozik az aposztróf kérdésével, pedig ennek is több változata ismeretes. (Az írásjelek, 239-275. pont)

A szöveges dokumentumokkal kiemelten foglalkozó nyelv- és irodalomtudomány további érdekes szempontokat vet fel. A magyar nyelv története során nagy változásokon ment keresztül, nemcsak nyelvtanát, szókészletét, hanem helyesírását (illetve írásmódjait) tekintve is. Az igényes szövegrögzítés nem törekedhet ezen különbségek elfedésére. Éppen ellenkezõleg, a forrás minél tökéletesebb visszaadását kell megcéloznia, ami azonban lehetetlen az eredeti karakterek reprodukálása nélkül. A mellékelt ábrák ízelítõt adnak a régi magyar (kéziratos ill. nyomtatott) szövegemlékeinkben található jelek készletébõl (Varjas Béla, Paleográfiai útmutató 15-17. századi magyar nyelvû kéziratok olvasásához, ELTE Könyvtártudományi Tanszék, OSZK-KMK, Budapest, 1982; V. Ecsedy Judit, A régi, magyar nyelvû nyomtatványok betûkarakterei (1533-1800), MKSz, Budapest, 1986.). Sajátos követelményeket támaszt továbbá a beszélt nyelv tudományos leírása; a magyar nyelvtudomány erre a feladatra saját rendszert fejlesztett ki, az ún. egyezményes lejegyzést (R. dr. Molnár Emma: Leíró magyar hangtan, kézirat, Tankönyvkiadó, Budapest, 1990.)

A fenti szempontok érvényesítésére természetesen egyetlen nemzetközileg elfogadott szabvány sincs felkészülve. A probléma lehetséges megoldása a Magyar Nyelv Történeti Kódtáblájának kidolgozása, melyben saját jogon (azaz külön kóddal) szerepelne minden, a magyar nyelvû szövegek rögzítéséhez szükséges karakter.

Az ideális MNyTK-nak tehát -- elsõ közelítésben -- a következõket kellene tartalmaznia:

a mai magyar ábécé 44 betûjét;
a különleges írásjeleket;
az egyes nyelvtörténeti korok sajátos betûit;
a magyar nyelvû szövegek tudományos rögzítésében és feldolgozásában használatos speciális jeleket.

Az MNyTK természetesen csak abban az esetben lesz jól használható, ha kapcsolódni tud a nemzetközi szabványok valamelyikéhez. A fentiekben csupán a speciális igényeket próbáltuk meg összegyûjteni -- magától értetõdik, hogy egy magyar nyelven íródó szövegben is szükség lehet más nyelvek betûire; matematikai szimbólumokra; a nemzetközi fonetikai ábécé jeleire stb.

3.3.5 Megoldás: Unicode vagy SGML entity?

A probléma egyik megoldása a Unicode-hoz való csatlakozással képzelhetõ el: a magyar nyelvû dokumentumok speciális igényeit szem elõtt tartó MNyTK-t (pontosabban azon részeit, melyek még nem szerepelnek a szabványban) a jelenleg még üres kódhelyeken kellene elhelyezni. Merész próbálkozás volna az MNyTK-nak a hivatalos Unicode táblába való felvételét indítványozni, de a rendelkezésre álló terület nagyságának ismeretében talán nem reménytelen. Még ennél is kevesebb akadálya van annak, hogy a felhasználók önkényének átengedett szabad részek valamelyikét vegyük igénybe; ebben az esetben is érdemes volna azonban az ezen helyek betöltését koordináló civil kezdeményezéssel egyeztetni.

A másik lehetõség SGML-ben megalkotni mindazokat az "entity"-ket, melyekre a magyar nyelvû szövegek rögzítéséhez szükségünk van, s ezek összességét magyar szabványként elõírni, majd lehetõség szerint a központi SGML-forrásokkal is elismertetni.

Jelen pillanatban mindkét megoldás hosszútávon is kielégítõnek ígérkezik. Az SGML mellett szól a könnyen és platformfüggetlenül kezelhetõ ASCII-kódolás, másfelõl azonban nagyobb mennyiségû szöveg esetében nem mellékes szempont, hogy míg a Unicode az á karakter tárolásához 2 byte-ra tart igényt, addig az SGML 8 byte-on (&aacute;) képes megtenni ugyanezt.

4. Nem-szöveges objektumok

4.1 Nem-karakteres minták: kotta, térkép

4.1.1 Kotta

A kotta a digitális átírás szempontjából leginkább olyan szöveghez hasonlítható, melyben az egymást követõ karakterek sora mellett még kiegészítõ információt hordozó mellékjeleket is találunk. A hatvanas évek óta számos kísérlet történt a kétdimenziós kottaírás egydimenziós, azaz karakteres megjelenítésére, azonban egyetlen rendszer se érte el a szabvánnyá válást. A kotta-digitalizálással kapcsolatos kutatások áttekintéséhez a legjobb kiindulópont talán az Európai Unió bécsi központú Harmonica projektje, melynek célja, hogy feldolgozza és bemutassa az ezen a téren elért eddigi nemzetközi eredményeket. Az alábbiakban bemutatjuk a fõbb metanyelv-ajánlásokat, illetve kísérleteket, -- részben a Harmonica projekt alapján:

ZIPI Music Parameter Description Language (MPDL)

A Computer Music Journal-ban 1994-ben közzétett leírónyelv. A hangjegyeket kiegészítõ zenei paraméterek leírására szolgál. A legáltalánosabban elfogadott paramétereket definiálja csak és nyitva hagyja a lehetõséget továbbiak leírására.

Music Notation Interchange File Format (NIFF)

1995-ben készült, grafikus információt minimális mértékben használó, sokoldalú, flexibilis leíróformátum.

Unicode javaslat (ISO/IEC 10646)

Javaslat zenei anyagok, kották karakteres kódolására a Unicode még üres kódhelyein. A 220 elembõl álló kódkészlet a nyugat-európai zene kottajelölésének teljes körû leírását célozza, alapja a Common Music Notation, melyet számos forrásból még kiegészítettek.

Thesaurus Musicarum Italicarum

Az Utrechti Egyetem kutatási projektjének egyik célja, hogy SGML-alapú kottaátíró rendszert készítsen, vagyis kidolgozza a kotta dokumentum-típus DTD-jét. Kiindulási alapul a TEI-ajánlást használják, melyben új, kiegészítõ elemkészletet definiálnak az 1961-75 között kidolgozott DARMS rendszer alapján.

4.1.2 Térkép

Napjainkban zajlik a térképészet digitális forradalma, számos térképészeti és térinformatikai kutatás kutatás foglalkozik a térkép-digitalizálással, illetve digitális térképek különféle célú felhasználásával. Ezek áttekintéséhez kiváló kiindulópont az Eötvös Loránd Tudományegyetem Térképtudományi Tanszékének homepage-e. Digitális könyvtárak is foglalkoznak térinformatikai szolgáltatással, így például Berkeley Digitális Könyvtár vagy az Alexandria Projekt.

A térképek azonban napi használati tárgyak, melyek a felhasználó számára értéküket vesztik abban a pillanatban, amint már nem felelnek meg az ábrázolt valóságnak. Így e térinformatikai kutatások célja is elsõsorban a naprakész, sokoldalúan használható térképek elõállítása, és a muzeális, illetve történeti értékû régebbi, tartalmában elavult térképek digitalizálásának kérdése háttérbe szorul. Mivel ezek jelkészlete rendkívül nehezen vagy egyáltalán nem írható le szabványos metaadatokkal, egyelõre az egyedüli megoldásnak a nagyfelbontású szkennelés tûnik. Ez természetesen megnehezíti a weben keresztüli hozzáférést.

Muzeális értékû térképek digitális publikálására úttörõ hazai példa Szántai Lajos Atlas Hungaricus, Magyarország nyomtatott térképei (1528-1850) c. két kötetes könyve (Akadémiai Kiadó, 1996), melynek CD-ROM melléklete 45 térképet tartalmaz kétféle minõségben: 640x480 pixeles, 8 bit/pixel színmélységû tömörített GIF változatban, illetve 2000x1400-tól 4000x3000 pixelig terjedõ méretben, 24 bit/pixel színmélységben, tömörítetlen TIFF file-okban. E kétféle tömörítés lehetõvé teszi, hogy az olvasó a pillanatnyi igényei és technikai lehetõségei szerinti változatot használja.

4.2 Belsõ minta nélküli objektumok: képek

A képek és fakszimilék digitalizálását a washingtoni Kongresszusi Könyvtárban mûködõ nemzeti digitális könyvtár gyakorlata alapján mutatjuk be, ugyanis ez jól tükrözi a lehetséges és elterjedt megoldásokat, ugyanakkor megfelelõen dokumentált is.

A projekt elsõsorban szolgáltató könyvtár, nem múzeumi, illetve archiváló jellegû. Ezzel együtt minden dokumentumot a technika engedte legnagyobb hûséggel rögzítenek, az olvasók számára szolgáltatott változat minõségét pedig a rendelkezésre álló adatátviteli lehetõségekhez, illetve a felhasználói igényekhez igazítják. A szolgáltatás elsõsorban WWW alapú, de a késõbbi, nagyobb igényû technikai lehetõségek elõtt is nyitva hagyják az utat a TEI-formátumú szövegek és az archiválási célokra készített nagyfelbontású digitális képek.

4.2.1 Képgyûjtemények

A könyvtár háromféle minõségben digitalizál minden képet:

(1) Bélyegkép, mely a bibliográfiai leíráshoz kapcsolódik és lehetõvé teszi, hogy a felhasználó eldöntse, szüksége van-e a nagyobb változatra. Adatok: 8 bit/pixel színmélység, GIF formátum a saját tömörítés eljárásával, 200x200 pixeles méret.

(2) Referensz, ez a ténylegesen használt változat. Adatok: 24 bit/pixel színmélység, JPEG formátum 10:1-es tömörítési aránnyal, különféle méretben 500x400 pixeltõl 1000x700 pixelig. Tervezik nagyobb felbontás szolgáltatását is: 2000x1400-tól 4000x3000 pixelig.

(3) Archivált példány, melyet tömörítés nélkül, illetve a jövõben minõségvesztés nélküli tömörítéssel rögzítenek, elsõsorban reprodukciók és késõbbi esetleges újratömörítés céljára. Ehhez a változathoz jelenleg a felhasználók nem férhetnek hozzá. Adatok: 24 bit/pixel színmélység, TIFF formátum tömörítés nélkül. A felbontás változó, jelenleg 500x400-tól 1000x700 pixelig, késõbb esetleg nagyobb felbontásban. Csak a legnagyobb felbontású változatot tárolják.

Fontos megjegyezni, hogy a TIFF formátum lehetõvé teszi a digitalizált képpel együtt szöveges leíró-információk rögzítését is. Ennek felhasználását, illetve az így készíthetõ képi adatbázis lehetõségét elemzi Manfred Thaller (1993), a Kongresszusi Könyvtár pedig részletes kódolási utasítást dolgozott ki az 5.0 verziójú TIFF képekhez.

4.2.2 Fakszimilék

A projekt kísérleteket folytat fakszimile és kereshetõ szövegfile együttes rögzítésére. A szövegrögzítés alapvetõen a TEI-ajánlás szerinti SGML-metakódokat használja, de a fejléc (header) adatai minimális mértékben vannak csak kitöltve, mivel a könyvtár önálló bibliográfiai adatbázist használ. A WWW-n szolgáltatott szövegeket butítják, vagyis az interpretáló-jellegû TEI-kódokat megjelenítés-orientált HTML-kódokká alakítják. A felhasználó hozzáférhet az SGML-változathoz is. A szövegek rögzítésénél 0,05 százalék a megengedett hibaarány.

A digitális fakszimiléket is többnyire tónusos képként rögzítik, bár a tapasztalataik azt mutatják, hogy a nyomtatványok és vonalas rajzok esetében a kétszínû bitmap jobban használható. Mivel az elv az, hogy a lehetõ legtöbb információt kell rögzíteni, ezért ilyen esetekben is elkészítik maximális felbontással a tónusos változatot, noha az olvasó csak a kétszínû bitmapet használja.

Mivel a digitális fakszimile egy szövegfile-hoz tartozik, itt nem készítenek bélyegképet, csak referensz és archív változatot:

(1) Referensz változat, színmélysége fekete-fehér másolatnál 8 bit/pixel, színesnél 24 bit/pixel, tömörített JPEG formátum, 150 dpi felbontással.

(2) Archivált példány, tömörítés nélkül. Színmélysége azonos a referensz példányéval, tömörítetlen TIFF formátumban, 300 dpi felbontással.

(3) Archivált példány, tömörítéssel. Kísérleti változat, melynek színmélysége és felbontása azonos a tömörítés nélküli változattal, azonban a file tömörített JPEG formátumú. A projekt irányítói közül egyesek úgy vélik, a fakszimile esetében elegendõ az olvashatóság megõrzése, vagyis a JPEG tömörítésbõl eredõ minõségromlás még a megengedhetõ határon belül van.

A projekt nem foglalkozik Adobe PDF formátumú fakszimilék készítésével, de nem zárja ki az elméleti lehetõséget, hogy más digitális könyvtárak ezt a technológiát használják fakszimilék készítésére. Ugyanakkor kísérleteket folytat vonalas ábrák és nyomtatványok CCITT, vagyis a faxgépek által használt formátumú tömörítésére, TIFF formátumban, 300 dpi felbontással. Ugyancsak folynak kísérletek a nyomtatott tónusos fotók raszterszerkezete és a szkenner közötti interferenciából adódó zavaró hullámkörök kiszûrésére, azonban a minden szempontból megnyugtató megoldás még nem ismert.

A digitális fakszimile és a szövegfile egymáshoz rendelésére a projekt a Berkeley Egyetemen kifejlesztett Ebind szoftvert használja, mely lehetõvé teszi a TEI-formátumból HTML-re konvertált file-okba GIF-formátumú bélyegképek beillesztését.

A mikrofilmen tárolt anyagok digitalizálása természetesen további kérdéseket is felvet. A washingtoni kísérletek során a negatív film szkennelése bizonyult a legcélravezetõbbnek, ugyanis ezen látszanak legkevésbé a fizikai sérülések és a por. A képeket JPEG file-okban rögzítették, 8 bit/pixel színmélységben. A digitalizálás során az olyan mikrofilm-kockákat, melyeken egy könyv két oldala volt látható, oldalanként külön-külön rögzítették, azonban a kéziratlapokat minden esetben egyetlen képen.

4.3 Idõalapú dokumentumok: hang és mozgókép

Jelenleg e két médium digitalizálása még egyáltalában nem tûnik véglegesen megoldottnak, a washingtoni projekt fel van készülve arra, hogy a tömörítési technológiák fejlõdésével esetleg újra kell digitalizálni az eddigi anyagokat. Emellett gondot okoz a web-alapú szolgáltatás is, hiszen a jobb minõséget adó, de nagyobb helyi tárkapacitást és átviteli sebességet igénylõ letölthetõ file-ok, illetve a gyengébb minõségû, de kényelmesebben használható streaming megoldások között kell megtalálni az arany középutat.

(1) Letölthetõ hang-file: Microsoft WAVE-formátum, 22,05 kHz mintavétel, 16bit, mono.

(2) Streaming hang-file: RealAudio formátum, 14,4-es modemre tömörítve (1997 elején).

(3) Mozgókép file: 320x240 pixel képméret, 30 kép/sec, MPEG-1 tömörítés, illetve ezzel azonos minõségû Quicktime file. Az átlagos file-méret 9 Mbyte/perc. A washingtoni projekt jelenleg még nem kínál streaming video formátumot.

Természtesen a fenti formátumok egyike sem megfelelõ az eredeti, analóg médiumot kiváltó archiválásra. Ennek kérdéseivel foglalkozik a már említett Harmonica projekten kívül az Ausztrál Nemzeti Könyvtár és az amerikai Kongresszusi Könyvtár egy testülete is.

Végül megjegyezzük, hogy elõkészítés alatt áll az MPEG-7 szabvány, mely lehetõvé teszi -- a TIFF formátumhoz hasonlóan -- kereshetõ, szöveges leíró-információ rögzítését az audio/video adattal fizikailag azonos file-ban. A nemzetközi szabvány elsõ vázlata 1999 végére, a szabvány elfogadása 2001-re várható.

5. Javaslat helyett

Hogy a számítástechnika a leggyorsabban változó területek közé tartozik, nem szorul bizonyításra. Nemcsak a folyamatosan cserélõdõ hardverek és szoftverek világa tûnik kaotikusnak, de a szabványok, szabványjavaslatok és kvázi-szabványok is egymással rivalizálnak, - miközben folyamatosan változnak, fejlõdnek.

A digitális rögzítés egyedül üdvözítõ módszereinek kijelölése kétségkívül lehetetlen feladat. A követendõ eljárás olyan technikák választása, melyeknél biztosítottnak látszik az esetleg szükségessé váló konvertálások elvégezhetõsége. Ennek legfontosabb feltétele a kódolási rendszer lehetõ legteljesebb mértékû átláthatósága és az információvesztéstõl mentes kódolás.

A digitális könyvtárnak tehát nemcsak beszerzési, de rögzítési ill. archiválási politikával is rendelkeznie kell. Az ezekre vonatkozó irányelveket pedig nem szabad egyszer s mindenkorra eldöntötteknek tekinteni, hanem - adott esetben egy speciálisan erre a feladatra létrehozandó munkacsoport keretei között - folyamatosan ellenõrizni, újragondolni, s az átalakuló technikai lehetõségeknek ill. olvasói elvárásoknak megfelelõen frissíteni kell.

Felhasznált irodalom

(A kizárólag online hozzáférhetõ irodalmat a szövegben jelöltük.)

DÁVIDHÁZI Péter, A hatalom szétosztása: (poszt)modernizáció a szövegkritikában, Helikon, 1989, 3--4, 328--343.
V. ECSEDY Judit, A régi, magyar nyelvû nyomtatványok betûkarakterei (1533-1800), MKSz, 1986.
GABLER, Hans Walter, A kiadói szöveg születése: a számítógép bába-szerepben, Helikon, 1989, 3-4, 425-426.
GÁL György, "A 'Répertoire de la Poésie Hongroise Ancienne' adatmodellje", Irodalomtörténeti Közlemények, 1989, 3, 267-272.
HÁRTÓ Gábor, "A grafikai mozzanat a szövegben", Literatura, 1995, 2, 204-212.
HORVÁTH Iván, H. HUBERT Gabriella, FONT Zsuzsa, HERNER János, SZÕNYI Etelka, VADAI István, RUTTNER Tamás, GÁL György, Répertoire de la poésie hongroise ancienne, Paris: Nouvel Objet, 1992.
HORVÁTH Iván: "Szöveg", 2000, 1994, november, 42-53. (További elérési utak: Internet Expo Magyar Pavilon, Oktogon megálló, MEK Társadalomtudományi olvasó)
HORVÁTH Iván, Számítógépes költészet magyarul
HORVÁTH Iván, "Pour une histoire nouvelle de la littérature hongroise", elõadás 1996. szeptember 12-én, a IV. Nemzetközi Hungarológiai Kongresszus nápolyi ülésszakán.
HORVÁTH Iván, "Bölcsészet a bábeli könyvtárban", 2000, 1997, május, 61-63.
LOTMAN, J.M., Szöveg -- modell -- típus, (szerk.: Hoppál Mihály) Budapest, 1973.A magyar helyesírás szabályai, Akadémiai Kiadó, Budapest, 1984. A betûk (3-13. pont), Az írásjelek (239-275. pont).
R. dr. MOLNÁR Emma, Leíró magyar hangtan, Kézirat, Tankönyvkiadó, Bp. 1990.
PAJZS Júlia, Számítógép és lexikográfia, MTA Nyelvtudományi Intézete, Budapest, 1990.
PAPP Tibor, Disztichon alfa (Elsõ magyar versgenerátor)
PAPP Tibor, Múzsával vagy múzsa nélkül? (Irodalom számítógépen), Balassi Kiadó, Bp. 1992.
STOLL Béla, Szövegkritikai problémák a magyar irodalomban, Budapest, 1987.
SZÖRÉNYI László, "Ars mutilandi Hungarica, azaz a csonkítás mestersége magyar módra", Gondolatjel, 1984, 2, 14-22; 3, 20-21; 4, 18-20; 6, 16-24.
SZÖRÉNYI László, "Szöveggondozás -- magyar módra (Delfinológiai vázlat)", in: Sz. L.: "Múltaddal valamit kezdeni", Magvetõ Kiadó, Bp., 1989, pp. 250-79.
THALLER, Manfred, "The Archive on the Top of Your Desk? On Self-Documenting Image Files", in Jurij Fikfak, Gerhard Jaritz (eds), Image Processing in History: towards Open Systems, St. Katharinen, 1993. (Halbgraue Reiche zur Historischen Fachinformatik Band A16, pp. 21-44)
TURI László, Számítógép az irodalomtudományban, szakdolgozat, Eötvös Loránd Tudományegyetem Tanárképzõ Fõiskolai Kar, 1992. MEK Társadalomtudományi olvasó
VARJAS Béla: Paleográfiai útmutató 15-17. századi magyar nyelvû kéziratok olvasásához. ELTE Könyvtártudományi Tanszék, OSZK - KMK, Bp. 1982.

[ címlap | impresszum | keresés | mutató | tartalom ]

GOLDEN Dániel - TÓTH Tünde - TURI László Virtuális örökkévalóság: objektumok a digitális könyvtárban