A genealógia, mint adatfeldolgozási probléma
Késmárky István (geofizikus)
Az adat- és szövegfeldolgozás gyors fejlődése, a nagy digitalizálási projektek és az internethasználat általánossá válása a genealógiai kutatás lehetőségeit is bővíti. A bővülő kutatás és az életművek kívánatos integrálása azonban komoly műszaki problémákat vet fel:
- A genealógiai irodalomban régóta léteznek általánosan ismert „kvázi szabványok”, de a számítógépes adatfeldolgozás céljaira a „legjobb eljárások” is finomításra szorulnak. Elsősorban a személynevek és dátumok gépi felismerése a kritikus. A szabvánnyal kapcsolatban első helyen érdemes megjegyezni, hogy tárgya lényegéből eredően a genealógiának szüksége van az élet három legfontosabb eseménye – a születés, házasságkötés és halál – jelzésére három, másra nem használt karakterrel. A számítógép billentyűzet adott lehetőségeire és a magyar szakirodalom zömére tekintettel aligha jöhet szóba más, mint a „*”, „=” és a „+”.
- Pár ezernél lényegesen nagyobb terjedelmű adatállományok nehezen áttekinthetőek, és minden egyes apró művelet is hosszadalmas és fárasztó. Például, 10000 adat feldolgozása során tételenként egy-egy másodperc megtakarítás bő egyórás munkaidő nyereség - és megfordítva. A fárasztó és újabb hibák bevitele szempontjából is veszélyes interaktív munkával való takarékosság tehát elsőrendűen fontos. Ami „szabályos”, azt valahogy automatizálni is lehet. Ugyanígy, a géppel felismerhető szabálytalanságok (pl. a formailag hibás rekordszerkezet és dátumok stb.) kezelésére is vannak hatékony eszközök.
- A külföldi, indogermán írásmódot és terminológiát a felhasználóra erőltető szoftverek súlyos tehertételt jelentenek a magyar adatok tárolása, feldolgozása és publikációja során, márpedig a publikáció és az életművek integrációja a kutatás legfontosabb célja. Komoly publikálási tevékenység nem képzelhető el, ha nagytömegű „gépi formátumot” vissza kell fordítani magyarra. Emiatt fontos, hogy a „gépi formátum” és a „publikációs formátum” minél közelebb álljon egymáshoz, vagy az „átjárás” teljesen automatikus legyen.
- Sajnos, nem érdemes várni olyan szoftverekre sem, melyek a családfák automatikus, tudományos igényeket kielégítő grafikus megjelenítésére képesek lennének.
Néhány elv, amit a kutatóknak érdemes megfontolnia:
- A genealógiai kutatás - mint „előfeldolgozás” - során az anyakönyvi és egyéb dokumentumokból személyazonosításra és az életút tömör leírására alkalmas „rekordok” készülnek, a „kvázi-szabvány” szerint.
- A „rekordokat” legegyszerűbb (program)eszközökkel is nagyon hatékonyan lehet – és érdemes – rendszerezni, tárolni, hogy használhatók legyenek teljes körű keresésekre, összefüggések, kapcsolatok feltárására. A külföldi szoftverek használata könnyen zsákutcába vezet.
- Érdemes minden feltárt adatot publikálni. Ami nekem nem látszik fontosnak, az más számára nagyon is az lehet. Ilyen alapon számos kapcsolatfelvétel, személyes eszme- és adatcsere jöhet létra az átfedő érdeklődési területű kutatók között.
Példák:
A legegyszerűbb hagyományos adattárolási és publikációs forma a kötött sorrendű genealógiai lista, ahol a kiscsaládok gyerek sorozatai közvetlenül az apa rekordja után, hierarchikusan, skatulyázott rendszerben vannak elhelyezve. Ez az adatstruktúra, néhány nagyon egyszerű html kóddal kiegészítve alkalmassá tehető a generáció sorszámával arányos „behúzási mélység” azonnali, rugalmas megjelenítésére a képernyőn, mint amilyen a Marek-féle adatbázis. Az áttekinthetőbb, tagolt megjelenítés a minőségellenőrzés szempontjából is hasznos. Az előadó vállalta, hogy érdeklődés esetén ezeket az ismereteket egy 1-2 órás tanfolyamon teljes részletességben is előadja.
Képek
Beküldő: Késmárky István (geofizikus)
|