2020. jún 10.

A tudás és a részek összege

írta: pimblog
A tudás és a részek összege

A Wikidata és a PIM adatbázisai

A tudás és a részek összege

Azt hiszem, bátran kijelenthetjük, hogy a blog olvasóinak jelentős része találkozott már valamilyen online katalógussal. Egy olyan felülettel, ahol különféle szempontok alapján deríthetjük fel az adott közgyűjtemény (múzeum, könyvtár, levéltár) birtokában lévő, vagy általa (is) szolgáltatott forrásokat, legyenek azok nyomtatott könyvek, folyóiratcikkek, hanglemezek vagy éppen festmények, relikviák, esetleg kéziratos dokumentumok. Egy-egy ilyen kulturális örökségi objektum bemutatása azonban sokkal értékesebb és sokkal informatívabb, ha a használó nem csupán magát az adott forrást, hanem annak környezetét is tanulmányozhatja, azaz könnyen és gyorsan további információkat szerezhet például egy könyv szerzőjéről, egy fényképen ábrázolt személyről, egy bizonyos stíluskorszak jellemzőiről, stb.

nadas_sok_1.jpg

Nádas Péterről készült portrék az interneten

A Petőfi Irodalmi Múzeum évtizedek óta gondozza igen kiterjedt, átfogó adatbázisát, az úgynevezett személynévteret. Ebbe a halmazba mindazok a személyek belekerülnek, akikről valamilyen nyomtatott adatforrás, például valamilyen életrajzi lexikon említést tesz, vagy éppen valamilyen díjat nyertek. A múzeumban korábban dolgozó kollégák saját kutatásai révén is több, speciálisan szűkített névhalmaz született  – a magyar főnemesek családjai, a magyar emigráns írók jegyzéke vagy éppen a diplomások igen gazdag adattára. Az évek során külön-külön végzett adatgyűjtések eredményeit 2008 óta egyetlen, integrált névadatbázisban kereshetik a kutatók, amely napjainkban már több mint félmillió személy adatait tartalmazza. 

nadas_nevter_1_1.jpg

Nádas Péter a PIM személynévterében

A PIM könyvtárának munkatársai fontosnak tartják, hogy az önálló keresőfelülettel is rendelkező névadatbázis minél több, releváns információval szolgáljon a benne szereplő személyekről. Ezért nem csupán a saját magunk által gyűjtött, illetve rögzített adatokkal szolgáljuk ki a használóinkat, hanem igyekszünk összegyűjteni az adott személyekről szóló, máshol fellelhető tudást is, amelyhez ugrópontokat, hivatkozásokat készítünk. Így, ha egy használót Nádas Péter személye érdekel, akkor a PIM adatainak tanulmányozása után lehetősége van arra, hogy az ismert magyar íróról más intézmények által közreadott információkat is megtekinthesse. Megtudhatja, mit mond Nádas Péterről a Digitális Irodalmi Akadémia, elolvashatja az ott közölt műveit, továbbvándorolhat a szerzőről írt Wikipédia-szócikkre, ahol újabb elemekkel bővítheti ismereteit, majd ellátogathat más könyvtárak katalógusaira, ahol ismét más tudásszeletekkel találja szemben magát – amik mind-mind Nádas Péterhez kapcsolódnak. 

vagolap01nadas_dia.jpg

Nádas Péter a DIA-n

A Petőfi Irodalmi Múzeum adatbázisához kapcsolódó külső adatforrások közül mindenképp érdemes kiemelni a Wikidata nevű adatbázist. Ez az adattár – hasonlóan a Wikipédiához – szabadon, mindenki által szerkeszthető, ám anyagát nem szócikkek, hanem adatlapok, úgynevezett strukturált adatok formájában tárolja. Amikor a felhasználó egy elemet ad hozzá a rendszerhez, akkor annak tárgyát (személyt, testületet, fogalmat, gyakorlatilag bármit a világon) nem egész mondatokkal, hanem adatok megadásával jellemzi. A személyeknél maradva, ilyen adatok lehetnek az illető életrajzi információi, születési-halálozási dátuma, az általa beszélt nyelvek, de megadhatók testületi tagságai, foglalkozása, vallása és más, lényeges adatai. Egy körültekintően, igényesen szerkesztett elemleírásban akár 100-150 különféle adat is megjelenhet.

nadas_wiki.jpg

Nádas Péter a Wikipédián

Egy 2017 óta zajló szakmai projekt keretében célul tűztük ki, hogy a lehető legtöbb olyan személyt felderítjük, aki a Wikidata és a PIM adatbázisában egyaránt szerepel, és a két információs adatlap között kapcsolatot alakítunk ki, azaz mindkettőn elhelyezünk egy, a másik oldal felé mutató hivatkozást, így a látogató, ha az egyik helyen megtalálja az általa keresett személyt, rögtön átugorhat a másik adatbázisra, hogy tovább bővítse ismereteit. A feladat elvégzésének másik indoka, hogy az összekapcsolás mellett úgynevezett keresőoptimalizálási szerepe is van: minél több hivatkozás mutat ugyanis egy weboldalra (például a PIM katalógusára), annál előrébb kerülhet a találati listákban, és annál több látogató keresi majd fel. 

A projekt első fázisában a magyarországi Wikipédia-közösség segítségével körülbelül tízezer kapcsolatot sikerült létrehozni, ugyanakkor hamarosan nyilvánvalóvá vált számunkra, hogy újra meg kell vizsgálni az adatbázisokat, tekintettel azok jelentős gyarapodására, ezért egy második fázis végrehajtását határoztuk el 2020 elején. A munka a Wikidata hatalmas adattárának szűkítésével kezdődött: ki kellett válogatni belőle a magyar személyeket, az őket talán legjobban azonosító születési-halálozási dátummal együtt. Ezeket az adatokat vetettük aztán egybe a Petőfi Irodalmi Múzeum által gondozott adatbázissal, s már az első körben körülbelül ötezer párra bukkantunk, ahol a személy neve, illetve születési és halálozási dátuma megegyezett. További, aprólékosabb vizsgálatokkal (pl. egyes személynevek különböző írásmódjait vagy több keresztnevét figyelembe véve) újabb, körülbelül ezer azonosságot tudtunk megállapítani, és ezekben az esetekben is „hidat verhettünk” a két adatbázis között.

halo.jpg

Hatezer új kapcsolatot sikerült felderíteni a Wikidata és a PIM adatbázisa között

Hatezer új kapcsolat. A félmillióhoz mérve talán apró szeletnek tűnik, mégis fontos láncszemek ezek az egymással összekapcsolódó adatok világméretű hálózatában, amely mindannyiunk számára könnyebbé, gyorsabbá, teljesebbé eredményesebbé, és – bízzunk benne – örömtelibbé teszi az információszerzést, tájékozódást.

 Hubay Miklós

Szólj hozzá

online adatbázis gyűjtemény digitalizáció kulisszatitkok online katalógus PIM Hubay Miklós wikidata Névtér