Adatkoncentráció a katalógusban – a feltárt adatoktól a rejtőző kapcsolatokig

Posted by Buzai Csaba - szeptember 4th, 2020

A digitalizálás számtalan adat és adatkapcsolat lehetőségét kínálja, amely a könyvtári adatkezelés műhelyeiben meghatározott folyamatok elvégzését igényli a tárolásra kijelölt adatok kiválasztásánál és rendszerszintű elhelyezésénél. A műveletekben jelentős tényező az adott szakterület jellege, a könyvtár típusa, a használók összetétele, de a változó és egyedi körülmények mellett az állandóságot jelentő szakmai tényezők adnak nélkülözhetetlen keretet az egységesség és szabványosság megteremtéséhez, a nyers adatok használatra történő előkészítéséhez.

A könyvtárosok számára a szakmai előzmények és oktatási stúdiumok nyújtják az elméleti és gyakorlati hátteret ahhoz, hogy egy információs halmazból kinyerjük a leírandó adatok tömörített jellemzőit és az egyedi jellemzőkön alapuló összefüggéseket. Az eredmény a könyvtár, a használók, a gazdaintézmény, vagy az alkalmazott technológia környezetében optimálisan és rendszerbe foglalva segíti a leírási elemekkel ellátott információk szervezését. Hajlamosak vagyunk a folyamat jelentőségét alábecsülni, miközben láthatjuk, hogy az üzleti adatok és adat szótárak létrehozásánál jóval nagyobb potenciál mellett is rendkívül időigényes munkát kell végezni a „rendetlenség” és információhiány elkerülése érdekében.

A katalógus funkciók újraértelmezése – adatszintű hozzáférés és hálózati megközelítés

A web szintű katalogizálás korában nem alapozhatunk csak a nyomtatott művek katalógusaihoz kialakított hagyományos funkciókra. Az adatok kiszabadultak a könyvtári rekord keretéből, és azonosítókkal ellátott szabványos formában, a leírásba foglalt kapcsolati hálóikkal is jellemzik az adott információt vagy információforrást. A kapcsolati hálóban elfoglalt helyük és szerepük megteremti azt a lehetőséget, hogy azonos adatok esetében eltérő szakmai környezetben módosított értelmezéseket támogassanak. Az adatok globális jellege és viszonylagos időtlensége szétfeszíti a korábbi intézményi, regionális vagy országos kereteket, önálló létezőként részévé válhatnak a legtávolabbi könyvtár rendszereinek is. A digitális gyűjtemények lehetőséget adnak a bibliográfiai adatok kiegészítésére és a digitalizált tartalom közvetlen elérésére, ezért már nem csak katalógusról, hanem az adatok és azok kapcsolatainak keresési szintjéről van szó. Az adatok a web2 technológia környezetében korlátlan kapcsolatokra vannak felkészítve az open linked data technológiához csatlakozó különböző adatformátumoknak köszönhetően. A szemantikus web és a mesterséges intelligencia térnyerésével tovább nőtt az igény a digitális tartalmakat leíró adatok egységességére, újrahasználására, felismerhetőségére, amelyek előfeltételei az automatikus adat- és szövegfelismerő, gépi tanulást támogató eljárások alkalmazásának is. Ez a nélkülözhetetlen igény egyes szakírók szerint a katalógus reneszánszát hozza magával, elsősorban az un. authority (ellenőrzött, hitelesített stb.) adatoknak köszönhetően, amelyek szabályos és rendszerbe foglalható módon képviselnek személyeket, intézményeket, témákat, szakterületeket, földrajzi helyeket. Egyediségük mellett viszonylagos álladóságot képviselnek, amely az átvételeknek előfeltétele, mégsem tekinthetők lezártnak, az új információk folyamatosan kiegészíthetik új elemmel a korábbi névtár struktúráját vagy elemeit. Jó példa erre, ha egy magyar tudós eddig ismeretlen munkahelyére, művére, családi vagy szakmai kapcsolatára derül fény például egy külföldi akadémiai füzet digitalizálásakor – bárhol a világban, közkinccsé válik az addig feltáratlan összefüggés. Az adatok megosztott használata miatt újra kell gondolni a folyamat logikáját, megoldásait és eszközeit is, de minden lokális újratervezés helyett célszerű egy már létező rendszerhez történő illeszkedés. A rendszerbe helyezés vagy gazdagítás költség és időigényes, nagyon sok tudást igényel, ezért láthatjuk eredményesnek a nagy könyvtárak körül koncentrálódó kooperációs katalogizálási gyakorlatot. A szükséges elméleti, gyakorlati, szabványosítási és technológiai csúcsmegoldások hátterében nem csak az intézményi, hanem hanem a nemzeti és nemzetközi szintű tudás és tapasztalat összehangolását, koncentrált megjelenését is láthatjuk.

Az adatkezelés minőségének szerepét jól mutatja az Elsevier adatkezelési piramisa (1. sz. kép):

https://www.elsevier.com/connect/10-aspects-of-highly-effective-research-data

A piramis érzékelteti a feladat összetettségét, de érdekelne, vajon a katalogizálás folyamatában és kapcsolataiban valahol feltárták-e a „flow” összes mai szükséges tudását, ismeretét, képességét és készségét, vagy a folyamat trendjeit, változásait, képzési igényeit?

Koncentráció helyett átfedések, párhuzamosságok

Igazolható a saját alkotókészség érvényesítésének szándéka, de érdemes megfontolni, mikor érdemesebb átvenni mások eredményeit. Nem csak a könyvtárak, múzeumok vagy más kulturális örökségvédő intézmények szintjén fontos kérdés az önállóság vagy együttműködés kérdése, hanem minden vonalon, ahol az adatok egységesítésével, kezelésével, struktúrában való megjelenítésével komolyan foglalkoznak.

A katalógus metaadatai jellemzik azokat az információkat, amelyeket képviselnek, de a hálózaton közlekedő használó az azonnal igénybe vehető információkat keresi. A katalógusok súlyozott, kevesebb információtartalmának keresésében némi jártasságra van szükség a további útvonalakhoz és a közvetlen információeléréshez. Nem véletlen a türelmetlen használók számára egyszerűsített keresőablakok alkalmazása a haladó keresések mellett. Jelenleg az online hozzáférhető források könyvtáron kívüli előállítása és használata látszólag könnyebben vezet célhoz, mintha a digitális tartalmak alapján elvégeznénk a nyers adatok felkészítését és struktúrába helyezését a könyvtári katalogizálás folyamataihoz hasonlóan. Az internetes találatok gyors érkezése hamis elégedettséget ébreszt, nem láthatjuk az előfordulási lehetőségek teljességét, a keresés gyakran szétszórt, spontán, egyedi. Nem ismerjük a publikálás előzetes fázisait, nem lehetünk biztosak a szerzők és adatforrások minőségében. A kutatás közeli alkalmazásokban ezért nagyon sok energiát és költséget fordítanak a megfelelő adatkezelésre, fenntartásra és frissítésre, mert pontos elemzések szólnak az eredményre gyakorolt közvetlen hatásukról. Egyre gyakoribb a rendszer specifikus strukturált adat szótárak kialakítása, amelyekben követhető az adatok létrehozásának, tárolásának, archiválásának, összehasonlításának, frissítésének és értékelésének folyamata. A könyvtárakon kívüli tartalomszolgáltatás alkalmazásaiban a gyors elérhetőség prioritása mellett korábban kevés figyelem maradt a megőrzésre, az adatformátumok és névtárak (index tételek) egységesítésére, a szerzői jogok biztosítására. Az új generációs könyvtári katalógusokban megoldásként jelentkező súlyozott és koncentrált adat- és információ többletek ellenére is nehezen változik a katalógusfiókokba szorított szolgáltatásokról kialakított kép. A GDPR és az egyéb IT biztonsági előírások viszont általánossá tették az adatkezeléssel kapcsolatos szakmai követelmények ugrásszerű fejlődését a kereskedelmi vagy üzleti alkalmazások környezetében is, egyre inkább részévé válik a szoftverfejlesztés gyakorlatának, és egyre több adattudományi szakember alkalmazása válik szükségessé. Az adatmenedzsment gyakorlata párhuzamos úton fejlődik – gyakran a szükséges kapcsolat nélkül – a professzionális szoftverfejlesztés gyakorlatában és a könyvtárakban, annak ellenére, hogy a W3C ajánlásai mindkét területen azonos elveket, célokat és eredményeket mutatnak a rendszerfejlesztők és az adatkezelők oldaláról is. Nem tudhatjuk, mit hoz a jövő, de a két fejlődési irány találkozása vagy együttműködése jelenleg nem eléggé szervezett. A szoftverfejlesztésnek nem feladata a használói visszajelzések kezelése, ezért fennáll a veszélye annak, hogy használó-idegen terminológiák születnek, vagy a mintavétel túl kevés forrásra alapozott.

Információs csomagok – a katalógus koncentrált adattartalmai

Az adatkezelési folyamatokban régen jelenlévő ellentmondás, hogy az intézmény kereteiben készült katalógusnak, amely nyilvánvalóan tartalmazza a gazda intézmény specialitásait is, illeszthetőnek kell lennie a hálózati szintű általános használat igényeihez is.

A könyvtári katalógus ma már nem csak a könyvtári anyagok leírására szolgál, külső források linkelését és átvett adatokat is tartalmaznak, sőt saját adataikat közvetítik a külső használat céljaira is. A „visibility” kérdése a hálózati jelenlét miatt nem csak fontosabbá, hanem könnyebbé is vált, a szociális média eszközök sok könyvtár számára teremtenek lehetőséget a bemutatkozásra, néha szellemes és kreatív példákkal. A használók jelentős részének még sincs fogalma arról, hogy az internetforrások jelentős részét a könyvtárak munkájának köszönhetik, ezért jogos lépés a könyvtárak részéről a visszavezető linkek elhelyezése az internetforrásokba épített utalókkal (lásd Google Book). Ebben a folyamatban a nyomtatott és digitális anyagok leírásainak együttese inkább tekinthető információs csomagnak, mint az egyes művek leírásának, hiszen az átvett adatokkal is kiegészített leírások a használat során kialakult gyakorlatot és a lefedett szakterület specialitásait követik, tükrözve az intézmény funkcióját és szolgáltatási gyakorlatának tapasztalatait. Egy zenei szakkönyvtár nyilván más módon terjeszti ki adatait, mint egy területi, városi könyvtár. Ebben a felfogásban a katalógus forrásokat nem egy könyvtár, hanem egy magas szintű virtuális „csoport” szolgáltatásának tekinthetjük (WorldCat, Google Scholar, stb.), amelyek biztosítják az adatok újra-használatát, a kapcsolódó adatok és utalások beépítését az alkalmazott struktúrába, vagy egy szerző, folyóirat, téma vagy kiadvány teljes adatainak koncentrációját, amelyet a WorldCat katalógus későbbi bemutatásában érzékeltetünk. (Lásd bővebben Lorcan Dempsey: Thirteen Ways of Looking at Libraries, Discovery, and the Catalog: Scale, Workflow, Attention).

Beépített és változó adatok – a kapcsolatok összehangolása

A katalógusok nagy kérdése a rekord alapú adatok kombinálása azokkal az adatokkal, amelyek a használót érdekelhetik, és tematikailag indokoltak, de nem részei az adott könyvtári állománynak. Ez a folyamat régi alapokkal rendelkezik (lásd például a hiányzó szerzői, cím és kiadói adatok keresését külső forrásokból), de a globális online forrásmegosztás alkalmazásaiban megkerülhetetlen lehetőségek állnak rendelkezésünkre. A rekordok szerkesztésekor nagy szerepe van a kapcsolatok felderítésének, beépítésének, vagy a kapcsolati útvonal megteremtésének és bemutatásának, amelyet régen analitikával oldottunk meg. Jelenleg kibővíti lehetőségeinket az FRBR feldolgozási szisztéma, a linked data technológia, vagy az authority adatok virtuális készlete.

Minden bővítésnél fontos szempont a rendszerelvűség, vagyis a teljesség soha nem mehet a kezelhetőség és áttekinthetőség rovására. A divattervező mondhatja, hogy a manöken ruhája nem arra való, hogy leüljünk benne, a rendszertervezőnek viszont a funkcionalitás, használhatóság és kezelhetőség prioritását együttesen kell érvényesítenie.

A keresés, kutatás, információszerzés mindig egy adott pontból indul, de még az eldöntendő kérdéseknél sem maradunk a kiindulási pontnál. Minden találat és eredmény a továbblépést generálja. A világkatalógusokban végtelen utazásokat tehetünk, és soha nem juthatunk az út végére, mindig találunk új, érdekes és aktuális kapcsolódási lehetőséget. Az útvonal lehet eseményvezérelt is, amely később akár érdektelenné is válhat, ezért a könyvtárakban tudni kell kormányozni az aktualitás szintjét. A lehetséges útvonal kiterjedését meghatározza a feltáró könyvtárosok, adatkurátorok tudása, tehetsége, a téma összetettsége, a kereső személy műveltsége és elszántsága, és végső sorban a keresőnyelv és eszköz, a kereső szoftver vagy kereső robot fejlettsége is.

A könyvtári weboldal – „outside-in and inside-on” – a kettős funkció

A könyvtári weboldalon a könyvtári lehetőségek koncentrált bemutatása mellett kell egy olyan felettes réteg, amely az egyéb heterogén források választékát, valamilyen szintű elérését vagy keresését bemutatja. Kettős funkciót kell kezelnünk, egyrészt el kell juttatni a bibliográfiai adatokat olyan helyekre, amelyek kívül esnek a könyvtári alkalmazásokon (hivatkozási és idézetkezelők, kiadványlisták, kutatói listák stb.), másrészt útvonalat kell mutatni a könyvtárhoz az egyéb helyek kutatóinak, amely kettősséget Lorcan Dempsey, már idézett szakíró szellemesen „outside-in and inside-out” megjelöléssel illetett. Az utóbbi évek katalogizálási gyakorlatában integrálták ezeket a módszereket, viszont új helyzetet teremtenek a könyvtárak saját tartalmainak (lásd digitalizált képek, speciális állandó vagy időszakos gyűjtemények, tanulási és kutatási adatok, tájékoztatók stb.) elhelyezése, átvétele.

Az új típusú katalógusnak ösztönöznie kell a koncentrált adat-megközelítések kialakulását, ahol adott műhöz, szerzőhöz, témához megosztott, összekapcsolható források merülnek fel – az adatok több helyen történő ismétlése helyett. (VIAF, ISNI, WIKIDATA, MESH, LCSH stb.). Az open linked data technológiának köszönhetően a bibliográfiai metaadatok megosztása folyamatosan bővülő hálózati formában történhet, amelyet a globális szinten fejlesztett metaadat-szótárak kombinálásával lehet egységesen kezelni. Az elosztott adatforrások közötti keresés támogatásához komoly erőfeszítések születtek a szókincs összehangolásában és az adatok átalakításában (Ld. Schema.org, LCSH stb.). Az összesített rendszerek hátterében egységes adatmodellek állnak, amelyek az adott környezet jellemző és általános alaptematikáját tükrözik (tudás gráfok). Az új adatok és adat kapcsolatok ezek vázára épülnek, mert a hálózati felépítés és struktúra áttekinthetéséhez nélkülözhetetlen a linked data formanyelvekkel támogatott egyértelmű adatkezelés. (Lásd bővebben: https://journal.code4lib.org/?s=data+centralization.)

A könyvtári katalógus fizikai és lokális értelmezése helyett adatkoncentráció

A könyvtári katalógus értelmezése még mindig beszorul régi szűk helyére, a katalógusfiókba, vagy a helyi IKR rekordokba, holott jelenleg alig van olyan elektronikus katalógus, amely ne nőtte volna ki a fizikai vagy lokális szempontból egységet képező könyvtár vagy könyvtári rendszer kereteit.

Olvasóként és használóként egyaránt olyan könyvtári katalógusokra, szolgáltatásra vágyakozunk, amelyben összesítve, koncentráltan megkapjuk a kereséshez alkalmazható tematikát a felkeresett weboldalon. Azonban számolni kell azzal, hogy a könyvtári eszközrendszer jelenleg széttagolt, a könyvtár feladatrendszere és lehetőségei által behatárolt, ezért az internetes keresés jellegét nem tudjuk biztosítani, ezt sokan hátránynak tartják. Érthető törekvés, hogy a web2 technológián alapuló katalogizálás során a könyvtári források és eszközök koncentrálására törekszünk az adatok, a források és szolgáltatások újraszervezésével, szisztematikus megújításával. Tévhitnek bizonyult az a remény, hogy az adatkezelés fáradságos munkálatait a digitalizálás és az elektronizálás majd megkönnyíti. Előnyt jelent némely manuális tevékenység automatizálása, viszont az új igények és elvárások inkább nehezebbé tették az adatkezelést. A rendszerbe foglalás egyre magasabb intellektuális erőfeszítést követel, amely a képzésben, a munkakörök megnevezéseiben, és a többi tudományág bevonásának kényszerében is jelentkezik (nyelvészet, matematika, pszichológia, technológia, logika stb.). Az igényesség a rendszerek árában is meghozza a változást. A legújabb meglepetéseket a GDPR és egyéb IT biztonsági előírások jelentik, mert a megkívánt védelemhez csak a legdrágább eszközök nyújtanak megfelelő támogatást, például az Oracle Standard Edition helyett csak az igen drága Enterprise Edition hozza a szükséges biztonságtechnikai védelem lehetőségét. Megoldást jelenthet a közös felhő rendszerek, a megosztott tárhelyű közös szoftverek alkalmazása, de sajnos az áttérés sok munkával és tanulással jár, és a koncentrált rendszerkezelés kérdésében vannak kérdőjelek az átláthatóság, a saját adatok átadásának oldaláról.

Adatfelfedezés és adatminőség

Mikor a könyvtárosi pálya funkcionális összetevőit értékeljük vagy keressük, mindig eljutunk a kiinduló ponthoz, ki határozza meg egy mű, egy kiadvány, egy alkotás annyira fontos és jellemző adatait, amellyel képviselhető egyedisége egy rendkívül gazdag és folyamatosan bővülő információs környezetben? Ki képes akár a gépi tanulás, vagy gépi feldolgozás céljára is meghatározni az automatikus módszerekkel kezelhető „core” adatokat, amelyek megfelelő kiindulási pontként szolgálnak új és új kapcsolatok megteremtéséhez?

Az alkotó és a mű egyedisége könnyen tükrözhető egy rendszerben, azonban a többi elem világszintű használatához (például szerzőtípus, tárgyszó, műfaj, kiadvány típus, stb.) szükség van „fordítónyelvekre”, szótárakra, mert a kivételeket semmilyen rendszer nem képes jól kezelni.

A könyvtári authority adatokat rendszerező névtárak és egyéb elemzett, hitelesített és kapcsolatokkal felruházott, szabványos adattárakat (amelyek a könyvtári katalógusok gerincét és indextételeit adják), nem nélkülözhetik az integrált és rendszerkapcsolatot feltételező rendszerek könyvtáron kívül sem. A megközelítés és adatkör különbözik, egy banki rendszernél nem a művek alkotják a kiindulópontot, hanem a pénzügyi és egyéb speciális és szűkebb piaci adatok, ezért az IT adatkurátorainak elképzelésük sincs a könyvtári adatspecialisták munkájáról és a könyvtári katalógusok probléma köréről. Számukra újdonság, hogy az alap problémák azonosak, és az együttműködés helyett sok esetben folyamatos „újrakezdések” láthatók. A szoftverfejlesztési projektekben nem az általánost keresik a fejlesztők az adatok szabványosításában, mert nincs meg az a hatalmas dokumentum háttér, amelyre a könyvtárak az adatkezelés általános gyakorlatát építhették. Az üzleti vállalkozások ontológiai hátterének kialakításában nem a tudományos és dokumentációs háttér a meghatározó, hanem a vállalat üzleti gyakorlata, amelyből nehéz általánosítható tendenciákra alapozni.

Továbblépve, nagy kérdés számomra, hogy a katalógus szempontjából átértékeljük azokat az adatokat és kapcsolatokat is, amelyek valósan léteznek valamely rendszerben, vagy megjelent információ forrásban, de a felismerés, felfedezés, feltárás részünkről nem történt meg, és ezért saját, fizikailag létező rendszerünkben nem szerepelnek, de természetes részei lennének a funkció vagy a tematika alapján. Egy ideális szakkönyvtár „core” gyűjteménye és adatköre elvileg nagyon hasonló a világ bármely pontján, ezért szívesen értelmezném a látens adatokat és kapcsolatokat a nem fizikai létezőként értelmezett könyvtári katalógus részeként, még akkor is, ha ezzel nyitva marad a befejezés lehetősége.

Az újszerű katalógus értelmezésében a legjellemzőbb szabványos adatok kiemelésével vagy megteremtésének logikai és analitikai műveleteivel nem zárhatjuk le a folyamatot. Az adat minden kapcsolatának megkeresése, felfedezése, átvétele jelentheti azt az intellektuális hajtóerőt, amely a rendszer bővítéséhez, tökéletesítéséhez vezet. Gyakran egy kapcsolat létrehozásával teremthetünk új megközelítésmódot vagy új szempontot adat és adat vagy az általuk képviselt információk között. A folyamat kétoldalú megközelítése más szemléletet, gyakorlatot, sőt talán készséget is kíván. Az egyiknél rendet kell teremtenünk szigorú és tárgyszerű megközelítéssel, a másiknál szükségünk van a kreatív és asszociatív megközelítésre. Közben rendszerszinten vizsgálni kell, mekkora adatmennyiség támogatható optimálisan a káosz elkerülése érdekében.

Az egységesítés útja rögös, buktatóinak súlyos következményei vannak. Nehéz azonos vagy hasonló művekkel kapcsolatban egységes, koherens, átfedések nélküli jellemzőket adni más könyvtárakban, más személyektől, vagy eltérő időpontokban. A leírások nagyon különbözhetnek az eltérő értelmezések vagy logikai műveletek következtében (a közös katalógusok kárára), amelyek gátolhatják a közös használatot és átvételt, miközben az értelmes feldolgozási határidő szorításában dolgozunk főleg a kurrens tételek esetében. Ezért terjed a katalógus tételek vagy adatok átvétele ellenőrzött, kooperatív rendszerekből (WorldCat, LCSH, VIAF, ISNI, Europeana, HathiTrust, stb.)

A rekordból a használó önállóan léphet tovább egy rendszerben, a fejlettebb szolgáltatások pedig adott intézményre szabott kereső alkalmazásokat nyújtanak célzott, és útvonalában vezetett keresésekhez például az un. „discovery” rendszerek esetében, amelyek akkor igazán eredményesek, ha lehetőség van testre szabni az alkalmazást az adott intézmény számára. A digitális repozitóriumok létrehozásánál láthatóvá vált, hogy a használathoz szükséges egységes adat koncentráció alapjait a könyvtári katalógusokból meríthetjük a legkönnyebben. Jó példa erre a T-Systems által készített Kutatói kataszter az egyik egyetem oktatóinak munkásságáról, amely tartalmazta a kutató életrajzi adatait, munkásságát, műveinek adatait, elismeréseit, kapcsolatait. Az adatok mélyén bonyolított keresésekhez speciális tematikájú fazettás kereső alkalmazás szolgált, amely az előzetes keresési eredményeket csoportosította és szűkítette. A tetemes mennyiségű digitális dokumentumokkal összefüggő adatok és műveletek minőségi követelményei miatt nagyon fontos volt az ismétlődő, valamint az automatizálásra fordított idő csökkentése, ezért minden esetben figyelembe kellett venni a már létező adatokhoz, többek között az MTMT-hez való kapcsolódás lehetőségét.

A könyvtári rekordokban sűrítve jelennek meg az információ képviselésére alkalmas adatok, amely a bibliográfiai tevékenységhez pontos keresést biztosít. Az analitikával és az új generációs rendszerek, valamint a linked data technológia alkalmazásával beépített linkek használata során minden lépésben átéljük a felfedezés élményét, új tudás megszerzésének lehetőségét, a keresés új irányba terelését, miközben a könyvtáros alkalmazhatja és bővítheti tárgyi és egyéb tudását a lépésekben, fejlesztheti asszociációs készségeit, kreativitását.

A kooperatív bibliográfiai rendszerek több évre tervezett szisztematikus fejlesztésének három legfontosabb szakasza közül az első – a már említett Lorcan Dempsey szerint – az authority adatok egységesítése. Virtuális szervereken történő tárolásuk lehetővé teszi a vonatkozó mezők értékeinek kiválasztását és letöltését (LCSH, DEWEY, Library of Congress Authority File, VIAF-Virtual International Authority File, ISNI, WIKIDATA stb.). A második szakaszban az együttműködő könyvtárak hálózati erőforrásként használják ezeket a „késztermékeket”, amelyhez szervezett elérés tartozik. A harmadik szakaszban biztosítják a hálózati erőforrások és a helyi rendszerek összekapcsolásának lehetőségeit. Az együttműködés folyamata „szindikátus” elven működik, a résztvevők megállapodásokat kötnek a részletek pontosításával. A hármas fejlődési szakasz jól követhető a WorldCat világkatalógus közel 50 éves fejlődésében.

WorldCat – adat koncentráció a világ legnagyobb egységesített és kooperatív bibliográfiai katalógusában

Az „union” katalógus és az osztott union katalógus elméletének fejlődését követően 1971-ben került az első rekord az OCLC online Union Catalog alkalmazásába az Alden Library at Ohio University részéről. 1979-ben már 5 millió rekordot tartalmazott a mostani WorldCat elődje, amely az évek alatt folyamatosan fejlődött mennyiségi és minőségi szempontból egyaránt. Jelenleg 3 milliárd holding adatot tartalmaz a világ könyvtárainak rekordjaiból. A mai WorldCat kooperációs feldolgozás eredményeként, nem lokális vagy nemzeti, hanem nemzetközi szinten biztosítja az union katalógus jellemző szolgáltatásait. Professzionális katalogizálók dolgoznak a rendszerben a világ minden tájáról annak érdekében, hogy a kooperatív jellegű rendszerben az adatfeltárás, a fenntartás, a könyvtárközi kölcsönzés és a discovery funkciók magas szintű szolgáltatása megvalósuljon. A rendszerhez csatlakozók komoly szabályokat fogadnak el, és az egyezségek betartására nagy gondot fordítanak.

A világ legnagyobb katalógusaként, a WorldShare Management könyvtári menedzsment rendszer és a linked data fejlesztések alaprendszereként 3 milliárdot meghaladó tétellel, 72 000 könyvtár kapcsolattal, több, mint 50 nemzeti könyvtár rekordjaival rendelkezik. A VIAF authority adatbázis linkekkel kapcsolódik a rendszerhez, ezért a VIAF közvetlen adatbetöltéshez a WorldCat tagságot, és a rekordbetöltést megelőző adattisztítást és eljárási rendet javasolják. A lokális vagy regionális adathálózatról a betöltés és aratás emberi beavatkozás nélkül történik főként MARC21 adatformátumokról. (Ld. a holland, dán, svájci, német és ausztrál nemzeti könyvtár és konzorciumaik gyakorlatát.). Alapkoncepciója szerint minden résztvevő könyvtár és használó eléri és bővítheti a bibliográfiai adatokat minőségi ellenőrzést követően. A kereső weboldalon az egyes művek különböző összesített megjelenési formáit (könyv, film, video, DVD stb.), az egyes időszakokban megjelent kiadványokat, a műfajok szerinti rendezettséget, a találati listák kiadványaival rendelkező könyvtárak elérhetőségét és tartózkodási helyünktől való távolságát jelzi a rendszer. Ezen felül saját adatokkal láthatjuk el a rekordokat (értékelés, tartalmi kivonat), és különféle tranzakciókat indíthatunk az oldalon: másolás, letöltés, kölcsönzés, vásárlás (könyvkereskedelmi oldalakhoz is vezet útvonal, lásd Amazon, Elsevier, stb.). Az egyes kiadványok elektronikus változatai is láthatók, pontosan információkat kapunk a magyar kiadványok esetében is arról, készült-e elektronikus példány, és hogyan férhetünk hozzá. Nagyon hasznos szolgáltatás az egy szerzőre vonatkozó összesítő oldal a művek számszerű csoportosításával és a kiadások grafikonos összesítésével.

Babits Mihály szerzőre vonatkozó keresés eredményéből (1834 mű) kiemelt eBook, a felső sorban az igénybe vehető használói lehetőségekkel: listához adás, saját adatok, ismertető, vagy értékelés beszúrása, és a róla író szerző munkásságát bemutató táblázat része (2. sz. kép):

A Registry funkcióval saját könyvtárunk adatait, szolgáltatásainak rövid leírását, a hozzáférési lehetőségeket publikálhatjuk.

Bővebben: https://www.researchgate.net/publication/323077573_Union_Catalogue_in_Digital_Age_An_Overview

A linked data mint a jövő katalógusának technológiája

Az open linked data technológia bevonása a könyvtári munka alapfolyamataiba az OCLC egyik fő kutatási tevékenysége, emellett a WorldCat fejlesztésének és adatstratégiájának része. A koncepció alapja az, hogy a forrásművek leírását a jellemző és szabványosított adatok kapcsolataiként értelmezzük. Az azonosítókkal ellátott adatok könnyebben illeszthetők a webhelyek és online források struktúrájába a bibliográfiai leírásoknál. Több kutatási projektet indítottak, és a fejlesztésekhez illeszkedő infrastruktúra kialakítását is megkezdték. A WorldCat rekordokhoz csatolva és a Wikipédia szócikkekben is megjelentek az RDF alapú leírások az OCLC több éve folyó kutatásai nyomán. A jelenlegi kutatások célja a könyvtárakkal folyó adatkezelési és adatcsere folyamatokhzo alkalmazott infrastruktúra kialakítása és a linked data technológia bevonásának lehetősége a katalogizálás mindennapjaiba.

Bővebben lásd: Library linked data int he cloud: OCLC1s experiments with next-generation resource description = https://www.oclc.org/research/publications/2015/oclcresearch-library-linked-data-in-the-cloud.html Creating library linked data with Wikibase: lessons learned from Project Passage.

Jean Godby, Karen Smith-Yoshimura és további kiváló szerzők tollából lehet a részleteket megismerni az alábbi linken: https://www.oclc.org/research/publications/2019/oclcresearch-creating-library-linked-data-with-wikibase-project-passage.html

A Project Passage kutatásban 16 amerikai intézmény foglalkozott linked data létrehozásával a források leírásában – anélkül, hogy meg kellett volna ismerniük a kapcsolódó adatok műszaki hátterét. A Wikibase platform adaptálásával a könyvtárosok különféle formanyelveken írták le a meta adatokat a Wikibase szerkesztő felületén. A folyamat megismerése mellett a hiányokról is képet kaptak, amelyeket meg kell oldani, mielőtt a géppel olvasható szemantikai adatkezelés módszereit bevonnák a könyvtári katalogizálás mindennapi gyakorlatába. A kutatások és eredmények részletesebb bemutatására nem térek itt ki. Korábban már írtam az OCLC linked data gyakorlatáról, a következő fejlődési állomások önálló írást igényelnének a téma összetettsége miatt.

A téma összetettségét mutatja az alábbi ábra a kutatási eredményből kiemelve (3. sz. kép)

Forrás:

https://www.oclc.org/content/dam/research/images/Themes/datascience/Project-Passage-Figure-5-upd.png

https://www.oclc.org/research/areas/data-science/linkeddata/linked-data-prototype.html

Hogyan kapcsolhatjuk be saját könyvtárunk szolgáltatásaiba a WorldCat rendszert?

A WorldCat szerkezete hármas felépítésű, a bibliográfiai adatok mellett tudásbázist és a kooperáló könyvtárak regisztrációs adatait is tartalmazza. A bibliográfiai katalógus és a tudásbázis sem kapcsolódik egyetlen könyvtár alkalmazásához sem, a gyűjtemények összehangolása az egyedi könyvtári gyűjteményi szint (nézet) felett történik. Amellett, hogy könyvtárunk módosításához vagy specializálásához igénybe vehetjük a külső könyvtárszakmai megoldásokat, saját könyvtárunk is hozzájárulhat a rendszer közös intelligenciájának fejlesztéséhez, a folyamatok hátteréül szolgáló ismeretek koncentrált szolgáltatásához, ha csatlakozunk a munkacsoporthoz.

A csatlakozott könyvtárak rekordjainak betöltésekor megtörténik a WorldCat rendszerhez illesztés, nem csak a könyvtárak, hanem jelentős kiadók nyilvántartásaiból is, amely külön megállapodások eredménye. Mivel az OCLC nonprofit szervezet, olyan forrásokból is építkezhet, mint az EBSCO és a ProQuest, a Gale és Springer, valamint a Wiley és az Elsevier nyilvántartásai, sok más tartalomszolgáltató mellett. A könyvek mellett folyóiratok, DVD-k, történelmi fotók, videofilmek, zenei források, újságok, weboldalak és sok más szabványos tétel került a rendszerbe, néhány unikális részelemmel, például múzeumi füzetek tárgyainak nyilvántartása, régi fényképgyűjtemények stb.

Néhány mennyiségi adat:

2020. júliusában mért adatok szerint 493 145 583 bibliográfiai rekordot, és 3 009 313 082 (2020. július) állományi adatot tartalmaz a rendszer.

A WorldCat több mint 200 millió cikk hivatkozást alkalmazza sok népszerű adatbázisból, például: OAIster, JSTOR Archive, Elsevier metadata, Medline, ERIC, British Library Inside Serials, Article First stb. https://www.oclc.org/en/worldcat-org/features.html

Minőségi összetevők: a WorldCat tudásbázis, a minőségi munkacsoport és a névtárak

A WorldCat tudásbázisában minden hónapban frissítik az elérhető gyűjtemények listáját és a kiegészítő adatokat (szolgáltató azonosítója, neve, a gyűjtemény azonosítója, például: Akadémiai Kiadó, Ancient Near East Monographs (Society of Biblical Literature), British Museum Research Publications series, Library of Congress National Screening Room Videos, Europe PubMed Central fulltext only, stb.). Feltüntetik az elérhető rekordok számát, az Open Access lehetőségét és más adatokat. Lásd az alábbi forrásban, amelyből megismerhetjük a különböző adatokhoz tartozó linksémákat, a könyvtárközi kölcsönzések összefoglaló adatait, a Google Scholarhoz történő import lehetőségeket, a különféle szolgáltatók online elérhető cikkeihez tartozó direkt link szolgáltatást, cikk klasztereket stb. https://help.oclc.org/Library_Management/WorldShare_Acquisitions/Search/WorldCat_knowledge_base;

A tudásbázis olyan ingyenes és nyílt hozzáférésű anyagokat is tartalmaz, amelyeket 727 szolgáltatótól vehet igénybe a használó a könyvtári adatokon túl – több mint 47 235 652 rekord és 16 411 online forrás alapján. Bővebben lásd:

https://help.oclc.org/Metadata_Services/WorldShare_Collection_Manager/Institution_settings/010Institution_settings#Google_Scholar)

https://help.oclc.org/Discovery_and_Reference/WorldCat_Discovery/Display_local_data/Direct_linking_and_article_clustering

A WorldCat minőségi munkacsoportja ellenőrzi a rekordok színvonalát, a duplikátumok kiszűrését a Duplicate Detection and Resolution (DDR) szoftver segítségével. A csatlakozott könyvtárak rekordjait betöltéskor monitorozzák az adatszakértők, és jelentést küldenek az esetleges hibákról, mielőtt az állományt a meglévő törzsrekordokhoz csatolnák, vagy az új tételeket a WorldCat-ba töltenék. A WorldCat globális jellege miatt a sokszínű kultúra befogadását jelentős feladatként kezelik.

Az OCLC koordinálja és működteti a VIAF (Virtual International Authority File) szolgáltatást, amely aggregálja a világ legfontosabb névtárainak adatait, közöttük a Library of Congress’s Names and Subject Authority Files, US National Library of Medicine’s Medical Subject Headings (MeSH), Koninklijke Bibliotheek’s NTA Names (Nederlandse Thesaurus van Auteursnamen), and Deutsche Nationalbibliothek’s Integrated Authority File (GND) alkalmazásait. Több mint 50 intézmény több mint 30 országból vesz részt a munkálatokban, köztük nemzeti könyvtárak. Prominens szerepet lát el az ISNI (International Standard Name Identifier) szolgáltatásban. Bővebben lásd:

https://www.oclc.org/en/worldcat/cooperative-quality.html;

https://authorities.loc.gov/;

https://www.oclc.org/en/worldcat/oclc-and-linked-data.html

https://www.oclc.org/en/worldcat/inside-worldcat.html

Hogyan alkalmazhatjuk a WorldCat rendszert saját könyvtárunk gyakorlatában?

A mindennapi gyakorlatban a keresések során számtalan kérdésben segítséget kapunk a kollektív katalogizálás eredményei alapján (művek kiadásai, formátumai, kölcsönzési forráshelyek, egyes szerzők munkásságának áttekintése, egyes művek kiadásainak története, különböző nyelvű kiadások stb.), akár a könyvtári katalógus oldalára kihelyezett link kapcsolat alapján. Jelenleg az MTA Könyvtár, a Szegedi Egyetemi Könyvtár és az ELTE Központi Könyvtár csatlakozott a kooperációs katalogizáláshoz, már számtalan hazai könyvtárból származó találatot láthatunk a WorldCat-ban.A kooperációban való részvételhez éves tagsági díjat kell fizetni, és az OCLC szolgáltatásai alapján FTP szerverről automatikus betöltéssel kerülnek az adatok előzetes monitorozással. A katalógus rekordok letöltéséhez a Connexion alkalmazást választhatjuk, amelynél a letöltések száma határozza meg a díj mértékét. Az alábbiakban néhány példával szeretném bemutatni az ingyenes használat néhány előnyét. Babits Mihály nevével kezdtük a keresést, 1834 találat érkezett néhány másodperc alatt. A keresést a bal oldali eszközkészlettel szűkíthetjük dokumentum típusok, (látható az típusok találati száma), szerzők, megjelenési év, tárgyszó, e-book megjelenés, a róla szóló irodalom stb. alapján.

Képernyőképek (4. sz. képcsport):

A tároló könyvtárak között nagy örömmel láthatjuk a hazai könyvtárakra vonatkozó adatokat

Végezetül a teljesség hiányának fájó érzésével egyik kedvenc szakíróm, Lorcan Dempsey gondolatát idézem frissítőként:

“Metadata is data associated with objects which relieves their potential users of having to have full advance knowledge of their existence or characteristics” Dempsey

A metaadatok olyan objektumokhoz kapcsolódó adatok, amelyek megkímélik potenciális használóikat attól, hogy létezésükről vagy jellemzőikről előzetes ismeretekkel rendelkezzenek.

Néhány hasznos forrás:

Thirteen ways of looking at libraries, discovery, and the catalog: Scale, workflow, attention / Lorcan Dempsey = https://er.educause.edu/articles/2012/12/thirteen-ways-of-looking-at-libraries-discovery-and-the-catalog-scale-workflow-attention/
Lessons from representing library metadata in OCLC research’s Linked Data Wikibase prototype / Talk by Karen Smith-Yoshimura = https://www.youtube.com/watch?v=v1OJ5l9bhNI&feature=youtu.be
WorldCat: what a concentration of data can do for you / Fiona Leslie OCLC = https://www.oclc.org/content/dam/oclc/events/2010/files/WorldCat_Making_Data_Work_Harder.pdf
4 principles foer unlocking the full potential of research data / Wouter Haak = https://www.elsevier.com/connect/4-principles-for-unlocking-the-full-potential-of-research-data
10 aspects of highly effective research data / Anita de Waard et al. = https://www.elsevier.com/connect/10-aspects-of-highly-effective-research-data#contributors
OCLC Linked Data: Research, experimental applications, and shared infrastructure / Andrew Pace, John Chapman 2020. LD4 conference = https://www.oclc.org/content/dam/research/presentations/2020/LD4-Pace-Chapman-LinkedDataResearchAndInfrastructure.pdf

Adatkoncentráció a katalógusban – a feltárt adatoktól a rejtőző kapcsolatokig

Kapcsolódó bejegyzések

Magazin archívum

Keresés

Cikkek gyűjteménye rovatonként

Impresszum

ISSN 2064-1443

Készült a NKA támogatásával!

Belépés

Adatkoncentráció a katalógusban – a feltárt adatoktól a rejtőző kapcsolatokig

Megosztás:

Kapcsolódó bejegyzések

Magazin archívum

Keresés

Cikkek gyűjteménye rovatonként

Impresszum

ISSN 2064-1443

Készült a NKA támogatásával!

Belépés