Adatkönyvtárak, adatkönyvtárosok – Vállalati könyvtárosok műhelybeszélgetése 30.

Posted by Buzai Csaba - december 19th, 2019

30. műhelybeszélgetésünk vendéglátója a Magyar Mezőgazdasági Múzeum és Könyvtár volt, amelyet házigazdánk, Farkasné Kripner Veronika mutatott be a közel 30 résztvevőnek. Az épület a 1920-as években épült, eredetileg a Hotel Bellevue szállodaként, 1948-tól tartozik a mezőgazdasági minisztérium fennhatósága alá. Országos szakkönyvtári jegyzéken szereplő nyilvános könyvtár. Jelentős információs szerepe volt a 2000-es években, amikor az Élelmezésügyi és Mezőgazdasági Világszervezet (FAO) magyarországi pontja lett. Ezen kívül eMagyarország pont. EU-s olvasóteremmel rendelkeznek, valamint itt működik a Könyvgazda könyvesbolt, de helyszínt adnak egy fordítóirodának is. A könyvtár két raktárral rendelkezik. Megnövekedett munkát jelent számukra, hogy az agrárminisztériumtól sorra megkapják a megszűnő ágazatok könyvgyűjteményeit: pl. húsüzem, vízgazdálkodás stb., amely jelenleg elhelyezési és feldolgozási kihívásokat jelent.

Szakfeladatként végzik a Magyar Mezőgazdasági Bibliográfia (MABI) szerkesztőségi munkáit. Ismeretterjesztő programokat szerveznek könyvtárhasználat és információkeresési témákban. Helytörténeti, kerületi programok indítottak növényismereti és természetismereti sétával. Természetfilmklubot és könyvtári alkotóműhelyt is működtetnek. A bemutató után megtekintettük a könyvtári helyiségeket.

A Műhelybeszélgetések szervezője, Kóródy Judit nem tudott részt venni személyesen, de a 30. műhelybeszélgetés alkalmából üdvözlő slide-ot készített az alkalomra, felsorolva a 15 év alatt megvitatott gazdag témaválasztékot és a programsorozat jelentősebb mutatószámait.

Kutnyánszky Anikó, a műhelybeszélgetés moderátora bevezető előadásában a datafication, azaz adatosítás fogalmáról szólt. A fogalom eredetileg a magánélet adatosítását jelenti, amely a digitális térben eltöltött életünk egyre tömegesebb adatosítását takarja. A fogalom másik megközelítése a könyvtáros szakemberek digitális írástudásával van összefüggésben. A 2019-ben tartott LIBER konferencián már megfogalmazódott a könyvtárosok elvárt kompetenciája, hogy képesek legyenek megfelelni az adatkezeléssel kapcsolatos feladatoknak, kihívásoknak.

Száldobányi Ádám (DEENK) „Mivel foglalkozik egy data steward?” című előadásában felvázolta azokat a létező fogalmakat és tevékenységeket, amelyek adatok kezelésével kapcsolatosak, pl. adatgazdász vagy adatvagyonkezelés. Teljesen új munkakörnek számít az adatkormányzó, az adatmanager, adattudós vagy a repository manager. Ezek a tevékenységek titkosított és nyílt adatokkal egyaránt foglalkoznak és az adatok teljes életciklusát végigkövetik.

Bizonyos kutatóhelyeken hatalmas mennyiségű adat keletkezik, pl. a svájci CERN-ben működő Nagy Hadronütköztetőben a mérés alatt minden pillanatban 1 petabyte adat keletkezik.

Felsorakoztatta az adatokkal szembeni elvárásokat: átlátható, rendezett, releváns, pontos metaadatokkal, hosszú távú megőrzés, mindezek tudományterületenként nagyon eltérőek, egyes diszciplínák szívesen osztják meg, mások kevésbé. De a megoszthatóság számos más paraméteren is múlik.

Az adatrepozitórium egyfajta dokumentumszerver, amit egyetemek, kutatási intézmények üzemeltetnek abból a célból, hogy tudományos anyagaikat archiválják és nyilvánosan elérhetővé tegyék. A DEENK által üzemeltetett nyílt forráskódú adatrepozitórium szoftvert a Harvard Egyetem fejlesztette ki (dataverse.org).

A Debreceni Egyetem Könyvtára (DEENK) az MTA Könyvtár Információs Központtal közösen indított adatrepozitórium projektje egyelőre kezdeti szakaszban van, de a biológusok már elkezdték használni, génszekvenálási adatokat tárolnak benne. Az adatkör minden elemét metaadatokkal látják el, digitális azonosítószámot kap, DOI-azonosítóval van ellátva, speciális metaadatok segítik a jobb feltárást, adatleírásra a Dublin Core formátumot választották.

A repozitórium az MTA KIK által minősített. A jól végzett adatmenedzsment kulcsfontosságú, már a kutatás megkezdése előtt szükséges az adatmenedzsment terv, amely olyan fontos elemeket is tartalmaz, mint pl. mennyibe fog kerülni az archiválás és ki férhet hozzá. Várhatóan 25 év lesz az adatok megőrzése, utána a metaadatokat tömörítve tárolják.

Kérdésként hangzott el, hogy mi számít releváns adatnak. A válasz szerint minden adat relevánsnak számít, ami a felhasználás és visszakeresés szempontjából fontos, illetve a kutatás számára releváns. Mi az a minimális szint, amikor már érdemes használni egy ilyen adatrepozitóriumot és milyen fájl formátumok jöhetnek szóba? Bármilyen szinten lehet, kvázi háttértárként használni a repozitóriumot. Kulcsfontosságú, hogy jól legyenek elnevezve az állományok, hisz akkor tud hasznosulni, akkor válik jól kereshetővé, hozzáférhetővé.

Fontos fogalmak, gondolatok:

  • FAIR – Findable (megtalálható), Accessible (hozzáférhető), Interoperable (átjárható), Reusable (újrafelhasználható)
  • „Legyen nyitott, amennyire lehetséges, legyen zárt, amennyire szükséges!”
  • 3 féle datasteward létezik: kutatók, IT-szakemberek, törvényhozók

Simon András (Qulto – Monguz Kft.) – A szakma különböző gyűjteménykezelő rendszereket (ICMS) ismert meg az évek során. Ilyen pl. az integrált könyvtári rendszer, integrált múzeumi rendszer, integrált gyűjteménykezelő rendszer. Ezek a rendszerek 40-50 éve épülnek, ezzel párhuzamosan korábbi adatokból retrospektív feltöltésre kerülnek további rekordok. A bennük tárolt az adatmennyiség azonban elérte a kritikus tömeget ahhoz, hogy általános elvárás lett ezen közpénzekből létrejött információk tekintetében, hogy köztulajdonba kerüljenek. Az egyik megközelítésből az ICMS alkalmas adatgazdászatra, mert hosszú távú megőrzésre van felkészítve, erős intézményi háttérrel rendelkezik, szolgáltatás központú, komplex adatszerkezettel rendelkezik, ezért a legkülönfélébb elvárásoknak is képes megfelelni. Ezeken felül dokumentum-centrikus is, így az adatok jól megfoghatók, csoportba rendezhetők, visszakereshetők. Az ICMS-ek relációs adatbázisra épülnek, amiből szemantikus háló is fejleszthető. Egy másik megközelítésben az ICMS-ek nem feltétlenül alkalmasak adatgazdászatra. Adatok tárolására, őrzésére más szoftverek is léteznek és egyes nagy múltú szervezetek olyan rendszerekkel dolgoznak, amelyek nem gyűjteménykezelő rendszer központúak, pl. OMSZ, KSH, MME adatbázisai. További hátrányt jelent az ICMS vonatkozásában, hogy nehézkes az adatbevitelük, költséges a beszerzésük és működtetésük. Egyfajta megoldássá az ICMS és adatkezelő rendszerek összekapcsolása válhat, amely archiválja az adatokat és szemantikus háló építésére is alkalmas. Ezekre a rendszerekre már vannak példák, pl. a Petőfi Irodalmi Múzeum adatbázisa a költők, írók személyi adataira épült, de további ilyen adattárak működnek régészeti adatok kezelésére, helytörténeti gyűjtemények feltárására, a biológiai taxonómia kezelése a Magyar Természettudományi Múzeumban, előadások adatbázisa az Országos Színházművészeti Intézetben. További példa, a Nemzeti Névtér (abcd.hu) és az Magyar Tudományos Művek Tára (mtmt.hu), amelyek ugyanígy megvalósítják a különböző adatbázisok integrációját.

Meiszterics Enikő (Társadalomtudományi Kutatóközpont. Szociológiai Intézet Kutatási Dokumentációs Központ) – A kutatóközpontot 4 kutatóintézet alkotja, ezért sokfajta dokumentumot tárolnak: jogi, kisebbségtudományi, szociológiai kutatások gyűjteményét tartalmazza. A repozitórium a kutatási eredmények adatait archiválja. Minden adat elérhető, kereshető másodfelhasználás céljából. Kiemelten fontos az adatmenedzsment kérdése, mert az a cél, hogy egyértelműek és jól kereshetőek legyenek az adatok, metaadatok. A gyűjteményben található a 20. század hangja Archívum szociológiai, történeti archívum.

A repozitórium lehetőséget kínál kulcsszavas keresésre cikkekben és a kutatási gyűjteményekben (interjú, terepnapló, módszertani leírás). A tárolási, archiválási munkafolyamat során együttműködnek a kutatókkal. A GDPR miatt szigorú adatkezelési szabályok érvényesek, mert lehetnek olyan személyes adatok, amiket az érzékenységük miatt különleges módon szabad tárolni, pl. kisközösségek szociológiai adatfelvételében előfordulhat azonosíthatóság személynevek nélkül is vagy egy tüntetés résztvevőinek személyneve szintén érzékeny adat. A repozitóriumot az ePrints nyílt hozzáférésű platformon szolgálják ki.

Kérdésként elhangzott, hogy a különböző fájlformátumok hosszútávú megőrzése okoz-e dilemmát. Nagyon univerzális formátumokkal foglalkoznak, amelyek eddig kiállták az idők próbáját, ezek közé tartozik az SPSS szoftver SAV formátuma is, amely mára egyfajta iparági szabvánnyá vált a szociológiai felmérések adatainak feltárására.

Kutnyánszky Anikó (Wigner Fizikai Kutatóközpont) arra mutatott példát, hogy nem minden kutatási adat tárolható. A CERN Nagy Hadronütköztetője (LHC) óriási adatmennyiséggel dolgozik, de az adatok nagy része az azonnali feldolgozás után törlődik. A projektben évi 50-70 petabyte adat keletkezik! Egy-egy kutatási kampány pár napig fut, bonyolult szoftverek láncolata szűri tovább az adatokat, amelyeket további egyéb adatfeldolgozások követnek. A kutatóközpontban kb. 500 programozó dolgozik folyamatosan azon, hogy a kutatás végeredménye adott projektben egy bizonyítható adat legyen. Amennyiben a kutatás eredményes, akkor a végső eredmény általában egy matematikailag értelmezhető függvény. Az LHC Tier-0 adatfeldolgozásának a CERN kihelyezett infrastruktúrájaként 4 évig a Wigner Adatközpont adott otthont.

Fazekas Andrea (Richter Nyrt.) – A gyógyszeripari gyárban olyan belső adatbázisok léteznek, amelyek elsődlegesen a gyógyszerfejlesztést és gyártást támogatják, ezért piacvédelmi okokból ezek az adatbázisok nem nyilvánosak és a vállalaton belüli hozzáférésük is korlátozott:

  • Elektronikus Labor Napló: Ipar 4.0 adatfeldolgozás segíti a gyógyszeripart
  • Kémiai és Biológiai Adatbázis: az elmúlt 60 év kutatott vegyületeinek tulajdonságai összeköttetésben a Vegyületmintatárral

Irodalom:

Koltay Tibor: Adatkönyvtáros vagy adattudós. Néhány gondolat a különbségekről és hasonlóságokról. TMT, 65. évf. 2018. 10. sz. p. 518-522.

Kutnyánszky Anikó, Wigner Fizikai Kutatóközpont

Horváth Eszter, Infodok Kft. – Magyar Telekom Infotéka

MKE Műszaki Könyvtáros Szekció

Comments are closed.

Blog Home