Zarządzanie danymi badawczymi

Nowy model ewaluacji jakości działalności naukowej wprowadza jako kryterium oceny jej wpływ na funkcjonowanie społeczeństwa i gospodarki. Dowodów wpływu społecznego badań naukowych można szukać m.in. w ponownym wykorzystaniu danych badawczych udostępnianych publicznie po ich wytworzeniu, szczególnie przez naukowców, których badania były finansowane ze środków publicznych.

Dane badawcze (research data) to zarejestrowane materiały o charakterze faktograficznym, uznawane przez społeczność naukową za niezbędne do oceny wyników badań. Danymi badawczymi są surowe lub przetworzone dane powstałe w trakcie procesów badawczych, we wszystkich możliwych postaciach (np. tekstowej, graficznej, dźwiękowej) i formatach, np. dane liczbowe, dokumenty tekstowe, notatki, kwestionariusze ankiet i wywiadów, nagrania audio i wideo, fotografie, modele matematyczne, oprogramowanie, wyniki symulacji komputerowych, protokoły laboratoryjne, opisy metodologiczne, dane chemiczne, medyczne, dane z eksperymentów, wyniki pomiarów wszelkiego typu.

Dane, do których każdy ma dostęp i które można ponownie wykorzystywać, modyfikować i dystrybuować z poszanowaniem prawa, zalicza się do otwartych danych badawczych (open research data), które wraz z otwartymi publikacjami (open access), otwartym oprogramowaniem, otwartymi modelami pracy naukowej i innymi otwartymi narzędziami i metodami tworzą system otwartej nauki, rozwijanej i promowanej od wielu lat na całym świecie. W zakresie danych badawczych przejawia się to we wprowadzaniu przez instytucje nauki polityki otwartych danych, wymaganiu od grantobiorców otwartego udostępniania danych oraz tworzenia planów ich zarządzania. Znaczenie danych, a przede wszystkim ich otwartego udostępniania dostrzegane jest w kluczowych dokumentach międzynarodowych. OECD już w 2007 roku podkreśliła, że otwarty dostęp do danych badawczych finansowanych ze środków publicznych nie tylko przyczynia się do zwiększenia potencjału badawczego nowych technologii cyfrowych i sieci, ale zapewnia większy zwrot z inwestycji publicznych w badania naukowe1. W programie finansowania badań naukowych i innowacji w Unii Europejskiej Horyzont 2020 zaplanowano pilotaż dotyczący otwartego udostępniania danych badawczych (Open Research Data pilot)2, mający na celu maksymalizację dostępu do tych danych i ponownego wykorzystania danych wygenerowanych w ramach projektów Horyzont 2020, biorąc pod uwagę potrzebę zrównoważenia otwartości i ochrony informacji naukowej, komercjalizację i prawa własności intelektualnej, problemy związane z prywatnością i bezpieczeństwem oraz zasady zarządzania danymi i ich ochrony. Pilotaż obejmuje m.in. dane niezbędne do weryfikacji wyników prezentowanych w publikacjach naukowych, które należy udostępniać tak szybko, jak to możliwe. Naukowcy aplikujący w ramach Horyzont 2020 muszą opracować plan zarządzania danymi (Data Management Plan, DMP), w którym wyszczególnione zostaną m.in. dane wygenerowane w projekcie, stopień ich otwartości oraz sposoby zabezpieczenia i zachowania. 

Ministerstwo Nauki i Szkolnictwa Wyższego przyjęło w 2015 roku politykę otwartego dostępu (OD) w dokumencie Kierunki rozwoju otwartego dostępu do publikacji i wyników badań naukowych w Polsce, który ma charakter zaleceń dla instytucji finansujących badania (NCN, NCBR, MNiSW), jednostek naukowych, uczelni oraz wydawców czasopism naukowych3. W jednej z rekomendacji „zaleca, aby krajowe podmioty finansujące badania naukowe ze środków publicznych określiły własne polityki w zakresie otwartego dostępu oraz stosowały i upowszechniały zasady, zgodnie z którymi publikacje i dane badawcze powstające w wyniku finansowanych lub współfinansowanych przez nie badań znajdą się w otwartym dostępie”.

W rezultacie tych działań oraz zaleceń Komisji Europejskiej Narodowe Centrum Nauki (NCN) wprowadziło w 2019 r. w konkursach na finansowanie projektów badawczych obowiązek załączania do wniosków planów zarządzania danymi powstałymi lub wykorzystanymi w trakcie realizacji projektu, jak i po jego zakończeniu4. W planie, który będzie uzupełniany w raporcie końcowym, a po zakończeniu projektu zostanie oceniony przez NCN, należy opisać m.in.:

  • typ i formaty danych badawczych i sposób ich pozyskiwania,
  • sposoby gromadzenia i opisywania danych (standardy metadanych),
  • sposoby udostępniania danych oraz możliwości ich ponownego wykorzystania oraz przekształcania,
  • kwestie etyczne i prawne (własność intelektualna, prawa autorskie),
  • sposób ich archiwizacji i zapewnienia dostępu do danych, czyli gdzie i jak długo będą archiwizowane.

W planie zarządzania danymi trzeba przede wszystkim uwzględnić takie kwestie, jak przygotowanie danych (dokumentacja, metadane, formaty), ich stan prawny oraz archiwizacja. Należy pamiętać, że nie wszystkie zbiory danych można udostępniać w sposób otwarty (np. dane osobowe, dane związane z procesem komercjalizacji wyników badań oraz dane z obszaru bezpieczeństwa narodowego), jednak informacja o istnieniu danych powinna być publicznie dostępna, aby uniknąć duplikowania badań. Dane badawcze muszą być udostępniane w wyspecjalizowanych repozytoriach, respektujących zasady FAIR Data, zgodnie z którymi dane powinny być: łatwo znajdowane (Fzindable), dostępne dla wszystkich (Accessible), interoperacyjne, czyli łatwe do wymiany lub połączenia z innymi danymi (Interoperable) oraz do ponownego wykorzystania (Reusable). W takich repozytoriach dane są opatrzone standardowym zestawem metadanych oraz stałym URL i numerem DOI, co ułatwia ich prawidłowe cytowanie.

Krajowe repozytoria uczelniane nie spełniają jeszcze tych warunków, gdyż były tworzone głównie w celu archiwizacji publikacji naukowych, z odmiennymi zestawami metadanych i w innych formatach. Realizowanych jest kilka dużych projektów, w ramach których takie repozytoria (regionalne, międzyuczelniane) mają powstać, np. Most Danych dla uczelni Pomorza, InterScienceCloud dla Uniwersytetu Medycznego w Łodzi czy Polska Platforma Medyczna dla pozostałych uczelni medycznych. Dopóki jednak odpowiednie serwisy nie powstaną w wymienionych i pozostałych uczelniach, rekomendowanymi ogólnymi repozytoriami otwartych danych badawczych, spełniającymi warunki FAIR oraz umożliwiającymi przechowywanie zróżnicowanych danych w dowolnych formatach, są Zenodo i RepOD. Deponowanie w nich danych pozwoli również na uniknięcie wysokich kosztów tworzenia w instytucji odrębnego repozytorium.

Zenodo5 jest największym repozytorium ogólnym, przeznaczonym do deponowania i archiwizacji danych badawczych. Jest prowadzone w CERN i finansowane ze środków Komisji Europejskiej, dzięki czemu jest otwarte dla wszystkich europejskich naukowców. Z kolei Repozytorium Otwartych Danych RepOD6 to serwis, prowadzony przez Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego Uniwersytetu Warszawskiego, umożliwiający wszystkim badaczom w Polsce otwarte udostępnianie danych badawczych. RepOD jest przeznaczony dla tzw. małych danych, powstających w pracach badawczych indywidualnych naukowców lub niewielkich zespołów naukowych. W RepOD zamieszczono też obszerny „Poradnik prawny”, w którym znaleźć można odpowiedzi na pytania dotyczące m.in. rodzajów praw do zbiorów danych badawczych, danych osobowych i wrażliwych, wyboru licencji dla plików z danymi.

Naukowcy mogą również deponować dane badawcze w międzynarodowych repozytoriach dziedzinowych. Doskonałym narzędziem ich wyszukiwania jest katalog re3data.org, którego wykorzystanie zaleca Komisja Europejska. W serwisie są również rejestrowane repozytoria instytucjonalne uczelni europejskich, co może stanowić doskonały materiał poglądowy. Re3data.org7 można przeszukiwać według dziedzin, rodzajów danych albo krajów. 

Zainteresowanych tematyką danych badawczych odsyłam do poniższej literatury oraz wykazu linków na witrynie Biblioteki Głównej UTP8, wśród których znaleźć można przykładowe plany zarządzania danymi, kreatory DMP, darmowe kursy online i wiele innych.

tekst: Lidia Derfert-Wolf
zdjęcia: Ryszard Wszołek


Bibliografia:

  1. KAMIŃSKA, A. M. Dobre praktyki publikowania danych badawczych. Biuletyn EBIB 2017, nr 7, http://open.ebib.pl/ojs/index.php/ebib/article/view/569.
  2. ROŻNIAKOWSKA-KŁOSIŃSKA, M. Otwarte dane badawcze w warsztacie pracy naukowca. Biuletyn EBIB 2018, nr 6, http://open.ebib.pl/ojs/index.php/ebib/article/view/668.
  3. STRZELCZYK, E. Otwarte dane badawcze – kolejny krok do otwierania nauki. W: Bibliograficzne bazy danych: perspektywy i problemy rozwoju. III Konferencja Naukowa Konsorcjum BazTech, Kraków, 26-27 czerwca 2017, http://open.ebib.pl/ojs/index.php/Mat_konf/article/view/599.

1. http://www.oecd.org/sti/sci-tech/oecdprinciplesandguidelinesforaccesstoresearchdatafrompublicfunding.htm [dostęp: 5.03.2020]
2. http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-hi-oa-data-mgt_en.pdf [dostęp: 5.03.2020]
3. https://www.gov.pl/web/nauka/dokumenty-na-temat-otwartego-dostepu [dostęp: 5.03.2020]
4. https://www.ncn.gov.pl/sites/default/files/pliki/regulaminy/wytyczne_zarzadzanie_danymi.pdf [dostęp: 5.03.2020]
5. https://zenodo.org [dostęp: 5.03.2020]
6. https://repod.pon.edu.pl [dostęp: 5.03.2020]
7. https://www.re3data.org [dostęp: 5.03.2020]
8. http://bg.utp.edu.pl/index.php/dane-badawcze [dostęp: 5.03.2020]

Drukuj