DataLad를 사용하여 다중 모드 동물 연구 데이터세트를 설정하고 유지하는 방법
과학 데이터 10권, 기사 번호: 357(2023) 이 기사 인용
1 알트메트릭
측정항목 세부정보
데이터, 처리 도구, 워크플로우를 공유하려면 개방형 데이터 호스팅 서비스와 관리 도구가 필요합니다. FAIR 지침과 자금 지원 기관 및 출판사의 수요 증가에도 불구하고 소수의 동물 연구만이 모든 실험 데이터와 처리 도구를 공유합니다. 대규모 다중 모드 데이터 세트에 대한 버전 제어 및 원격 협업을 수행하기 위한 단계별 프로토콜을 제시합니다. 동일한 파일 및 폴더 구조와 더불어 데이터 보안을 보장하기 위한 데이터 관리 계획이 도입되었습니다. 데이터 변경 사항은 DataLad를 사용하여 자동으로 추적되었으며 모든 데이터는 연구 데이터 플랫폼 GIN에서 공유되었습니다. 이 간단하고 비용 효율적인 워크플로는 원시 및 처리된 데이터를 사용할 수 있게 만들고 데이터 처리 단계를 독립적으로 재현할 수 있는 기술 인프라를 제공함으로써 FAIR 데이터 물류 및 처리 워크플로의 채택을 촉진합니다. 이를 통해 커뮤니티는 특정 데이터 범주에 국한되지 않고 이질적으로 획득하고 저장된 데이터 세트를 수집할 수 있으며, 다른 사이트의 데이터 처리를 개선하고 다른 연구 영역으로 확장할 수 있는 풍부한 잠재력을 지닌 기술 인프라 청사진 역할을 합니다.
데이터 관리 및 공유에는 최근 인간 MRI1,2에 도입된 모범 사례가 필요합니다. 경험상 대부분의 실험실은 사용자 관리 및 백업 용량이 부족한 로컬 하드 드라이브 또는 네트워크 드라이브의 비표준 데이터 저장소에 의존합니다. MRI 연구 중 소수만이 작은 동물을 사용하고 있다는 사실에도 불구하고 널리 사용되는 신경 영상 데이터 공유 플랫폼3인 OpenNeuro에서 데이터 세트의 3%만이 생쥐 또는 쥐의 데이터를 포함하고 있다는 사실은 놀라운 일입니다. 마찬가지로, 신경영상에만 국한되지 않는 또 다른 인기 있는 데이터 공유 플랫폼인 Zenodo4에서는 MRI 데이터세트의 약 30%만이 생쥐에서 나온 것입니다. 또한, 이러한 신경영상 데이터 세트의 대부분이 영상 데이터만 제공된다면 FAIR 원칙5에 어긋나고 놀랍습니다. 이는 생체 내 교차 검증에 사용되는 현미경 파일과 같은 동반 데이터의 상당 부분을 제외합니다. 또한 처리된 데이터를 재현하는 데 필요한 단계별 가이드나 자동화된 루틴이 확실히 부족하다는 사실도 확인했습니다. 이러한 예는 소동물 데이터 공유가 일반적이지 않으며 데이터 수집, 저장 및 공유 측면에서 표준화가 없다는 이전 보고서6를 강조합니다. 데이터가 공유되지 않아 재사용이 불가능한 경우(생의학 오픈 액세스 출판물의 93%가 이에 해당함)7 이는 동물 실험 횟수를 최소화한다는 3R 원칙과도 크게 대조됩니다8. 따라서 재현성 위기에 기여하는 여러 실험실 간의 연구를 비교하는 것은 매우 어렵고 소동물(신경 영상) 연구도 예외는 아닙니다.
우리는 동물 연구의 신뢰성과 인식을 향상시키기 위해 좋은 과학적 관행의 조건과 FAIR(찾기 가능, 접근 가능, 상호 운용 가능, 재사용 가능5 및 개방형 과학2) 원칙을 향한 변화를 계획하고 있습니다. 우리의 목표는 원시 및 처리된 데이터, 방법, 결과 및 출처에 대한 액세스를 제공하는 다중 모드 데이터 세트를 설정하기 위해 쉽게 적용할 수 있는 접근 방식을 만드는 것이었습니다. 적절한 연구 데이터 관리(RDM)는 자금 지원 기관 및 출판사에서 점점 더 요구하고 있으므로 이러한 표준을 충족하는 데 핵심입니다2,11,12.
여기에서는 세 가지 확립된 도구인 관계형 데이터베이스13, 데이터 플랫폼 GIN(G-Node 인프라 서비스, https://gin.g-node.org)을 사용하여 데이터 구성, 메타데이터 수집 및 데이터/분석 추적에 대한 전략을 설명합니다. , 연구 데이터 관리 소프트웨어 DataLad14. 데이터베이스는 MRI, 조직학, 전기 생리학 및 행동을 포함하여 종단적 및 다중 모드 동물 실험의 전체 타임라인에 대한 모든 실험 메타데이터를 수집하는 데 사용됩니다. GIN과 DataLad는 모두 널리 사용되는 버전 제어 시스템인 Git과 특히 대용량 파일 관리와 관련하여 Git의 기능을 확장하는 git-annex를 기반으로 합니다. GIN은 내장된 버전 관리, 보안 액세스, 게시를 위한 영구 데이터 식별자(DOI), 자동 색인화, 데이터 검증 등 공동 데이터 처리를 위한 다양한 기능을 갖춘 오픈 소스 웹 기반 데이터 관리 서비스입니다. DataLad는 디지털 객체 개발의 다양한 단계를 지원하도록 설계된 데이터 관리 소프트웨어입니다. 중요한 것은 DataLad가 기존 데이터 구조 및 서비스 위에 오버레이로 표시될 수 있다는 것입니다. 파일을 추적해도 파일 자체나 데이터 처리 도구에서 검색할 수 있는 위치가 변경되지 않습니다.
/p>