banner
홈페이지 / 블로그 / 통합된 실제
블로그

통합된 실제

Sep 01, 2023Sep 01, 2023

과학 데이터 10권, 기사 번호: 367(2023) 이 기사 인용

측정항목 세부정보

엄청나게 많은 수의 코로나19 데이터 카탈로그가 존재합니다. 그러나 데이터 과학 애플리케이션에 완전히 최적화된 것은 없습니다. 일관되지 않은 명명 및 데이터 규칙, 고르지 못한 품질 관리, 질병 데이터와 잠재적 예측 변수 간의 정렬 부족은 강력한 모델링 및 분석에 장벽이 됩니다. 이러한 격차를 해소하기 위해 우리는 수많은 주요 코로나19 역학 및 환경 데이터 소스에서 얻은 데이터의 품질 검사를 통합하고 구현하는 통합 데이터 세트를 생성했습니다. 우리는 전 세계적으로 일관된 행정 단위 계층 구조를 사용하여 국가 내 및 국가 간 분석을 용이하게 합니다. 데이터세트는 이 통합 계층 구조를 적용하여 수문기상학 데이터, 대기질, 코로나19 통제 정책에 대한 정보, 백신 데이터 및 주요 정보를 포함하여 코로나19 위험을 이해하고 예측하는 데 관련된 여러 다른 데이터 유형과 코로나19 역학 데이터를 정렬합니다. 인구통계학적 특성.

현재 진행 중인 코로나19 팬데믹으로 인해 전 세계적으로 광범위한 질병, 인명 손실, 사회적 격변이 발생했습니다. 공중 보건 위기가 계속됨에 따라 바이러스 확산을 추적하고 특성화할 수 있는 긴급한 필요성과 특별한 기회가 있습니다. 여기에는 인구통계학적, 지리적, 사회정치적, 계절적, 환경적 요인에 대한 질병 전파의 시공간적 민감도에 대한 이해를 향상시키는 것이 포함됩니다.

글로벌 연구 및 데이터 과학 커뮤니티는 코로나19 사례 수, 입원, 사망률, 예방 접종 및 기타 코로나 발생률 및 부담 지표에 대한 데이터를 수집, 분류 및 전파하려는 광범위한 노력으로 이러한 과제에 대응해 왔습니다1,2, 3,4,5,6,7,8,9,10,11,12,13,14. 이러한 데이터베이스는 엄청난 양의 연구, 위험 모니터링 및 공개 토론을 지원했지만 구조, 명명 규칙, 값, 해결 방법, 품질이 일관되지 않고 전염병 데이터와 잠재적 위험 요소 간의 조정이 부족한 경우가 많습니다. 이러한 문제는 연구 진행을 지연시키고 품질에 영향을 미칠 수 있는 다양한 소스의 데이터를 결합하기 위해 힘든 정리가 필요합니다. 또한 기후 및 인간 이동성과 같은 위험 요소를 정량화하는 중요한 데이터 세트는 편향 및 제한된 가용성의 영향을 받아 데이터 처리에 추가적인 문제를 야기합니다.

서로 다른 세분성 수준에서 서로 다른 소스의 서로 다른 유형의 데이터를 활용하려면 데이터를 결합하고 조화시켜야 합니다. 적절한 조화, 큐레이션, 일관성 확인 없이 이러한 데이터세트를 분석하면 잘못된 결과가 나올 수 있습니다. 이러한 문제를 해결하는 통합 데이터 세트는 다양한 데이터 소스를 정리, 표준화 및 병합하는 데 필요한 추가 시간 소모적 단계를 제거함으로써 다중 규모 시공간 모델링을 통해 코로나19 위험에 대한 이해를 가속화하는 데 도움이 될 것입니다. 예를 들어, 변수 이름을 통합하는 데 시간을 소비하지 않고 통합 데이터 세트에서 직접 가져온 보고된 사례 수 및 예상 일일 감염 수를 포함하여 두 개의 서로 다른 데이터 소스에서 유효 재생산 수(Rt) 추정치를 생성하는 테스트 사례를 제공합니다. /types 및 데이터 정리 또는 지리 참조.

따라서 당사의 통합 코로나19 데이터 세트는 (1) 여러 관리 수준에서 신뢰할 수 있는 데이터 소스의 명명 및 코딩 규칙을 조화시키고, (2) 다양한 유형의 코로나19 사례 수에 대한 품질 관리를 구현하고, (3) 잠재적 예측 변수를 체계적으로 정렬하는 것을 목표로 합니다. (4) 실시간 업데이트 및 수정을 제공하고 관련 변수가 제공되는 대로 새로운 소스를 통합합니다. 특히, 통합 코로나19 데이터세트 세트에는 인구통계, 수문기상학, 대기질, 정책, 예방접종, 의료 접근성 등 전염병학의 핵심 구성요소가 포함되어 있으며 모든 지리공간 단위를 전 세계적으로 고유한 식별자로 매핑하고 관리 이름, 코드, 날짜, 데이터를 표준화합니다. 유형 및 형식은 변수 이름, 유형 및 범주를 통합합니다. 또한 동일한 지리적 단위의 이름 충돌, 서로 다른 보고 전략 및 일정, 역학적 변수의 축적으로 인해 발생하는 혼란스러운 항목을 수정하기 위해 데이터를 선별합니다. 데이터세트는 접근 가능한 형식으로 배포되며 기계 학습 애플리케이션에 최적화되어 재현 가능한 고품질 연구를 지원합니다. 이 데이터 세트의 가용성으로 인해 여러 국가의 하위 국가 결의에서 코로나19 위험 요인에 대한 분석과 팬데믹 과정에서 위험 요인의 변화에 ​​대한 연구가 용이해졌습니다19.