데이터 품질의 악화
Data Quality Is Getting Worse When We Might Need the Numbers Most
월 스트리트 저널의 Josh Zumbrun의 기사에 따르면 데이터 수집 부족으로 인하여 데이터 신뢰도에 문제가 생기고 있다고 말했습니다.
아래의 글은 기사의 일부입니다. 기사는, 기존의 대표적인 조사 방법이었던 '설문조사'는 알 수 없는 번호로부터의 전화를 덜 받게 되면서, 전통적인 방법들이 효과를 잃어가고 있다고 전했습니다.
Our overarching problem is that so much data is based on surveys to which people no longer respond.
가장 중요한 문제는 사람들이 더 이상 응답하지 않는 설문조사에 기반한 데이터가 너무 많다는 것입니다.
One example is the Current Population Survey, from the Census Bureau and Bureau of Labor Statistics. The survey underpins the monthly jobs report and is very good, but its response rate has fallen to 71% this year from 90% a decade ago.
한 가지 예로 인구조사국 및 노동통계국의 현재 인구조사(Current Population Survey)를 들 수 있습니다. 이 설문조사는 월별 일자리 보고서를 뒷받침하는 매우 좋은 조사이지만, 응답률이 10년 전 90%에서 올해 71%로 떨어졌습니다.
The White House Office of Management and Budget once articulated a standard that survey response rates should be above 80%. Today, nearly no surveys remain above that standard.
백악관 관리예산처는 설문조사 응답률이 80% 이상이어야 한다는 기준을 제시하기도 했습니다. 오늘날 이 기준을 넘는 설문조사는 거의 없습니다.
Journalists and statisticians still dutifully report the “margin of error” from these surveys. But the margin of error shows only one type of error, sampling error, which is how much a random sample of a certain size might differ from the overall population.
언론인과 통계학자들은 여전히 이러한 설문조사의 '오차 범위'를 충실히 보고합니다. 그러나 오차 범위는 특정 크기의 무작위 표본이 전체 모집단과 얼마나 다를 수 있는지를 나타내는 샘플링 오차라는 한 가지 유형의 오차만 보여줍니다.
오른쪽의 데이터는 응답률이 낮아지고 있음을 보여주는 미국 노동청의 통계자료입니다. 오른쪽의 그래프에서 볼 수 있듯, 응답률이 과거에 비해 현저히 떨어지고 있는 현실입니다. 통계 그래프의 종목들은 현재 인구 조사, CPI 주택, CPI 상품 및 서비스(CPI; 소비자 물가 지수), 고용 비용 지수 등 중요한 데이터들 입니다.
위 데이터들은 고용 시장, 인플레이션, 건강, 국가적 분위기 와 같은 무언가가 좋아지고 있는지 나빠지고 있는지 객관적으로 판단할 때 필요한 데이터 들이며, 데이터의 신뢰도 하락은 곧, 객관적 판단 기준이 어려워진다는 것을 의미합니다.
대안적 데이터 소스의 부상
기존의 데이터들의 신뢰도가 하락함에 따라, 그에 대한 대책을 강구해왔습니다. 가장 대표적으로 보완되는 데이터들을 찾는 것입니다. '빅 데이터'가 지배하는 시대에서, 기사는 위성 데이터와 같은 대안적 데이터 소스에 대한 의존도가 증가하고 있음을 강조하고 있습니다. 이러한 방법은 전통적인 데이터 수집이 실용적이지 않거나 신뢰할 수 없는 상황에서 통찰력과 객관성을 유지하는데 도움이 됩니다. 그러나 이러한 대안적 소스는 보완재이며, 대체재가 아닙니다. 그들은 우리의 이해를 풍부하게 하지만, 잘 수행된 조사와 연구에 의해 제공되는 섬세한 통찰력을 완전히 대체할 수는 없습니다.
데이터 해석의 복잡성
팬데믹 시대는 같은 데이터 세트가 다양한 해석을 낳을 수 있음을 예시했습니다. 선택된 시간 프레임이나 맥락에 따라, 동일한 데이터 세트가 상반된 방식으로 해석될 수 있습니다. 이러한 데이터 해석의 주관성은 통계적 발견을 이해하는 데 보다 미묘한 접근이 필요함을 강조합니다.
개인적 의견 및 결론
데이터는 단순 존재로서 가치 있는 것이 아닌 그것이 유의미할 때 가치가 있다고 생각합니다. 즉, 데이터 신뢰도에 대한 불안은 곧 우리가 알 수 있는 객관적 사실들이 흔들릴 수 있다는 뜻이며, 기존의 방식의 한계를 직면하고 현재 새로운 방안을 강구해야하는 것이 필요합니다. 기사에 언급된 것과 같이 보완 데이터를 활용하는 방안은 좋습니다. 하지만 위 방안은 근본적인 문제를 해결해 주지 못하며, 새로운 대규모 데이터를 신뢰도 있게 조사할 수 있는 방법을 확보해야하는 것이 지금의 현실이라 생각합니다. 마찬가지로 더 많은 데이터를 수집하는 것이 아니라, 더 나은, 더 대표적인 데이터를 수집하는 것 또한 중요합니다. 우리는 데이터 소비자로서, 우리에게 제시되는 정보를 해석하는 데 있어 경계심을 가지고 비판적이어야 합니다. 데이터가 오도하기보다는 깨우쳐 주는 세상, 양보다는 질이 우선시되는 세상, 모든 데이터 이야기의 핵심에 인간적 요소가 남아있는 세상을 지향합시다.
Data Quality Is Getting Worse When We Might Need the Numbers Most
Falling response rates contribute to fuzzier survey results.
www.wsj.com
'월 스트리트 저널' 카테고리의 다른 글
2024 미국 고용시장의 방향 (0) | 2024.01.03 |
---|