Skip to content

사례 분석 2: 포브스의 나라별 역대 노벨상 수상자 현황 시각화

인간은 현재를 살아가는 존재입니다. 과거를 분명히 거쳐왔지만, 더는 인간이 갈 수 있는 영역이 아닙니다. 미래를 꿈꾸고 기다리지만, 미리 가 볼 수 없습니다. 인간이 자신의 의지대로 존재할 수 있는 때는 오로지 현재, 바로 지금뿐입니다. 시간에 대한 이러한 유한성 때문에 과거를 조망하는 작업은 생각보다 어렵습니다. 조망할 기간이 길면 길수록 우리가 넘어야 할 복잡성의 산은 더 높게 보이기만 합니다.

훌륭한 데이터 시각화는 복잡한 과거 조망의 산을 넘어가는 좋은 셰르파가 될 수 있습니다. 과거의 긴 시간 동안 일어난 다양한 현상과 사건을 시각적으로 잘 설계된 그래픽 요소로 표현할 때, 우리는 과거의 파편을 쉽게 조립할 수 있습니다. 일정한 패턴을 가진 형태로 조망하고, 이해하며, 다음 단계 의사 결정을 위한 근거로 사용할 수 있습니다. 이것은 데이터 시각화가 가진 중요한 강점이자 큰 매력 중 하나입니다.

지난 한 주 동안, 올해 노벨상 수상자들이 발표되었습니다. 각 부문 노벨상 수상자가 발표되는 것을 지켜보면서 누군가 다음과 같은 의문을 가질 수 있습니다.

  • “1901년부터 올해까지, 노벨상 수상자를 가장 많이 배출한 나라는 어딜까?”
  • “제2차 세계대전 이후 과학 부문 노벨상을 가장 많이 배출한 나라는 어딜까?”
  • “나는 노벨화학상에 관심이 제일 많은데, 어떤 나라에서 지금까지 노벨화학상 수상자를 가장 많이 배출했을까?”
  • “한해도 거르지 않고 노벨상 수상자를 배출한 나라가 있을까?”

일단, 역대 노벨상 수상자 목록을 얻으려면 노벨재단 홈페이지를 방문하는 게 가장 빠르고 정확합니다. 역대 노벨상 수상자를 다양한 조건에서 검색할 수 있기 때문입니다. 이곳을 방문, 위의 문제를 풀기 위해 검색한 결과를 보여드리면 다음 링크와 같습니다.

1901-2011년 노벨상 수상자 명단 및 소속 국가

이 검색 결과를 앞의 질문에 대한 답으로 제시한다면, 아마도 99.999% 확률로 답한 사람의 저의를 의심할 것입니다. 검색 결과 안에 분명히 질문에 대한 답이 들어있지만, 그것을 쉽고 빠르게 파악할 수 있으려면 굉장한 인내와 도전 정신이 필요하고, 시간이 많지 않을 경우, 거의 무용지물에 가까운 데이터가 될 것이기 때문입니다.

‘포브스(Forbes’)의 Jon Bruber(new products 담당 deputy editor)는 이 데이터를 시각화해서 문제를 명쾌하게 풀었습니다. 다음은 그가 현지 시각으로 지난 10월 5일, ‘포브스’지 블로그에 올린 데이터 시각화 결과입니다.

Forbes Nobel Laureates, Forbes

[출처: “American Leadership in Science, Measured in Nobel Prizes“, Forbes, 2011-10-5]

이 한 장의 이미지를 보면, 앞서 떠올린 질문을 모두 해결할 수 있습니다. 노벨상 수상자 배출 국가의 패턴이 시간 흐름에 따라 어떻게 달라진다는 것도 ‘단지 보는 것’을 통해 쉽게 파악할 수 있습니다. 앞서 링크했던 검색 결과로는 거의 불가능하거나, 오랜 시간과 노력을 들여 알 수 있는 것을 몇 분 안에 누구나 쉽게 알 수 있습니다.

Jon Bruder는 이 데이터 시각화 결과를 이용, 자신이 주장하고 싶은 내용―노벨상 수상 기록에 따르면 미국이 제2차 세계대전 이후 과학을 선도하고 있다―을 이야기합니다. 최근으로 올수록 밀도 높게 분포하는 미국의 노벨상 수상 이력은 그의 주장을 뒷받침하는데 아주 요긴하게 쓰입니다. (시간을 내어 데이터 시각화 결과와 기사 전체를 함께 읽어보시길 권해드립니다. 데이터 시각화를 하고, 그것을 바탕으로 어떻게 이야기를 풀어나가는지 배울 수 있습니다.)

이 데이터 시각화의 특징은 직선과 6색의 점으로만 원하는 내용을 표현한 것입니다. 풍부한 내용을 담으면서도, 그 내용을 표현하는 그래픽 구성 요소는 굉장히 간단한 것이 장점입니다. 하지만, 이런 장점 가운데 단점이 하나 보입니다. 바로 점의 배색입니다. 물리학, 화학, 생리의학, 경제학, 문학 그리고 평화상을 표시한 6가지 점의 색은 크게 두 가지 배색 그룹을 나눌 수 있습니다. 푸른 색조 중심의 물리학-생리의학-문학 그룹과 붉은 색조 중심의 화학-경제학-평화 그룹입니다. 두 배색 그룹은 서로 비슷한 톤을 유지한 채 한데 섞여 차분하고 절제된 심상을 갖게 합니다. 문제는 각 점의 크기가 작아진 상태에서 공간에 흩어져 분포할 때 일어납니다. 다음 이미지를 보시면 어떤 문제가 생기는지 쉽게 알 수 있습니다.

Forbes Orginal Dots

위 그림은 앞서 보여 드린 데이터 시각화 결과의 일부를 따온 것입니다. 이 그림에서 화학상, 경제학상 그리고 평화상을 서로 비교해 보십시오. 생각보다 분명하게 색을 구분하기 어렵다는 것을 느끼실 것입니다. 특히 왼쪽 무리에서 보면, 화학상과 경제학상의 색 구분이 명쾌하게 보이지 않습니다. 배색 자체는 무난하나, 이처럼 실제 데이터 시각화에 적용하는 과정에서 작은 점 크기와 주변 색과의 상호작용 등 때문에 결과적으로 시각 신호 효율을 떨어뜨리는 결과가 발생했습니다.

이 문제 해결을 위해 다음과 같이 화학상과 평화상을 나타내는 두 점의 색을 조절했습니다. 왼쪽이 조절 전의 색 정보이며, 오른쪽이 조절 후의 색 정보입니다. 표시한 값은 HSB 색공간 값입니다. H, S, B는 각각 색상(Hue), 채도(Saturation), 명도(Brightness)를 의미합니다. 조절한 값이 원래 보다 증가한 값이면 파란색을, 원래보다 감소한 값이라면 빨간색을 사용해 표시했습니다. 회색은 그대로 유지한 값입니다.

Forbes Modified Dots

이렇게 변경한 값은 배색, 특히 톤의 균일성이 원래의 점보다 다소 떨어지지만, 실제 데이터 시각화에 적용하면 앞서 겪은 색 구분의 모호성이 감소합니다. 다음 그림을 보면 그 차이를 알 수 있습니다.

Forbes Dots Befor and After

먼저 왼쪽의 푸른색 선을 따라 변경 전(위)과 후(아래)의 차이를 느껴보시기 바랍니다. 그리고 오른쪽의 동일한 패턴을 지닌 지점으로 가셔서 변경 전·후의 차이를 느껴보십시오. 변경 전보다 변경 후의 점 색이 뚜렷한 구분된다는 것을 볼 수 있습니다.

데이터 시각화의 가장 중요한 목표는 표현한 데이터를 사용자에게 최대한 누수 없이 전달하는 것입니다. 시각적 아름다움은 이 목표가 방해 받지 않은 선에서 추구되어야 합니다. 위에서 살펴봤듯이, 배색의 아름다움은 감소시켰지만, 데이터 전달 효율은 더 높이는 전략이 때론 필요합니다. 이것이 데이터 시각화와 일반 그래픽 디자인과 큰 차이점입니다. 물론 조형적 아름다움과 데이터 전달의 효율성 사이에서 가장 최적의 균형점을 찾을 수 있다면 그것이 가장 좋은 방향이며, 언제나 이 방향으로 가기 위해 노력할 필요가 있습니다.

데이터 시각화와 관련된 분야에 계신 분이라면, 마지막으로 꼭 해 봐야 할 것이 하나 있습니다. Jon Bruder의 데이터 시각화 결과를 보고, 과연 어떤 구조로 데이터 세트를 구성했을까 고민해 보는 것입니다. 스프레드시트나 평소에 즐겨 쓰는 편집기를 열어서 데이터 세트를 구성해 보는 것도 좋은 방법입니다. 필요한 원 데이터(raw data)는 이 글의 서두에서 제가 링크해서 준비해 드렸으니, 이 원 데이터를 이용, 각자가 표현할 수 있는 도구에 맞춰 데이터를 가공하는 연습을 꼭 해 보시길 권해 드립니다. 데이터를 정련하는 이 과정이 사실상 데이터 시각화 작업에서 대부분 시간을 차지하며, 이 부분이 명쾌하게 잘 될수록 데이터 시각화 결과의 질은 높아집니다. ▩
 

 


여담이지만, 이 데이터 시각화를 한 Jon Bruder의 전공 배경도 눈여겨볼 필요가 있습니다. 그의 전공은 수학과 경제학입니다. 데이터 시각화는 시각적 즐거움을 줄 수 있도록 아름답게 디자인하는 것도 굉장히 중요하지만, 표현할 데이터를 논리적으로 수집·분석·구조화하는 작업 역시 그에 못지않게 중요합니다. 그의 전공은 아마도 이 후자의 과정에서 빛을 발하지 않았을까 짐작해 봅니다.

Post a Comment

Your email is never published nor shared. Required fields are marked *
*
*