본문 바로가기

책 리뷰

빅데이터 인문학: 진격의서막 - 에레즈 에이든(Erez Aiden),장바티스트 미셸(Jean-Baptiste Michel)

728x90

빅데이터 인문학: 진격의서막

에레즈 에이든(Erez Aiden),장바티스트 미셸(Jean-Baptiste Michel)

지금까지 인간이 축적해온 기록 유산과는 규모 면에서 비교가 불가능한 어마어마한 양의 디지털 기록, 즉 빅데이터라는 새로운 환경에서 인문학이 맞이하게 될 혁명적인 변화를 보여주는 책이다. 30대 초반의 과학자인 두 저자는 첨단 과학기술이 제공하는 도구를 사용한다면, 인문학이 인간에 관해 지금껏 알지 못했던 새로운 사실들을 밝혀낼 수 있으리라 전망한다. 빅데이터는 그동안 물리적, 기술적 한계 때문에 접근할 수 없었던 많은 영역을 열어젖히며 인문학을 확장해나갈 것이다.

이미 많은 연구자들이 빅데이터의 가능성에 눈뜨고 상아탑에서 빠져나와 페이스북, 구글, 아마존과 공동 작업을 시작했다. 이 책의 저자 에레즈 에이든과 장바티스트 미셸은 세상의 모든 책을 디지털화하겠다고 선언한 ‘구글 북스 라이브러리 프로젝트Google Books Library Project’의 빅데이터로 새로운 실험을 벌였다. 구글은 2004년부터 지금까지 3000만 권 이상의 책을 디지털화했다. 이는 구텐베르크 이후 출간된 책 네 권 가운데 한 권 꼴이다(2010년 추산 전 세계에는 1억 3천만 권의 책이 있다).

사이버 공간에 세상의 모든 책을 모아 자유롭게 검색하고, 책과 책 사이를 넘나들 수 있게 하자는 것은 구글의 모태가 된 아이디어였다. 1996년 스탠퍼드의 두 대학원생 래리 페이지와 세르게이 브린은 ‘스탠퍼드 디지털 도서관 테크놀로지 프로젝트’를 통해 책들의 세계를 통합하는 미래의 도서관을 구상하고 있었다. 그러나 디지털화된 책이 적었던 당시로서는 실현되기 어려운 일이었고, 결국 그들은 한 텍스트에서 다른 텍스트로 이동하게 해주는 아이디어와 테크놀로지를 작은 검색 엔진으로 전환했다. 이것이 바로 오늘날의 ‘구글’이다.

책 읽으러 가기

책속에서

장차 우리를 압도하고 우리를 사로잡을 이상한 매혹을 수백만 명이 공유하게 될 혁명이 어디선가 일어나고 있었다. 그 핵심에는 인류가 벌인 활동에 관한 역사적 기록의 창조 및 보존과 연관된 빅데이터 혁명이 있었다. 이 혁명의 결과물은 우리가 우리 자신을 바라보는 방법을 바꿀 것이다. 또 우리 사회의 본질을 더 효율적으로 탐색할 수 있는 관찰도구를 창조하게 해줄 것이다. 빅데이터는 인문학을 바꾸고, 사회과학을 변형시키고, 상업 세계와 상아탑 사이의 관계를 재조정할 것이다. _ 17쪽

요약하자면 이 책은 로봇이 말하는 역사, 디지털 렌즈로 들여다봤을 때 보이는 인류의 과거에 관한 책이다. 오늘날 엔그램 뷰어가 이상하고 예외적으로 보일지라도 이 디지털 렌즈는 수세기 전 광학렌즈가 그랬던 것처럼 번창하고 있다. 이 새로운 관찰도구는 급성장하는 디지털 발자국에 힘입어 역사학과 지리학, 전염병학, 사회학, 언어학, 인류학, 나아가 생물학과 물리학에 이르기까지 가려져 있던 측면들을 매일 새로이 드러내 보이고 있다. 세상은 변하고 있다. 우리가 세상을 보는 방식도 변하고 있다. 우리가 그러한 변화를 보는 방식들 역시, 음, 변하고 있다. _ 34~35쪽

우리의 통계적 검열-탐지 기술은 전통적인 방법을 이용하는 전통적인 역사학자의 그것과 질적으로 비슷한 결과를 가져다준다. 그러나 전통적인 방법들과는 다르게, 우리의 분석은 컴퓨터를 이용해 거의 즉각적으로 수행될 수 있다. (중략)
점점 더 많은 정보가 생산되면서 모든 것, 심지어 모든 것 가운데 중요한 조각조차 읽는 것이 불가능해지고 있다. 우리에겐 대안이 필요하다. 빅데이터는 강력하다.
흥미롭게도 위키피디아는 최근 편견을 탐지하는 방법의 일환으로 빅데이터의 장점을 취하기 시작했다. 위키피디아의 여성 적대적 편견에 대해서 오랫동안 논의가 있었는데, 이는 분명 위키피디아의 편집자 대부분이 남성이라는 점에서 비롯되었다. 이 논의는 주로 입증되지 않은 증거들에 의존했다. 이제 이 논의에 통계적 방법론과 엔그램 데이터를 도입하려는 새로운 시도가 진행되고 있다. 이 일의 목표는 문제가 있는 추세와 글을 명확하게 구분해서 그 결점에 대처할 수 있도록 하는 것이다.
미래에는 이런 방법들이 선의를 가진 자원 봉사자들로 움직이는 웹사이트에만 국한되지는 않을 것이다. 정부가 정직해지도록 이끌고, 국민과 사상을 자유롭게 하는 데에도 사용될 것이다. _ 177~178쪽

사람들은 이미 끝나버린 연도에 대한 관심을 얼마나 빨리 잃어버리는가? 이 질문에 대한 단순한 접근법은 집단기억의 반감기, 즉 어떤 연도의 빈도가 그것이 도달했던 최고치에 비해 절반으로 떨어지는 데 얼마나 오래 걸리는지를 보는 것이다. 이 값은 연도마다 다르다. 1872년의 빈도는 1896년에 절반으로 줄어들었다. 그 반면에 1973년은 겨우 10년 뒤인 1983년에 절반으로 떨어졌다.
1973년이 보여준 좀 더 빠른 감소는 일반적인 현상의 징후였다. 세월이 흐를수록 집단망각의 반감기는 점점 더 짧아졌다. 이런 관측은 과거에 대한 우리 사회의 태도가 변하고 있음을 시사한다. 우리는 점점 더 빨리 과거의 사건에 흥미를 잃고 있다.
무엇이 이런 변화를 일으켰는가? 우리는 모른다. 우리가 가진 것은 새로운 관찰도구의 디지털 렌즈를 통해 집단기억을 들여다보고 알아낸 발가벗은 상관관계들뿐이다. 그 밑에 흐르는 메커니즘을 밝혀내려면 시간이 더 걸릴 것이다. 이것은 최전선에 선 과학이다. 우리에겐 지도도 없고 추측과 막다른 골목들만 수두룩하지만, 이보다 나은 곳은 없다. _ 196~197쪽

역사 기록을 디지털화하는 문제는 인문학에서도 거대과학 스타일의 작업을 할 수 있는 전례 없는 기회를 제시한다. 우리가 과학에서 수십억 달러짜리 프로젝트를 정당화할 수 있다면, 우리 역사의 가장 중요하고 부서지기 쉬운 파편들을 우리 자신과 우리 아이들이 널리 자유롭게 사용할 수 있도록 기록하고, 보존하고, 공유하는 것을 목표로 하는 수십억 달러짜리 프로젝트의 잠재적 영향력도 고려해야 한다. 과학자, 인문학자, 기술자가 함께 팀을 이뤄 일하면 놀라운 힘을 가진 공유 자료들을 만들어낼 수 있다. 이런 노력들은 쉽게 내일의 구글과 페이스북을 위한 씨앗을 뿌릴 것이다. 사실 이 두 회사는 우리 사회의 여러 양상을 디지털화하려는 노력과 함께 출발했다. 곧 ‘거대 인문학’이 일어날 것이다. _ 231쪽

이 학술대회의 주제인 ‘데이터, 생의학, 디지털 인문학’은 엄청난 낙관주의를 보여주었다. 역사학자와 철학자, 예술가와 의사, 생물학자가 데이터를 가지고 함께 궁리하고 연구하면 혼자서 했을 때보다 그들 각자의 대의大義를 향해 한 발 더 앞으로 나아갈 수 있다는 생각이 깔려 있기 때문이다. ‘공유된 지평Shared Horizons’이라는 학술대회 명칭은 매우 적절했다. 우리가 하는 작업의 모든 접점에는 우리의 지적 미래에서 가장 흥분되는 일이 기다린다. (중략)
한 가지는 확실하다. 과학과 인문학이 다시 한 번 같은 목표를 향해 가고 있다는 것이다. 갈릴레오가 17세기에 우리 세계에 대한 이해를 바꿔놓았듯이, 21세기에 이 두 개의 렌즈는 서로 등을 맞댄 채 갈릴레오가 했던 것과 똑같은 일을 해낼 것이다. _ 247~248쪽