본문 바로가기

관심사

구글, 데이터 센터의 비밀을 보여주다.

728x90
반응형

구글, 데이터 센터의 비밀을 보여주다.


ENTERPRISE

Google Throws Open Doors to Its Top-Secret Data Center

By STEVEN LEVY 10.17.12 | 7:30 am


Photo: Google/Connie Zhou

디지탈 세상의 두근거릴 상대를 찾고 계신다면, 디지탈 왕국의 지력과 위엄, 그리고 긱스러움이 스스로를 나타내는 장소로서 노스캐롤라이나 르누아(Lenoir)만한 곳이 없다. 한 때 가구 공장이 모여 있던 18,000명 규모의 시골 도시 르누아는 현재 구글 데이터센터가 위치한 디지탈 도시가 됐다.

이제 14살이 된 구글은 엔지니어링 능력으로 세계에서 제일 성공한 기업이자, 제일 영향력이 크고 무서울정도로 두려운 기업으로 성장했다. 끊임 없이 손질하는 구글의 알고리즘은 우리가 정보에 대해 접근하는, 심지어 정보에 대해 사고하는 방식마저 변화시켰다. 역시 복잡한 구글의 광고 경매 플랫폼은 지속적인 현금 지급기 역할을 하고 있지만, 속도와 효율로 무장한 채 거대한 광통신 서버 네트워크의 구축과 운영, 조직에 대한 구글의 엔지니어링과 전략 혁명같은 부분은 구글의 성공담에 가려 빛을 잘 보지 못 하였다. 구글은 아이오와 주의 카운실 블러프(Council Bluff), 벨기에의 생-기슬랭(St. Ghislain), 홍콩, 싱가포르 등 전세계에 걸쳐 거대한 빌딩으로 이뤄진 인프라스트럭쳐를 건설했으며, 정확히 알려지지는 않았지만 거대한 수의 서버가 역시 거대한 구글 사용 경험을 처리하고 있다.

구글을 구글답게 만들어주는 것이 바로 구글의 무리적인 네트워크망과 수 천 마일에 달하는 구글의 광통신망, 그리고 거의 전세계 최고급의 물량을 갖춘 서버군이다. 수 십억 달러에 달하는 구글 인프라스트럭쳐 덕분에 구글은 매일같이 200억 웹페이지를 인덱싱하고 있다. 매일 이뤄지는 30억 건 이상의 검색, 실시간 경매 수 백 만 건을 처리하고 4억 2,500만 명의 지메일 사용자들에게 무료 저장 스토리지를 제공하며, 매일같이 수 천 만 시청자에게 유튜브 비디오도 보여주고 있다. 심지어 사용자가 검색어를 미처 다 치기도 전에 결과를 보여주는 구글은 가까운 장래에 구글 글래스라 불리우는 착용형 컴퓨팅 플랫폼을 선보일 예정이다. 글래스 역시 구글의 인프라스트럭쳐가 시각적 검색 결과를 받쳐줄 것이다.

다만 구글은 인프라를 이루는 데이터 센터를 궁극적인 경쟁 이익으로 간주하기 때문에 내부 출입은 핵심 직원들에게만 허용해 왔다. 다른 이들에게는 금지의 영역이 데이터 센터였다. 지금까지는 말이다.


A server room in Council Bluffs, Iowa. Previous spread: A central cooling plant in Google’s Douglas County, Georgia, data center.
Photo: Google/Connie Zhou

여기, 바로 지금 르누아의 거대한 하얀색 빌딩 앞에 구글 직원들과 같이 내가 서 있었다. 나는 구글 데이터센터 내부와 전설적인 서버대(간단히 "floor"라 불린다)를 본 흔치 않은 종족에 속한다. 내 방문이야말로 구글의 블랙박스 정책이 완화되고 있다는 최신 증거다. 동행한 직원으로는 구글 데이터센터의 구축과 유지 책임자인 조 카바(Joe Kava), 그리고 카바와 동료인 비탈리 군다네츠(Vitaly Gundanets)가 있었다. 군다네츠는 컴퓨터로 가득찬 데이터센터에 살면서 운영이 부드러운지를 확인하는 역할이다.

청력보호 장비 없이는 누구도 들어갈 수 없다는 사인이 나타났다. 비행기의 지상근무 인력이 착용하는 것과 비슷하게 생긴 연어 빛깔의 이어폰이었다. 이어폰에는 팬더의 귀처럼 귓집이 삐죽 나와 있었다. (소음은 기류를 통제하는 팬때문에 높은 음조로 나온다.) 플러그를 들자, 카바는 보안 스캐너에 자기 손을 들어 댄 다음, 무거운 문을 열었다. 그리고 우리는 무시무시한 데이터의 세상으로 들어섰다…

세르게이 브린과 래리 페이지가 우어스 횔츨(Urs Holzle)을 고용하기 전, 횔츨은 데이터센터라는 곳에 들어가 본 적이 없었다. 털이 많고 부드럽게 말하는 스위스인 횔츨은 1999년 2월, UC 산타바바라의 컴퓨터학 교수 자리를 퇴직하고 구글로 들어갔으며, 구글은 그를 산타클라라에 있는 엑소더스(Exodus) 서버 설비로 보냈다. 엑소더스는 콜로(colo)라 불리우는, 이른바 여러 업체가 대여를 하여 서버를 설치하는 곳이었다. 구글의 "철장(cage)"은 이베이 등 여러 잘나가는 인터넷 업체들의 서버 옆에 있었다.하지만 구글 서버는 제일 밀집해 있었고 엉망진창인 상태였다. 브린과 페이지는 시스템의 업그레이드를 알아보고 있었다. 기존의 시스템은 검색 결과를 내는데 3.5초가 걸릴 때가 자주 있었으며, 유독 월요일마다 충돌을 일으켰었다. 그래서 횔츨을 보내서 알아보도록 했었다.

쉬운 일이 아닐 터였다. 횔츨은 엑소더스가 거대한 엉망진창이었다고 기억한다. 곧 더 심하게 좁아지고 뒤죽박죽이 될 것이었다. 구글은 당시 매주 수 백만 건의 검색을 처리하고 있었을 뿐 아니라 웹을 인덱싱하여 온라인의 모든 정보를 모아 검색 가능한 포맷으로 바꾸고 있었다. 검색 결과에 맞춰서 나란히 띄우는 광고를 경매하는 애드워즈 서비스 검색만큼이나 컴퓨팅 파워를 요구하는 서비스였다. 페이지는 또한 속도에 대해서도 집착을 보이기에 검색 결과를 마치 독심술처럼 최대한 빨리 내보내야 했고, 이는 더 많은 서버와 네트워크를 요구했다. 구글이 결과를 더 빨리 내보낼 수록, 구글은 더 유명해졌고, 뒤이어 구글의 부담 또한 더 커졌다. 그동안 구글은 페타바이트 급의 스토리지에 순간 접속을 요구하는 메일 서비스 등 여러가지 애플리케이션을 추가시키고 있었다. 더군다나 90년대 후반의 기술 버블이 꺼지면서 많이 남았던 공간도 점점 끝나가고 있었고, 구글의 장래 서버 리스 가격 또한 상승할 것이었다.

Explore a Google data center with Street View - YouTube

구글이 성공하려면 자기 자신의 데이터 센터를 구축하고 운영해야 했다. 그리고 이전의 누구보다도 더 저렴하고 효율적으로 운영할 방법도 알아내야 했다. 구글 데이터 센터 작업의 코드명은 윌파워(Willpower), 구글 최초의 구글 전용 데이터 센터는 오리건 주 콜럼비아 강에 위치한 달스(Dalles)였다.

횔츨과 그의 팀은 급진적인 방식으로 6억 달러 어치의 설비를 디자인했다. 서버룸을 냉각시킬 필요가 없는 디자인이었다. 서버는 엄청난 양의 열을 배출한다. 그래서 전통적으로 데이터 센터는 거대한 에어컨이나 CRAC(보통은 상층부 바닥에 설치된다)도 같이 장비하여 냉각시킨다. 당연히 에너지가 많이 필요하다. 데이터 센터는 전세계 전기량의 1.5%를 소비한다.

구글은 소위 냉각 통로를 화씨 80도로 배치하면 작업자가 스웨터가 아닌, 반팔과 반바지를 입을 수 있다는 사실을 깨달았다. 그리고 열이 서버 뒷면으로부터 나오는 "뜨거운 통로"의 온도는 화씨 120도까지 올라갈 수 있었다. 물을 채운 코일이 이 열을 빨아들여 빌딩 바깥으로 내뿜고, 내부로 순환되어 돌아오기 전에 냉각된다. 구글이 냉각기법에 기여한 바의 목록은 이렇게나 많다. 구글은 원래의 냉각 기법을 바꿔버렸다.

구글은 또한 달궈진 물을 냉각시키는 비용-절약적인 방법도 만들어냈다. 보통 데이터 센터는 에너지 낭비가 심한 칠러(chiller)에 의존하지만, 구글의 데이터 센터는 뜨거운 물을 거대한 방열기를 통해 흘러내리는 거대한 탑을 이용한다. 뜨거워진 물은 아래까지 내려가면서 증발하기도 하고, 온도도 낮출 수 있다. 벨기에에 있는 구글 데이터 센터는 냉각을 위해 재활용된 운하의 공장 폐수를 사용하고, 핀란드의 구글 데이터 센터는 해수를 사용한다.

또 있다. 전기의 흐름을 분석한 구글은 또다른 낭비 요소를 발견한다. 데이터 센터 대부분에서 볼 수 있는 커다란 전력 공급 시스템이 있다. 전력 공급이 중단될 때 서버를 보호하는 시스템이다. 이 시스템은 전력을 누출시킬 뿐만 아니라 스스로의 냉각 시스템도 장비해야 한다. 구글은 서버 머신을 올려 놓는 랙도 디자인하기 때문에 서버마다 보조용 배터리를 놓을 공간을 만들고, 커다란 UPS 장비는 제거했다. 조 카바에 따르면 UPS 제거만으로 전력 낭비를 15% 줄였다.

이들 혁신 덕분에 구글은 전례 없이 전력 절약을 이룰 수 있었다. 표준적인 데이터 센터 효율성 측정단위가 있다. 전력 사용 효율성, 즉 PUE라 불리는 단위인데 완벽한 수치는 1.0이다. 장비로 들어가는 모든 전략을 사용한다는 의미이다. 하지만 이 수치가 2.0이 될 경우, 전문가들은 설비가 합리적인 사용량에 비해 전력의 절반을 낭비한다고 본다. 구글은 전례 없는 1.2를 기록했다.

그동안 구글은 무슨 일이 일어나고 있는지 공개하지를 않았다. 구글 서버 설정을 도왔던 짐 리스(Jim Reese)의 말이다. "우리의 핵심 역량은 대규모 컴퓨터 네트워크입니다. 아마 전세계 어느 곳보다도 더 대규모일 겁니다. 게다가 경쟁사들이 모르게 하는 것이 최선이라는 점 또한 우리는 알고 있었죠."

하지만 비밀주의에도 단점은 있다. 구글은 기록상 녹색 실천 기업 명단에 올라 있었다. 2007년, 구글은 공식적으로 탄소-중립을 약속한다. 기업행위(디젤 발전기를 돌리기 위한 냉각장치에서 나옴)로 만들어내는 탄소 배출 분자 하나마다 댓가가 따른다는 의미이다. 즉, 혁신을 통해 이룬 전력 절약분을 비밀로 취급함으로써 오히려 불리해진다. 구글이 얼마나 많은 에너지를 절약하는지 경쟁사들이 알아낸다면 구글의 결과를 따르려 할 테고, 이는 환경에 상당한 영향을 끼칠 수 있다. 특히 달스의 센터 설비를 둘러 싼 돌담은 거의 개그의 소재가 되어 버렸다. 구글이 가졌다는 것 자체가 공개 기록의 문제가 되지만 구글은 계속 인정을 거부하고 있다.

2009년 효율적인 데이터 센터 회의라 불린 이벤트에서 구글은 최신 PUE 결과치를 공개하고 자신의 기술 일부에 대해 힌트를 내줬다. 결국 그것만으로 업계는 크게 바뀌었고, 현재 페이스북과 야후와 같은 기업들도 유사한 PUE를 내고 있다.

그래도 오해는 하지 말자. 구글이 추구하는 그린 정책은 대통령 선거의 의제이기도 하다. 횔츨의 말이다. "우리는 당연히 에너지 절약하기를 좋아합니다. 그러나 지메일과 같은 것을 할 때데이터 센터와 서버가 전통적인 방식으로 돌아간다면 우리는 상당한 돈을 잃죠. 우리의 효율성때문에 우리는 비용을 최소한으로 줄여서 지메일을 무료로 제공할 수 있습니다."

구글의 혁신은 에너지를 뛰어 넘는다. 모두들 구글을 또하나의 인터넷 기업으로 간주할 때, 구글은 사실 세계에서 제일 거대한 하드웨어 제조업체로 자라나 있었다. 자신이 사용하는 설비를 스스로 구축하기 때문이었다. 1999년 횔츨은 "전자제품 가게를 갖고 있던 세 명의 사내로부터 간소화된 기판회로("breadboard") 2천 개를 사들였다. 구글은 불필요한 부품을 제거하고 대당 1,500 달러 짜리의 서버군을 만들었다. 당시 표준 가격으로는 대당 5천 달러 선이었다. 횔츨과 페이지, 그리고 세 번째 엔지니어가 스스로 서버를 디자인했다. 하지만 횔츨은 손짓으로 따옴표까지 쳐가면서 '디자인'까지는 아니었다 말했다.

구글 서버는 그 이후로 10여 번 이상의 세대 교체를 단행했으며 지금은 보다 세련된 접근 방식을 취하고 있다. 구글은 속도와 전력, 좋은 네트워크를 갖춘 철저한 통제식 데이터 센터에 무엇이 필요한지, 그리고 불필요한 엑스트라에 지출하지 않음으로써 어떻게 에산을 절약할지 정확히 알고 있다.(가령 그래픽 카드는 필요가 없다. 화면을 켤 일이 없기 때문이다. 케이스도 필요 없다. 마더보드를 랙에 곧바로 꽂기 때문이다.) 구글이 몇 년 전부터 구축하기 시작한 네트워크 장비에도 구글은 같은 원칙을 적용했다.


Outside the Council Bluffs data center, radiator-like cooling towers chill water from the server floor down to room temperature.
Photo: Google/Connie Zhou

다만 지금까지 구글이 도전하지 못 했던 부문이 하나 있다. 자기가 쓸 칩 디자인이다. 그러나 구글 플랫폼부 부사장인 바트 사노(Bart Sano)는 칩도 언젠가는 할 수 있으리라 전망했다. "절대로라는 말은 절대 안 할 겁니다. 사실 매년 그 질문을 받곤 해요. 래리한테 말이죠."

데이터 센터를 다시 그려낸다고는 해도 신뢰성과 속도에 있어서 고객 만족을 시켜주지 못 하면 별 가치가 없어진다. 그래서 구글은 세상을 통신망으로 엮으려 시도했다. 2000년대 초, 통신사 사업을 해보려 했다가 실패한 이후로 구글은 버려진 광통신망을 저렴한 값에 사들이기 시작했다. 현재는 구글은 케이블의 인계와 교환, 실제 설치 등으로 광섬유 제국을 구축해 놓았다.

그렇지만 유튜브같은 서비스를 하려면 여전히 부족하다. 데이터 센터 몇 곳만으로 수 백만 편의 영상을 돌리기에는 여전히 느리고 부담스럽다. 그래서 구글은 여러 장소에 서버 랙을 설치했다. 이른바 AT&T나 Comcast같은 망 제공업체에 바로 연결될 때가 많은 미니 데이터 센터이다. 여기에 유명 영상을 채워 넣는다. 즉, 칼리 래이 젭슨(Carly Rae Jepsen)의 뮤직비디오 같은 유명 영상을 스트리밍할 경우, 달스나 르누아같은 곳의 데이터센터로부터 영상을 읽는 것이 아니리라는 얘기이다. 제일 가까운 곳의 미니 데이터센터에 있는 영상을 돌릴 가능성이 높다.

그동안 구글은 셀 수 없을 정도로 많은 서버군을 마치 하나의 거대한 컴퓨터인 양 관리할 수 있는 소프트웨어 시스템도 구축해 놓았다. 따라서 구글의 내부 개발자들은 일종의 인형술사와 같다. 수 천 대의 컴퓨터가 하나의 머신에서 돌아가는 양 돌릴 수 있기 때문이다. 2002년 구글 과학자들은 수많은 머신 간 파일을 부드럽게 배포하는 구글파일시스템(GFS)를 만들었다. 클라우드-기반 애플리케이션을 작성하는 용도인 맵리두스(MapReduce)는 너무나 성공을 거둬서 오픈소스 버전인 하둡(Hadoop)이 업계 표준이 됐을 정도다. 구글은 또한 거대한 데이터 운영이라면 모두 맞이할 수밖에 없는 문제를 다루는 소프트웨어도 만들었다. 가령 센터로 태스크가 말그대로 쏟아질 때 어떻게 순간 판단을 내려서 제일 효율적으로 임무를 수행시킬 수 있느냐의 문제다. 구글은 이 "로드-밸런싱(load-balancing)" 문제를 보그(Borg)라는 자동화시스템을 통해 해결했다.

2009년 횔츨과 구글 최고의 인재 중 하나인 컴퓨터학자 루이스 바호주(Luiz Barroso)가 작성한 논문에 나온 아이디어를 구글의 혁신이 현실화시킨 셈이다. 논문에 나오는 아이디어는 다음과 같다. "흥미로운 컴퓨팅 플랫폼은 더 이상 피자 상자나 컴퓨터로 가득찬 냉장고와 닮지 않았다… 우리는 데이터 센터 자체를 하나의 거대한 창고-규모형 컴퓨터로 간주해야 한다."

구글 코드를 작성하는 이들에게 상당히 힘을 불어 넣어주는 말이다. 여러분의 컴퓨터가 여러가지 다른 프로그램을 동시다발적으로 돌려주는 단일 기기이듯(어느 부분이 애플리케이션을 각자 돌리는지 상관하지 않아도 된다), 구글 엔지니어들은 서버의 바다를 하나의 단일 유닛으로 간주할 수 있다. 생산 코드를 구글 엔지니어들이(아마 그들은 서버룸을 결코 방문할 수 없을 것이다) 작성하면 시스템이 코드를 서버들 사이에 뿌린다. 횔츨의 말이다. "보통의 엔지니어시라면 완전히 의식을 못 할 겁니다. x 페타바이트 급의 스토리지이건 뭐건 명령내릴 수 있지만 실제로 뭐가 일어나는지는 전혀 모르죠."

당연한 말이겠지만 신뢰성이 없다면 그 어떤 미사여구도 헛말이 되어 버린다. 구글은 문제를 해결하기 위해 스스로의 답변을 혁신적으로 내세웠는데, 알고리즘과 자동화를 기초로 세운 회사로서는 놀라운 자양분도 그 답변에 들어 있다. 인간이다.

오전 3시, 어느 추운 날 겨울 아침이었다. 일군의 엔지니어들이 구글을 공격하기 시작했다. 우선 그들은 캘리포니아 마운틴뷰 캠퍼스에 있는 내부 기업 네트워크망을 다운시켰고 그 다음에는 배수관을 터뜨리고 문 앞에서 시위를 주선하는 등 여러 구글 데이터 센터의 전복을 시도했다. 서버로부터 데이터가 들어간 디스크를 탈취하려는 침입자들로부터 관심을 분산시키기 위해서였다. 그리고 그들은 구글 광고 네트워크 등 여러가지 서비스를 혼란에 빠뜨렸다. 네덜란드의 데이터 센터를 오프라인으로 돌리고, 결정적으로 아시아에 대한 구글의 망 연결 대부분을 끊어버렸다.

이 공격은 사실 내부 훈련이었다. 공격자들은 구글 본사 변두리에 위치한 회의실에 모여 앉아 있는 구글 직원들로서, 현장신뢰성엔지니어링(Site Reliability Engineering) 팀의 일원들이었다. 이들은 구글과 구글 서비스의 운영을 보호할 궁극적인 책임을 맡고 있다. SRE는 단순히 고장을 일으켜서 알아보는 수준이 아니다. 지메일이나 검색과 같은 서비스의 제품 그룹에 들어 있는 생산 코드를 서버의 "맨 금속(bare metal)"에 갖다 놓는 책임도 지고 있다. 긱 SEAL(특수부대)이라 할 수 있을 SRE 일원들은 군대-스타일의 휘장을 달고 있는 가죽 재킷을 입고 나타난다. 매년 SRE는 구글 인프라에 대한 전쟁 시뮬레이션을 돌리며, 이 훈련을 DiRT(disaster recovery testing)라 부른다. 공격이 가짜일 수는 있어도 실제 상황과 거의 다를 바는 없다. 사고 관리자들이 일단 진짜 일어난 것인 양 대응 처리를 해야 하기 때문이다. 실제로 가동중인 서비스가 뒤죽박죽이 되는 경우도 꽤 있으며, 제대로 고쳐 내거나 운영을 계속 하지 못하는 경우, 공격은 중단된다. 따라서 실제 사용자들에게 영향을 주지는 않는다. 구글이 으레 그러하듯 DiRT 팀은 언제나 정말 심각한 테스트에다가 바보같은 요소도 꼭 붙여 놓는다. 공격팀 일원이 작성한 괴짜같은 이야기이다. 올해에는 방해를 일으키는 주범으로 트윈픽스 스타일의 초자연적인 현상이 들어갔다. 예전 DiRT에는 좀비나 외계인도 등장했었다.


Some halls in Google’s Hamina, Finland, data center remain vacant—for now.
Photo: Google/Connie Zhou

첫 공격이 시작되자 매년 가상 공격을 이끄는 낙천적인 엔지니어, 크리파 크리슈난(Kripa Krishnan)은 20여 명의 SRE 팀원들이 패스트푸드 음식 쓰레기로 가득 찬 회의실 안에 모이는 규칙을 설명해줬다. "SRE 팀에 관한 한, 우리는 존재하지 않습니다. 운이 정말 좋다면 아무 것도 깨뜨리지 못하겠죠." 그리고 나서 그녀는 구글 본사 네트워크 플러그를 잡아 당겼다(진짜였다). 팀은 전화선과 IRC 채널을 통해 구글 사고 관리자들이 전세계에 사건에 대해 호출을 보내는 광경을 감시했다. 유럽의 누군가 문제를 발견하기까지 5분 밖에 안 걸렸으며, 그는 즉각적으로 다른 이들에과 통신하기 시작했다. 크리슈나가 계속 말을 이었다.

"제 역할은 약점을 정말로 노출시킬 만한 대규모 테스트입니다. 모든 것을 잘 돌아가게 하기 위해, 얼마나 많이 우리가 지장을 줄 수 있는지 알아보기이죠. 그동안 점점 더 대담해졌어요." 이번에 구글은 어떻게 대처할까? 꽤 잘 했다. 기업 네트워크망의 단선에도 불구하고 에릭 슈미트는 원래 일정대로 전세계 간부진 회의를 주관할 수 있었다. 가상적인 시위자들은 역시 가상적인 피자로 위안을 줬다. 구글과 아시아를 연결하는 네트워크망 3/4이 문을 닫았는데도 불구하고 구글의 아시아 트래픽 용량은 대륙을 아예 끊어 놓지 않았다. 확장적인 캐시 덕분이었다. 크리슈나는 어느 순간이 되자, "최고의 DiRT네요!"라 외쳤다.

SRE 프로그램은 횔츨이 벤 트레이너(Ben Treynor)라는 엔지니어에게 구글 네트워크 안정장치를 만들어도록 시켰을 때 태어났다. SRE는 구글처럼 거대한 기업에게는 상당히 까다로웠다. 구글이 끊임 없이 시스템과 서비스를 수정해가고 있기 때문이었다. 사실 안정화를 시킬 제일 쉬운 방법은 변화를 아예 중단시키는 것이다. 트레이너는 신뢰성의 개념 자체를 다시 생각하기로 마음 먹었다. 오류를 절대로 일으키지 않는 시스템을 만드는 대신, 그는 각 서비스에게 예산(실제 비용이라기보다는, 허용된 정지시간이 얼마냐 되느냐이다)을 주기로 했다. 그리고나서 그는 구글 엔지니어들에게 생산성 있게 정지시간을 사용하라 일러뒀다. "구글+가 전체 중 99.95% 시간동안 돌아가기를 원한다면, 나머지 0.05%의 시간을 멍청하게 보내버리지 말기 원했어요. 뭔가 새로운 것을 집어 넣어야 할 시간입니다."

그럼에도 불구하고 사건 사고는 나게 마련이다. 2012년 4월 17일, 1년 좀 넘게 지메일 팀의 SRE를 이끌고 있던 사브리나 파머(Sabrina Farmer)는 정기적으로 있는 디자인 검토 회의에 참석중이었다. 그 때 갑자기 엔지니어 한 명이 "큰 일이 일어나고 있어요!"라 외치며 회의실로 들이닥쳤다. 정말 그랬다. 사용자의 1.4%(그래도 대단히 많은 수의 사람들이다)에게 있어서 지메일이 다운됐다는 소식이었다. 그러자 지메일 중단 관련 소식이 트위터와 여러 기술 관련 사이트에 올라오기 시작했다. 심지어 주류 언론에게도 관련 소식이 전해지고 있었다.

회의실은 곧바로 워룸(war room)으로 바뀌었다. 스위스 취리히의 팀과 협동하여 파머는 다운 원인을 알아보기 위한 검토를 시작했다. 그러다가 그녀의 지메일 SRE 일원 중 하나가 당황해 하며 고백하였다. "여기에 영향을 끼칠 수도 있을 변경을 금요일에 했었어요." 변경에 대한 검토 책임은 그간 세심하지 못 했다. 지메일 사용자들이 지메일에 접속하려 했을 때 시스템간 걸쳐 있는 데이터가 더 이상 싱크를 중단했었다. 데이터를 안전하게 보존하기 위해 시스템은 아예 사용자들을 몰아냈다.

검토에는 20분이, 수정에는 25분 이상이 소요됐지만 그 정도면 꽤 괜찮았다. 그래도 이 사건은 구글의 실수가 될 터였다. 파머의 말이다. "SRE가 대응을 시작할 때가 꽤 고통스럽습니다. 하지만 아무도 데이터를 잃지 않아서 다행이에요." 만약 미래의 위기가 DiRT의 좀비 공격이라면 차라리 더 나았을 것이었다.

전혀 예상치 못한 시나리오가 있다. 구글 서버실에 들이닥친 기자들이다. 여기 르누아에서 나는 귀마개를 차고 있고 조 카바는 내부에 들어가는 나를 감시하고 있었다.

우리는 설비의 바깥에 있는 육중한 문을 통해 내부로 들어갔고, 문은 한국 비무장지대를 연상케하는 원격-통제 문이었다. 우리는 내스카(Nascar, 개조자동차 경주 연맹) 휘장물이 걸려 있는(모든 구글 데이터 센터에는 장식물이 걸려 있다) 사무실을 통과했다. LCD 대시보드 모니터가 모든 방향에서 내부를 감시하는 통제실을 구경한 후, 거대한 냉각탑과 보조 발전시설을 보기 위해 좁은 통로를 끼고 올라갔다. 비틀즈의 잠수함처럼 녹색으로만 돼 있었다. 언덕 바로 위에 있는 두 번째 데이터 센터 건설 현장으로 향하려면 안전모를 써야 했다. 언젠가 세 번째 거대 컴퓨터 설비가 들어설 바위 투성이의 땅이 보였다.

하지만 지금은 서버실에 들어섰다. 크다로는 설명조차 안 됐다. 끝이 안 보이는 서버 랙은 영원한 듯 했다. 제아무리 조 몬태나(Joe Montana, 미식축구선수)도 풋볼을 던질 수가 없을 깊이였다.

인터뷰를 하면서, 뜨거운 통로와 차거운 통로는 추상적인 관념에 불과했음을 깨달았다. 서버대를 보자 확실해졌다. 차거운 통로는 일반적인 서버실의 온도를 가리키는 말이었다(카바에 따르면 화씨 77도였다). 뜨거운 통로는 견고하게 금속으로만 만들어진 서버열 두 개 뒷편에 있는 좁은 공간을 가리켰다. 구리선이 열량을 빨아들였고, 위에 있는 거대한 팬은 제트엔진 소리가 들렸다.

서버의 열 사이를 걸어가 봤다. 모든 케이블과 플러그가 앞에 놓여 있었고, 아무도 바베큐를 구울 만한 뜨거운 통로에 감히 들어가서 금속판을 열어볼 필요는 없었다. (실제로 꼭 들어가야 할 경우가 생기는 경우에는 서버를 끈다.) 모든 서버에는 정확한 주소가 적힌 스티커가 붙어 있었다. 뭔가 잘못될 경우 알아보기 쉽게 하기 위해서였다. 서버 옆에는 두터운 검정색 배터리가 놓여 있었다. 모든 것이 균일했고 제자리에 위치해 있는 광경이, 예전 엑소더스 시절의 구글 데이터 센터와는 전혀 다른 모습이었다.

그 때 파란색 등이 점등했다… 무엇일까? 웹 검색? 누군가의 지메일 메시지? 세르게이의 구글 글래스에 떠오르는 일정 확인? 무엇이라도 될 수 있었다.

그럴 때마다 직원이 등장한다. 장발에 반바지를 입고 스쿠터를 탄 남자, 혹은 티셔츠 차림으로 카트에다가 노트북과 서버 정비용 부품을 쌓고 간호사처럼 등장하는 여자이다. (사실 대체용 부품이 바닥에 놓여 있는 영역이 따로 있다. 약국이라 불린다.)

구글이 도대체 얼마나 많은 서버를 사용하고 있을까? 구글이 첫 번째 데이터 센터를 지은 이래로 누구나 물었던 질문이다. 구글은 그저 "수 십만 대 정도"라 말해 왔었다(필자가 방문했을 때의 르누아 설비에는 49,923대가 작동중이었다). 역시 보안 구역인 마운틴뷰의 구글 데이터 센터 연구개발 설비를 들여다볼 기회가 생겼을 때 단서를 알 수 있었다. 그곳에는 벽에 여러 마더보드가 고정돼 있었고, 구글이 만든 서버가 세대별로 박물관처럼 놓여 있었다. 그 중 하나는 2008년 7월 9일, 100만 번째 서버라 적혀 있는 명판이 놓여 있었다. 물론 동행했던 간부는 이 수치가 누적수치라 말해줬다. 한 번에 백 만 대의 서버를 운영한다는 얘기는 아니었다.

르누아의 차거운 통로를 거닐면서 100만 번째 서버가 다시 기억났다. 사실 알아낼 수 있다 하더라도 기본적으로는 의미가 없다. 오늘날의 머신은 프로세서가 여러 개 달려 있고 이전 버전에 비해 유용성과 힘도 수 배가 더 커졌기 때문이다. 2012년의 구글 서버 한 대는 이전 세대의 서버 20대와 맞먹는다. 어느 경우에서건 구글은 클러스터(애플리케이션을 돌리거나 서비스를 제공하기 위해 작동하는 수많은 수의 머신) 급으로 생각한다. 횔츨의 말이다. "서버 한 대의 의미는 없어요. 우리는 컴퓨터 파워를 추상적인 단위로 추적합니다." 횔츨과 바호주가 3년 전에 설명했던 컴퓨터 한 대로서의 데이터 센터라는 개념으로 움직이기 때문이다.

서버대를 떠나면서 나는 구글 내부의 신성구역을 내다봤다는 느낌에 거의 하늘을 날 듯 했었다. 하지만 수 주일이 지난 후, 마운틴뷰의 구글본사로 돌아오자 내가 본 것도 유효기간이 다 했음을 깨달았다. 내가 방문했던 데이터 센터가 구글로서는 한 물 갔기 때문에 보여줬던 것이다. 횔츨의 말이다. "2013년 빌딩과 클러스터에 익숙해지고 나면, 이제는 현재의 빌딩과 클러스터에 대해 불평을 시작하게 되죠."

어느 부분이 바뀌는 것이냐고 묻자, 횔츨은 데이터 센터와 클러스터의 디자인, 배치 속도, 유연성 등을 언급하다가 갑자기 말을 끊었다. "말씀드릴 수 없는 것이 하나 있어요." 그는 여전히 수염난 얼굴에 미소를 띄우고 있었다. "우리의 피와 땀, 눈물을 흘려 왔습니다. 다른 이들도 자기의 피와 땀, 눈물을 흘러야죠. 똑같은 발견을 하려면요." 구글은 전세계의 데이터에 대한 접근을 제공하고 있되, 자신에 대한 특정 정보만은 여전히 숨기고 있었다.

반응형