Tuesday, May 11, 2010

검색엔진, 트위터, 그리고 그 이후

검색엔진의 한계와 그 한계를 극복하는 트위터라는 글을 보았다.
대략, 현재 검색엔진에는 한계가 있고, 그 한계를 극복하는 도구로서 트위터가 떠오르고 있다라고 말하는 글이다. 이 글에서는 검색엔진의 한계를 한정된 첫 페이지에 키워드를 매칭하는 작업의 한계라고 말하고 있다.
크롤링에 걸리는 시간과 데이터 저장에 대한 문제도 언급하고 있지만, 마치 주요 원인은 '키워드'의 한계라고 말하는 듯하다.
선뜻 납득이 가지 않는다. 내 생각은 조금 다르다.
원글에 대한 부연설명이라고 생각하고 읽어주면 감사하겠다.


자, 검색엔진의 예로서, 다른 검색엔진은 제껴두고 구글에 대한 예를 들기로 하자.

구글의 검색엔진은 Page Rank(페이지 랭크)라는 알고리즘으로 유명하다.
페이지 랭크 알고리즘의 기본은, 링크 화살표를 많이 받은 웹 페이지일 수록 높은 점수를 얻는다는 것이다. 마치 남/녀가 미팅을 할 때 처럼, 작대기를 많이 받은 사람이 킹카/퀸카인 것과 같은 이치이다.

간단한 예를 들어보자.
웹사이트 A를 비틀즈의 공식 웹사이트라고 하고, 웹사이트 B를 비틀즈의 팬이 만든  팬 웹사이트라고 하자. 그리고, 사람들이 블로그에 비틀즈에 관한 글을 쓰면서 비틀즈와 관련된 웹사이트로의 링크를 건다고 하자.
그러면 사람들은 어느 웹사이트로 링크를 많이 걸게 될까?
당연히 비틀즈의 웹사이트인 A가 될 것이다. 물론 비틀즈를 언급하면서 겉더리로 비틀즈의 팬사이트를 언급하는 사람은 B로도 링크를 걸 수 있겠지만, 기본적으로 A로 링크를 걸게 될 것이다. 다시 웹사이트 A와 B의 입장으로 돌아가 보았을 때, A는 작대기를 많이 받은 셈이고, B는 상대적으로 덜 받은 셈이 되는 것이다. 여기서 작대기의 숫자가 Page Rank가 되는 것이다. Done!

구글은 이 Page Rank를 이용하여 꽤 정확한 검색 결과를 보여주고 있다.
하지만 이 Page Rank에도 부족한 점이 있었으니, 이는 이 어마어마한 인터넷 세상에서 어떤 특정 웹사이트를 위한 Page Rank를 계산하는데 시간이 걸린다는 점이다. 물론 구글이 꽤 멋진 슈퍼 컴퓨터를 이용하여 제법 빨리빨리 업데이트를 하고 있지만, 그래도 트위터 같이 실시간으로 정보를 교환하는 플랫폼을 따라가긴 역부족이다.
이건 단순히 구글이 키워드만 잡아내어서 검색 결과를 리턴하기 때문이 아니라, 알고리즘 자체의 문제점인 것이다. 구글이 실제로 문서를 크롤링할 때 물론 키워드를 살펴보기도 하지만, SEO(Search Engine Optimizer)가 키워드로 장난을 치는 경우가 더러 있기 때문에, 키워드 뿐만 아니라 문서 전체를 크롤링한다고 알고 있다.

어쨌든, 구글은 알고리즘의 특성상 실시간 정보 검색 서비스를 제공하기는 힘이 들고, 하지만 대세는 모바일 기기로 가고 있고, 구글이 안드로이드 플랫폼을 개발하고 서둘러 구글 웨이브라던지 버즈를 만드는 데는 이런 이유가 있는 것이다.


트위터가 요즘 난리다.
한국에서도 트위터 유저가 점점 늘어나고 있는 줄 안다.
트위터 멋지다.
하지만 트위터 서비스에도 맹점이 있으니, 아직까지 뚜렷한 비즈니스 모델이 없다는 것이다.
최근 실시간 검색 서비스를 하기 시작했는데, 얼마만큼 유익한지는 아직 잘 모르겠다.
사용자간에 교류하는 것들이 단발성 잡담으로 끝나지 않게, 유익한 무언가를 만들어내기 위해서는,
트위터 세상에 떠도는 정보들을 잘 필터링해서 유익한 것들을 잘 뽑아낼 수 있게 기술적인 노력을 더하거나, 혹은 마케팅을 위해 트위터에 관심을 가진 기업들을 위해 트윗 분석도구나 트렌드리포트 같은걸 만들어서 팔아도 되지 않을까... 생각해본다.

3 comments:

  1. 퐁당님 글 잘 읽었습니다. 오랜만의 글 쓰기 였는데 빠른 트랙백 포스트에 놀라고 있었습니다.



    원글에서 사용된 용어에 의해 해석의 오해가 발생 한 것 같습니다.



    언급하신 키워드 기반의 검색부분은 검색엔진의 한계로써 익히 말해지고 있는 것으로 키워드는 기호이며 컴퓨터는 그 의미를 파악하지 못함으로 인한 문제에 대한 것이지요. 이는 시멘틱 웹의 광범위한 주제라서 언급하지 않았습니다.



    페이지랭크 알고리즘의 정확도로 인하여 구글이 검색엔진의 최고로 평가 받고 있음도 인정합니다.



    글에서 검색엔진(구글)의 한계로 지적되는 것은 '한정된 업무 도메인' 키워드의 반복적 검색에 매번 동일한 결과를 반환하는 문제로 그 정보들을 소비한 사용자는 더이상의 가치를 얻을 수 없는 문제에 대한 것입니다.



    사용자가 정보 검색의 활동을 할 때 일관된 관심사의 검색 키워드와 새롭게 사용되는 키워드 라는 것이 존재하며, 이를 테면 '모바일 기기' 업무에 종사한다면 '아이폰', '애플', '안드로이드', '구글', '모바일', '스마트폰' 그외 몇개의 키워드가 지속적으로 정보 발견에 사용되는 키워드 일 것입니다. 이를 '업무 도메인 키워드' 라고 칭하는 것이지요.



    두번째 한계로 말하는 것은 정보의 양은 증가하고 있으나 검색엔진의 리스팅이 관심을 줄수 있는 것은 첫 한,두 페이지의 검색 결과 라는 것입니다. 첫 한, 두 페이지에 포함되지 못하는 정보는 결국 Findable 하지 않고, 이는 존재하지 않음을 의미합니다.

    ReplyDelete
  2. @반더빌트 - 2010/05/12 12:39
    안녕하세요. 답글 감사합니다^^



    말씀하신대로 원글에서 쓰인 키워드라는 용어 사용에서 오해가 있었던 듯 하네요. 저도 기존 검색엔진이 거의 동일한 결과를 반환할 수 있는 문제가 있음을 인정합니다. 그것은 현재 검색엔진 알고리즘과 시스템상 있을 수 밖에 없는 일이라는 것이 개인적인 생각하고요.



    반더빌트님께서 분류하신 정보의 3가지 도구의 특성에 어느정도 공감은 하는 바입니다만, 한 두어가지 짚고 넘어가고 싶네요.

    먼저 기존 검색엔진의 한계로 지적하신 것 중에서 검색엔진 리스팅과 관련된 문제. 이것의 대안으로서 트위터가 제 기능을 할 수 있을거라는 의견에는 찬성 반/반대 반입니다. 물론 트위터가 실시간 정보를 얻을 수 있는 플랫폼이라는 의견에 찬성합니다. 하지만 만약 특정 이슈에 대한 트윗이 쏟아져 나온다면, 그리고 그 이슈에 대한 의견들이 제각각 다를 경우에, 그것은 원글에서 지적하신 현 검색엔진의 결과 리스팅문제와 크게 다를바 없을 수도 있을 것이고요.

    또 다른 한 가지는, 과연 트위터와 같은 소셜네트웍을 통해 흐르는 정보를 fully 신뢰할 수 있는지에 대한 것입니다.트위터와 같은 플랫폼에서 현재 가장 이슈화되고 있는 정보를 보고 싶다고 할 때, 나의 팔로윙이나 팔로워들이 각각 다른 분야에 전문가일 수도 있는 것이고요, 따라서 그 정보들을 신뢰할 수 있는 무언가로 만드려면 어떤 사람이 보낸, 어떤 분야의 정보에, 얼마만큼 신뢰도를 부과할 수 있을지, 즉 어떻게 구분지을 것인가도 하나의 이슈가 될 수 있다고 생각합니다.



    하지만 반더빌트님께서 정의하신 정보의 3가지 도구들이 모두 함께 맞물려 유기적으로 잘 돌아갈 수 있다면, 트위터와 같은 실시간 정보 도구를 현재 이슈에 대해 가볍게 필터링하는 정도로 쓴다면 검색결과 리스팅 문제라던지 신뢰도의 문제 같은 것은 생각하지 않아도 큰 문제 없을거라는 게 저의 생각입니다.

    ReplyDelete
  3. trackback from: 박규리 현수막 인증사진에 팬들 환호 “여신님 화이팅”‎
    카라의 박규리가 자신의 트위터에 팬의 현수막 인증 사진을 올렸다. 박규리는 5월 22일 오후 트위터에 "드림콘서트 현장에서 이걸 보고 빵 터졌어요...ㅋㅋㅋㅋㅋ그쵸 좀 비명지를만 하긴 합니다..저란 여자......"란 글과 함께 이날 오후 서울 월드컵 경기장에서 열린 드림콘서트 관중석에 걸린 현수막 사진을 함께 게재했다. 이어 "오늘 드콘오시는 내 사람들아~아까 무대에서 보니까 그 사진의 규리현수막 가운데가 처져서 불쌍해보입니다.... 예쁘게 올려놔..

    ReplyDelete