대략, 현재 검색엔진에는 한계가 있고, 그 한계를 극복하는 도구로서 트위터가 떠오르고 있다라고 말하는 글이다. 이 글에서는 검색엔진의 한계를 한정된 첫 페이지에 키워드를 매칭하는 작업의 한계라고 말하고 있다.
크롤링에 걸리는 시간과 데이터 저장에 대한 문제도 언급하고 있지만, 마치 주요 원인은 '키워드'의 한계라고 말하는 듯하다.
선뜻 납득이 가지 않는다. 내 생각은 조금 다르다.
원글에 대한 부연설명이라고 생각하고 읽어주면 감사하겠다.
자, 검색엔진의 예로서, 다른 검색엔진은 제껴두고 구글에 대한 예를 들기로 하자.
구글의 검색엔진은 Page Rank(페이지 랭크)라는 알고리즘으로 유명하다.
페이지 랭크 알고리즘의 기본은, 링크 화살표를 많이 받은 웹 페이지일 수록 높은 점수를 얻는다는 것이다. 마치 남/녀가 미팅을 할 때 처럼, 작대기를 많이 받은 사람이 킹카/퀸카인 것과 같은 이치이다.
간단한 예를 들어보자.
웹사이트 A를 비틀즈의 공식 웹사이트라고 하고, 웹사이트 B를 비틀즈의 팬이 만든 팬 웹사이트라고 하자. 그리고, 사람들이 블로그에 비틀즈에 관한 글을 쓰면서 비틀즈와 관련된 웹사이트로의 링크를 건다고 하자.
그러면 사람들은 어느 웹사이트로 링크를 많이 걸게 될까?
당연히 비틀즈의 웹사이트인 A가 될 것이다. 물론 비틀즈를 언급하면서 겉더리로 비틀즈의 팬사이트를 언급하는 사람은 B로도 링크를 걸 수 있겠지만, 기본적으로 A로 링크를 걸게 될 것이다. 다시 웹사이트 A와 B의 입장으로 돌아가 보았을 때, A는 작대기를 많이 받은 셈이고, B는 상대적으로 덜 받은 셈이 되는 것이다. 여기서 작대기의 숫자가 Page Rank가 되는 것이다. Done!
구글은 이 Page Rank를 이용하여 꽤 정확한 검색 결과를 보여주고 있다.
하지만 이 Page Rank에도 부족한 점이 있었으니, 이는 이 어마어마한 인터넷 세상에서 어떤 특정 웹사이트를 위한 Page Rank를 계산하는데 시간이 걸린다는 점이다. 물론 구글이 꽤 멋진 슈퍼 컴퓨터를 이용하여 제법 빨리빨리 업데이트를 하고 있지만, 그래도 트위터 같이 실시간으로 정보를 교환하는 플랫폼을 따라가긴 역부족이다.
이건 단순히 구글이 키워드만 잡아내어서 검색 결과를 리턴하기 때문이 아니라, 알고리즘 자체의 문제점인 것이다. 구글이 실제로 문서를 크롤링할 때 물론 키워드를 살펴보기도 하지만, SEO(Search Engine Optimizer)가 키워드로 장난을 치는 경우가 더러 있기 때문에, 키워드 뿐만 아니라 문서 전체를 크롤링한다고 알고 있다.
어쨌든, 구글은 알고리즘의 특성상 실시간 정보 검색 서비스를 제공하기는 힘이 들고, 하지만 대세는 모바일 기기로 가고 있고, 구글이 안드로이드 플랫폼을 개발하고 서둘러 구글 웨이브라던지 버즈를 만드는 데는 이런 이유가 있는 것이다.
트위터가 요즘 난리다.
한국에서도 트위터 유저가 점점 늘어나고 있는 줄 안다.
트위터 멋지다.
하지만 트위터 서비스에도 맹점이 있으니, 아직까지 뚜렷한 비즈니스 모델이 없다는 것이다.
최근 실시간 검색 서비스를 하기 시작했는데, 얼마만큼 유익한지는 아직 잘 모르겠다.
사용자간에 교류하는 것들이 단발성 잡담으로 끝나지 않게, 유익한 무언가를 만들어내기 위해서는,
트위터 세상에 떠도는 정보들을 잘 필터링해서 유익한 것들을 잘 뽑아낼 수 있게 기술적인 노력을 더하거나, 혹은 마케팅을 위해 트위터에 관심을 가진 기업들을 위해 트윗 분석도구나 트렌드리포트 같은걸 만들어서 팔아도 되지 않을까... 생각해본다.