0.
Quora에게 물어봐서
l What does the number of seconds written on a Google search signify?
l What are the longest and shortest times taken by the Google server
to process search query in its database?
l What Google query takes the longest to calculate?
l What is the longest Google search?
l What are some Google searches that give exactly 1 search result?
l What is the shortest Google search that gives only one result?
l What is the significance of 25,270,000,000, the maximum number of
results returned by a Google search?
l What is the longest search query on Google that will actually return
results?
l What is the slowest Google query?
총 10개의 질문에 달린 댓글들을 종합해보았다.
구글은 유저들이 검색어를 입력하기 훨씬 전부터 검색 결과를 제공하기 위한 작업을 시작한다. 구글은 전세계 웹사이트에서 정보를 모아 이를 검색 색인에 정리한다. 그렇게
만들어진 색인은 100,000,000 기가바이트가 넘는다. 이조차도
전체 인터넷의 4% 가량밖에 되지 않는다는 추산도 있다(출처, 2014).
이렇게 수집한 웹페이지들을 분석해서 키워드별로 정리한다. 이제 유저가 검색어를 입력하면
적절한 웹페이지를 순서대로 나열해서 결과를 반환해준다.
이 과정들을 수행하는 소프트웨어를 각각 ‘웹 크롤러(Web Crawler)’, ‘인덱서(Indexer)’, ‘쿼리 프로세서(Query Processor)’라고 한다. 모으고, 정리하고, 검색 결과를 적절히 반환해주는 로봇(bot)들이다.
2.
그렇다면 ‘검색결과 약 118,000,000개 (0.33초)’는
진짜 1억 개의 웹페이지를 보여줄까?
검색 결과와 함께 자랑하는 짧은 검색 시간, 그리고 엄청난 수의 검색결과. 그렇다면 결과 페이지를 계속 넘기면 1억 개의 웹페이지를 전부 볼 수 있을까? 그 대답은 No다. 구글 검색 결과 개수는 실제 웹페이지의 개수를 나타내는 것이 아니라, 가장 높은 연관성을 수십 개만 표시해주고, 나머지는 생략하면서 추산한 결과 개수를 보여준다. 즉, 저 숫자는 실제 웹페이지의 개수가 아니라 계산된 값이라는 뜻.
(개인적인 용도로 Google Drive에 저장해둔 문서가 크롬 검색주소창에 뜨는 모습)
구글은 단일 인덱스만을 가지고 있는 것이 아니다. 구글은 뉴스와 관련된
것을 검색하면 웹과 뉴스 결과를 모두 반환해준다. 이외에도 Google 학술 검색, 개인적인 정보 검색, Gamil
및 Photos 컨텐츠 검색
등을 지원한다.
3.
정확히 하나의 검색 결과만 보여주는 검색어가 있을까?
그것은 바로 “구글 코랩에서 셀레니움 사용하기”이다. 지난달에 작성한 이 블로그의 글 하나가 달랑 뜬다. 어떻게 이런 결과가 가능할까?
구글로 뻘짓 좀 해봤다는 사람이라면 많이 봤을 것이다. 구글에서 검색할
때 쌍따옴표(“)로 감싸서 검색하면 ‘검색어와 정확하게 일치하는
결과’만 볼 수 있다. 전 세계에서 해당 문장을 사용한 사람은
나밖에 없다! 어디 논문 표절 탐지에서도 사용될 것 같은 기능이긴 하지만, 의외로 이 기능은 정말 자주 쓰이니 꼭 알아둘 필요가 있다.
같은 원리로 정확히 하나의 검색 결과만 보여주는 검색어는 정말 많이 존재할 수 있다. 이번 기회에 구글의 검색엔진에 나만의 문장을 남겨보는 것도 좋을 것 같다.
그런 특이한 경우가 아닌데도 결과가 하나만 뜨는 검색어도 있다. 앞의 링크를 클릭하면 결과를 볼 수 있다. 2020년 10월 26일 기준으로 5개의 결과가 뜨는데, google.co.kr이 아닌 google.com에서 언어를 영어로 놓고 검색해야 볼 수 있다.
4.
구글 검색어 중 가장 느리게 결과 페이지를 보여주는 검색어는 무엇일까?
구글이 350 ms 이상의 시간이 걸리는 결과를 반환하는 경우는 흔치 않다. 특별하게 느린 검색어를 찾고 싶다면 일반적인 단어같은 것들을 boolean 연산자(OR같은 거)를 사용해서 휴리스틱이 비효율적이도록 만드는 검색어를 집어넣을 수 있을 것이다. 예를 들어서 이런 식이다:
the
OR google OR a OR 12345 -the -google -a
처음에 검색할 때에만 가장 느리게 작동하고, 새로고침을 하게 되면
캐시를 읽어오게 되므로 다시 결과 반환 속도가 빨라지게 된다. 그래서 12345 부분을 바꿔서 이런저런 숫자를 넣어본다거나, theOR google OR a OR 12345 -the -google -a 99999..999999999 같이 기형적인
형태로 비틀어서 검색을 실행해보아도 좋다.
이 한 번의 검색으로 구글의 컴퓨터를 3.15초 동안 사용할 수 있었다. 하지만 곧바로 재검색했을 때에는 캐시가 불러와져서 0.37초라는 빠른 시간 내에 결과 페이지를 반환 받았다.
5.
가장 많은 결과를 반환하는 검색어는 무엇일까?
바로 “a”다. 무려 252억 7000천만 개의 결과가 있다고 알려준다. 얼마나 유명한지 urban dictionary에 등재되어 있기도 하다. 이외에도 the, and, inurl:http (URL에 http가 들어가 있는 것을 찾아라), I, www 등이 있다. 이외도 많으니 찾아보는 것도 재밌을 것 같다.