자주 있는 일은 아니지만,
무엇을 검색엔진에 찾다보면 찾았다 싶은데, 여러가지 이유(저작권, 게시자의 변심, 관리자의 삭제처리 등)로 찾는 정보가 검색은 되는데 볼 수가 없는 상황을 종종 만날거다.
이해를 돕기 위해
저작권 삭제가 자주 있는 유명 사이트를 예로든다.
찾았다는 기쁨도 잠시 누르고 들어가면,
두둥~
자료가 삭제되면,
게시판 데이터 베이스가 부여한 고유의 데이터 번호가 없어져 버렸음으로
그 번호를 인자로 쓰는 URL은 존재하지 않기에
우리는 저런 유형의 페이지를 받게 되는 것이다.
소스가 삭제되버렸으니 클라이언트이 우리가 무슨 방법이 있겠는가?
맞다. 우리는 방법이 없다.
그러나 그것을 검색한 검색엔진에 그 흔적(?)이 남아 있다는 것은
검색엔진에서 임시로 그 사이트나 웹페이지를 가지고 있다는 것이고,
아직 삭제됐다는 업데이트가 검색엔진에 반영되지 않아 삭제된 페이지가 검색되는 것이다.
좀 어려운 얘기 같지만 곱씹어 보면.. 이해가 될 것이다.
간략히 검색엔진의 작동방식을 설명하면 말 그대로 검색을 하는 검색 로봇(?)이 세계를 돌아다니며 무차별적으로 데이터를 수집하여 쌓아 놓기를 반복한다.
그리고 다시 그 자리(?)를 가서 자료가 변경되었으면 업데이트를 한다.
여기서!! 다시 그 자리를 가기까지는 일정한 시간이 필요한 것이다.
삭제도 검색로봇 입장에선 업데이트(데이터가 변경됨)에 지나지 않음으로 그런 방식으로 접근하는데,
요즘은 성능이 좋아져 업데이트 주기가 짧아졌다고는 하나, 실시간 업데이트는 그 양을 고려할 때 부가능하고, 그렇게 알고리즘을 짜지도 않는다.
그 사이를 파고 드는거다.
예전에는 파고 들 것도 없이, 구글 검색 결과에는 업데이트 이후라도 그 전 자료를 보겠냐는 친절한 안내가 되어 있었는데, 그것이 몇 번 문제(일명 구글 해킹, 개인정보 침해)로 지적되면서 그런 친절함은 삭제되었다.
그렇다고 원래 작동하던 로봇들은 알고리즘을 퇴화 시킬리는 없고,
쓸 줄 아는 사람들만 명령어를 통해 필요한 정보를 구글에서 얻어가는 것이다.
설명은 이쯤이면 충분하고...
예로 돌아가.. 삭제된 페이지의 URL을 알아낸 후
명령어(?) cache:삭제된 페이지의 URL을 입력하면..
짜잔..
마술같은 결과를 얻어낼 수 있다.
이렇게 얻어낸 결과는 원래 있던 사이트의 그것과 보기에는 똑같으나 작동은 보장할 수 없다.
그러나 사이트 관리자가 허술하거나, 단순이 페이지를 숨겨 놓았을 때는 필요한 모든 것을 얻을 수 있는 행운이 올 수도 있다.
댓글