Study/Computer&Network

삭제된 사이트나 웹페이지, 구글 서버에 저장된 캐쉬 파일로 보기

Black Arsene Lupin 2020. 8. 29. 08:55

자주 있는 일은 아니지만,

 

무엇을 검색엔진에 찾다보면 찾았다 싶은데, 여러가지 이유(저작권, 게시자의 변심, 관리자의 삭제처리 등)로 찾는 정보가 검색은 되는데 볼 수가 없는 상황을 종종 만날거다.

찾는 자료가 검색된 화면

이해를 돕기 위해

 

저작권 삭제가 자주 있는 유명 사이트를 예로든다.

 

찾았다는 기쁨도 잠시 누르고 들어가면,

 

두둥~

 

관련 자료가 삭제되어 볼 수 없는 페이지

자료가 삭제되면,

게시판 데이터 베이스가 부여한 고유의 데이터 번호가 없어져 버렸음으로

그 번호를 인자로 쓰는 URL은 존재하지 않기에

 

우리는 저런 유형의 페이지를 받게 되는 것이다.

 

소스가 삭제되버렸으니 클라이언트이 우리가 무슨 방법이 있겠는가?

 

맞다. 우리는 방법이 없다.

 

그러나 그것을 검색한 검색엔진에 그 흔적(?)이 남아 있다는 것은 

 

검색엔진에서 임시로 그 사이트나 웹페이지를 가지고 있다는 것이고,

 

아직 삭제됐다는 업데이트가 검색엔진에 반영되지 않아 삭제된 페이지가 검색되는 것이다.

 

좀 어려운 얘기 같지만 곱씹어 보면.. 이해가 될 것이다.

 

간략히 검색엔진의 작동방식을 설명하면 말 그대로 검색을 하는 검색 로봇(?)이 세계를 돌아다니며 무차별적으로 데이터를 수집하여 쌓아 놓기를 반복한다.

 

그리고 다시 그 자리(?)를  가서 자료가 변경되었으면 업데이트를 한다.

 

여기서!! 다시 그 자리를 가기까지는 일정한 시간이 필요한 것이다.

 

삭제도 검색로봇 입장에선 업데이트(데이터가 변경됨)에 지나지 않음으로 그런 방식으로 접근하는데,

요즘은 성능이 좋아져 업데이트 주기가 짧아졌다고는 하나, 실시간 업데이트는 그 양을 고려할 때 부가능하고, 그렇게 알고리즘을 짜지도 않는다.

 

그 사이를 파고 드는거다.

 

예전에는 파고 들 것도 없이, 구글 검색 결과에는 업데이트 이후라도 그 전 자료를 보겠냐는 친절한 안내가 되어 있었는데, 그것이 몇 번 문제(일명 구글 해킹, 개인정보 침해)로 지적되면서 그런 친절함은 삭제되었다.

 

그렇다고 원래 작동하던 로봇들은 알고리즘을 퇴화 시킬리는 없고, 

쓸 줄 아는 사람들만 명령어를 통해 필요한 정보를 구글에서 얻어가는 것이다.

 

설명은 이쯤이면 충분하고...

 

예로 돌아가.. 삭제된 페이지의 URL을 알아낸 후

 

명령어(?) cache:삭제된 페이지의 URL을 입력하면..

 

삭제된 페이지를 구글 캐쉬에서 보는 화면

짜잔..

 

마술같은 결과를 얻어낼 수 있다.

 

이렇게 얻어낸 결과는 원래 있던 사이트의 그것과 보기에는 똑같으나 작동은 보장할 수 없다.

 

그러나 사이트 관리자가 허술하거나, 단순이 페이지를 숨겨 놓았을 때는 필요한 모든 것을 얻을 수 있는 행운이 올 수도 있다.