본문 바로가기
Study/Computer&Network

삭제된 사이트나 웹페이지, 구글 서버에 저장된 캐쉬 파일로 보기

by 사라진루팡 2020. 8. 29.

자주 있는 일은 아니지만,

 

무엇을 검색엔진에 찾다보면 찾았다 싶은데, 여러가지 이유(저작권, 게시자의 변심, 관리자의 삭제처리 등)로 찾는 정보가 검색은 되는데 볼 수가 없는 상황을 종종 만날거다.

찾는 자료가 검색된 화면

이해를 돕기 위해

 

저작권 삭제가 자주 있는 유명 사이트를 예로든다.

 

찾았다는 기쁨도 잠시 누르고 들어가면,

 

두둥~

 

관련 자료가 삭제되어 볼 수 없는 페이지

자료가 삭제되면,

게시판 데이터 베이스가 부여한 고유의 데이터 번호가 없어져 버렸음으로

그 번호를 인자로 쓰는 URL은 존재하지 않기에

 

우리는 저런 유형의 페이지를 받게 되는 것이다.

 

소스가 삭제되버렸으니 클라이언트이 우리가 무슨 방법이 있겠는가?

 

맞다. 우리는 방법이 없다.

 

그러나 그것을 검색한 검색엔진에 그 흔적(?)이 남아 있다는 것은 

 

검색엔진에서 임시로 그 사이트나 웹페이지를 가지고 있다는 것이고,

 

아직 삭제됐다는 업데이트가 검색엔진에 반영되지 않아 삭제된 페이지가 검색되는 것이다.

 

좀 어려운 얘기 같지만 곱씹어 보면.. 이해가 될 것이다.

 

간략히 검색엔진의 작동방식을 설명하면 말 그대로 검색을 하는 검색 로봇(?)이 세계를 돌아다니며 무차별적으로 데이터를 수집하여 쌓아 놓기를 반복한다.

 

그리고 다시 그 자리(?)를  가서 자료가 변경되었으면 업데이트를 한다.

 

여기서!! 다시 그 자리를 가기까지는 일정한 시간이 필요한 것이다.

 

삭제도 검색로봇 입장에선 업데이트(데이터가 변경됨)에 지나지 않음으로 그런 방식으로 접근하는데,

요즘은 성능이 좋아져 업데이트 주기가 짧아졌다고는 하나, 실시간 업데이트는 그 양을 고려할 때 부가능하고, 그렇게 알고리즘을 짜지도 않는다.

 

그 사이를 파고 드는거다.

 

예전에는 파고 들 것도 없이, 구글 검색 결과에는 업데이트 이후라도 그 전 자료를 보겠냐는 친절한 안내가 되어 있었는데, 그것이 몇 번 문제(일명 구글 해킹, 개인정보 침해)로 지적되면서 그런 친절함은 삭제되었다.

 

그렇다고 원래 작동하던 로봇들은 알고리즘을 퇴화 시킬리는 없고, 

쓸 줄 아는 사람들만 명령어를 통해 필요한 정보를 구글에서 얻어가는 것이다.

 

설명은 이쯤이면 충분하고...

 

예로 돌아가.. 삭제된 페이지의 URL을 알아낸 후

 

명령어(?) cache:삭제된 페이지의 URL을 입력하면..

 

삭제된 페이지를 구글 캐쉬에서 보는 화면

짜잔..

 

마술같은 결과를 얻어낼 수 있다.

 

이렇게 얻어낸 결과는 원래 있던 사이트의 그것과 보기에는 똑같으나 작동은 보장할 수 없다.

 

그러나 사이트 관리자가 허술하거나, 단순이 페이지를 숨겨 놓았을 때는 필요한 모든 것을 얻을 수 있는 행운이 올 수도 있다.

댓글