[PHP] skechers.com 스크래핑 웹페이지 소스 얻기

# 요구사항
1. 전체 상품을 모두 가져와야 한다.
2. 각 상품의 모든 보여주는 이미즈를 모두 저장해야 한다.
3. 각 상품의 고유한 정보는 정리해서 모두 등록한다.

# 작업환경
Visual Stuido 2013 C# WinForm, MySQL
PHP 7.0.4 (cli)

초기 작업은 C#으로 이줘졌지만은 이후 작업은 Local에서 순수 PHP (cli)만드로 작업이 되었습니다.

1. 각 상품의 대분류에 따라서 이미지 저장을 달리함.

일단 영문자, – 외에는 모두 제거 하여서 Web상에서 사용할 경우에도 주소를 획일한 시켜드림

사용자 삽입 이미지사용자 삽입 이미지각 이미지 파일은 원본 사이트의 순수 이름 그대로 인용하여서 처리 하였습니다.

2. 각 상품상세정보 페이지에서 가져온 원본 소스와 해당 정보를 추리하는 JSON값을 추출하여서 별도로 분리하여서, 웹스크래핑 당시의 전체 웹페이지를 눈으로 확인 할 수 있습니다.
아울러 JSON으로 별도로 저장해서 상품상세페이지에서 정보를 한눈에 볼 수 있도록 파일을 만들어 드렸습니다.
사용자 삽입 이미지

아래의 캡쳐 화면은 원본 사이트의 순서 소스를 그대로 저정한 화면이기때문에 바로 로컬에서 웹페지를 확인해 볼 수 있습니다.

사용자 삽입 이미지

위 웹페이지 원본에서 JSON값만 추출하여서 보여드립니다.
사용자께서 JSON값은 이미 가공을 원하셨지만은 단순하게 값만이라도 확인을 원하셨기에 값을 가공하지 않고 JSON값을 디코드만 하여서 기록한 파일의 내용입니다.
사용자 삽입 이미지

※ 웹스크래핑은 좋은 목적일때는 좋지만 나쁜의도라면은 별로 좋지 않습니다.
그래서 가능하면은 웹스크래핑의 소스는 일제 공개 하지 않습니다.

물론 제 사이트에도 비공개든 공개든 일체 전체 소스를 올려 놓지 않습니다.

이전글
다음글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다