2020-2-12 TIL
크롤러를 만들면서 피드백
- 한 회사에서 크롤러를 만들라는 과제를 받고 피드백을 받았다. 구현은 했지만 실제 레퍼런스를 보면서 동작시키는것과 실제 서비스에서 사용하는 부분은 많이 다르구나를 느꼈다. 대표적인 사례로 몇 가지가 있다.
- 셀렉터를 이용할때 모든 버튼을 추출해서 로그인 버튼이나 특정 버튼을 찾는것이 좋다. 왜? 크롤러는 특정 페이지들의 구조에 굉장히 민감한테, selector를 이용해서 찾게 되면 구조가 변경됬을때, 찾지를 못한다. 그래서 모든 버튼들을 추출해서 login을 찾는것이 좋다고 들었다.
- 브라우저의 사이즈 조절을 고려
- 비동기처리에 대한 고려 => SQS나 메세지큐를 활용
- selector(‘header > div > button’)에서 어떤 기능인지를 모르기때문에 주석을 달거나 셀렉터 안에 있는 부분을 명확하게 하기.
- 멀티브라우저를 활용
- connection reuse를 고려
느낀점
- 전혀 몰랐던 부분인데, 위의 사항들을 고려해서 다음번 크롤링을 만들때 적용해봐야겠다. 과제를 통해 많은 부분을 생각하고 배울 수 있었다.
Written on February 12, 2020