“코딩 없이 모든 웹사이트를 쉽게 크롤링하는 방법: MAKE와 챗GPT 활용 가이드”
안녕하세요. 이 글은 유튜브채널 “시민개발자 구씨”에서 공개한 “MAKE와 챗GPT로 코딩 없이 모든 웹사이트 크롤링하세요!” 관련 동영상을 정리한 것입니다. 이 글의 정리 목적은 저희가 필요할 때 자체 검색용, 그리고 참고 목적으로 약식 정리한 것이므로, 개괄적인 내용만 정리했습니다. 세부적이고 보다 자세한 내용은 링크를 참조하여 해당 동영상을 직접 시청하세요.
웹 크롤링이란?
웹 크롤링은 다른 웹사이트에서 데이터를 수집하는 과정으로, 업무 생산성을 높이는 데에 활용됩니다. 많은 사람들은 코딩 지식이 없어 크롤링을 포기했던 경험이 있을 것입니다. 그러나, 최근에는 MAKE와 챗GPT 같은 AI 도구들을 활용하면 코딩 없이도 손쉽게 웹사이트 크롤링을 할 수 있습니다.
정적 웹사이트와 동적 웹사이트
웹사이트는 정적 웹사이트와 동적 웹사이트 두 가지로 구분할 수 있습니다. 정적 웹사이트는 모든 HTML 정보가 한 번에 출력되는 사이트로, 보통 블로그나 기업 웹사이트에서 자주 발견됩니다. 이 경우 HTML 소스만 가져오면 데이터를 쉽게 추출할 수 있어 크롤링이 간단합니다. 반면 동적 웹사이트는 JavaScript를 사용하여 내용을 동적으로 변경하며 API 요청을 통해 데이터를 시시각각 갱신하는 사이트입니다.
정적 웹사이트 크롤링하기
MAKE를 사용하여 정적 웹사이트의 데이터를 크롤링하는 방법을 살펴보겠습니다. 먼저, 웹사이트의 정보를 가져오기 위해 HTTP 모듈을 추가하여 HTML 코드에서 원하는 정보만 추출합니다. 예를 들어, AI 관련 논문 점검을 위해 arXiv 웹사이트에서 논문 제목, 저자 및 링크를 크롤링할 수 있습니다.
이때 HTML 코드에서 원하는 정보를 추출하는 과정에서 필요한 경우, 텍스트 파서를 통해 HTML을 텍스트 포맷으로 변환하여 작업하기 쉽게 만들어줍니다. 이후, AI 모델을 사용하여 원하는 형식으로 데이터를 정리하고 JSON 포맷으로 아웃풋을 제공합니다.
동적 웹사이트 크롤링하기
동적 웹사이트는 JavaScript가 실행된 후에만 HTML 정보를 가져올 수 있습니다. 이때는 F5라는 도구를 활용하여 크롤링을 수행합니다. 사용자는 F5 서비스에 로그인한 후, 특정 웹사이트의 정보를 API화하여 데이터를 스토리지에 저장합니다.
이후 MAKE를 통해 이 스토리지에서 정보를 불러오고 필요한 데이터를 정리하여 시트나 데이터베이스에 저장할 수 있습니다. 이는 정적 웹사이트와 다르게 동적 웹에서 변화하는 정보를 수집하는 데에 유용합니다.
AI와의 협업
AI 도구와 연계된 데이터 추출 방법도 있습니다. 예를 들어, 텍스트 데이터로부터 원하는 값을 AI 모델에게 요청하여 손쉽게 관리할 수 있습니다. 이 라이브러리들은 복잡한 데이터를 쉽게 처리할 수 있도록 도와줍니다.
정리 및 맺음말
MAKE와 챗GPT, 그리고 F5를 활용하면 손쉽게 정적 웹사이트와 동적 웹사이트에서 데이터를 크롤링할 수 있습니다. 이는 업무와 관련된 리서치를 진행하거나 데이터 분석을 할 때 매우 유용한 기술입니다. 크롤링을 통해 필요한 정보를 수집하고, 이를 자동화하는 시스템을 구축하여 생산성을 높이는 방법을 익히기를 권장합니다.
세부적이고 정확한 내용을 해당 동영상 시청으로 확인해 주시기 바랍니다.
해당 동영상 게시일 : 2024-12-14
동영상 링크: 여기서 확인하기