Apache Airflow 기초 개념
Apache Airflow 기초 개념 워크플로우 오케스트레이션을 위한 플랫폼 Airflow란? Apache Airflow는 워크플로우를 프로그래밍 방식으로 작성, 스케줄링, 모니터링할 수 있는 플랫폼입니다. 데이터 파이프라인의 복잡한 의존성과 스케줄링을 관리하는 데 특화되어 있습니다. 주요 특징 프로그래밍 방식: Python 코드로 워...
Apache Airflow 기초 개념 워크플로우 오케스트레이션을 위한 플랫폼 Airflow란? Apache Airflow는 워크플로우를 프로그래밍 방식으로 작성, 스케줄링, 모니터링할 수 있는 플랫폼입니다. 데이터 파이프라인의 복잡한 의존성과 스케줄링을 관리하는 데 특화되어 있습니다. 주요 특징 프로그래밍 방식: Python 코드로 워...
Kafka 상세 내용 231122 학습한 내용 정리 Apache Kafka 개요 정의 Apache Kafka: 분산 스트리밍 플랫폼 메시지 큐: 대용량 실시간 데이터 스트리밍 이벤트 스트리밍: 이벤트 기반 아키텍처 지원 로그 기반: 분산 로그 시스템 특징 고성능: 초당 수백만 메시지 처리 확장성: 수평적 확장 ...
Apache Kafka 기초 개념 실시간 스트리밍 데이터 플랫폼 Kafka란? Apache Kafka는 실시간으로 대용량 스트림 데이터를 처리하기 위한 분산 이벤트 스트리밍 플랫폼입니다. 높은 처리량과 낮은 지연시간을 제공하며, 마이크로서비스 간의 데이터 파이프라인 구축에 널리 사용됩니다. 주요 특징 고성능: 초당 수백만 개의 메시지 ...
Spark 상세 내용 231114~231124 학습한 내용 정리 Apache Spark 개요 정의 Apache Spark: 대용량 데이터 처리를 위한 통합 분석 엔진 인메모리 처리: 메모리 기반의 빠른 데이터 처리 분산 처리: 여러 노드에서 병렬로 데이터 처리 통합 플랫폼: 배치, 스트리밍, 머신러닝, 그래프 처리 통합 ...
Apache Spark 기초 개념 대용량 데이터 처리를 위한 분산 컴퓨팅 프레임워크 Spark란? Apache Spark는 대용량 데이터를 빠르게 처리하기 위한 오픈소스 분산 컴퓨팅 프레임워크입니다. 메모리 기반 연산을 통해 기존 MapReduce보다 10-100배 빠른 성능을 제공합니다. 주요 특징 메모리 기반 연산: 디스크 I/O ...
AWS 인스턴스, 보안그룹, 탄력적IP 인스턴스 인스턴스는 컴퓨터와 같다. AWS 어딘가에 Data Center가 있는데 그 일부를 할당해주는 것. EC2 = AWS Data Center 컴퓨터 local(집컴퓨터) - ssh방식 -> EC2(AWS제공컴퓨터) - 연결방식 : ssh(보안연결) - 정보필요 : EC2 hos...
분산시스템의 이해 컴퓨터의 진화 Process on machine 폰노이만 아키텍처 : 폰노이만 수학자가 제시한 컴퓨터 아이디어(구조) ⇒ 지금까지 사용 RPC(Remote Procedure Call) : 원격으로 어떠한 작업을 호출 인터넷이 발전함에 따라 현시점의 작업 명령과 어울리는 작업 컴퓨터에 직접 사람이 앞에 앉아 있어야하...
Selenium 크롤링 - 동적 웹 페이지 자동화 개요 Selenium은 웹 브라우저 자동화를 위한 강력한 도구입니다: 웹 브라우저 자동화: 실제 브라우저를 제어하여 웹 페이지 조작 JavaScript 실행: JavaScript 코드 실행 및 동적 콘텐츠 처리 사용자 시뮬레이션: 클릭, 입력, 스크롤 등 사용자 행동 시뮬레이션 다...
HTML 스크래핑 - 웹 데이터 수집의 핵심 개요 HTML 스크래핑은 웹 페이지의 HTML 구조를 분석하여 원하는 데이터를 추출하는 기술입니다: 웹 크롤링: 웹 사이트를 자동으로 탐색하고 데이터를 수집하는 과정 데이터 추출: HTML 태그, 속성, 텍스트에서 필요한 정보 추출 자동화: 반복적인 데이터 수집 작업 자동화 1. HTM...
카카오 API 크롤링 - 다양한 서비스 활용하기 개요 카카오 API는 다양한 서비스를 제공하는 강력한 도구입니다: 카카오맵 API: 장소 검색, 좌표 변환, 주소 검색 카카오뉴스 API: 뉴스 검색 및 분석 카카오톡 API: 메시지 전송, 친구 목록 조회 REST API: HTTP 기반의 RESTful API 제공 1. 카카오...