[Spark] Spark에서 Iceberg 테이블 다루기
테이블 생성 및 업데이트, 병합 쿼리 / partitionOverwriteMode, storeAssignmentPolicy
Posted by
Wonyong Jang
on October 09, 2024 ·
7 mins read
[Iceberg] Apache Iceberg 주요 설정 및 테이블 생성, 복구, 유지보수
테이블 생성 및 주요 설정 / snapshot 및 메타데이터 관리 옵션 / 테이블 복구 및 유지보수 / 테이블 전환
Posted by
Wonyong Jang
on October 02, 2024 ·
12 mins read
[Iceberg] Apache Iceberg 등장
Hive Table Format과 비교하여 Iceberg 의 특징(Snapshot, Hidden Partition) / 스냅샷 롤백 / Tag
Posted by
Wonyong Jang
on October 01, 2024 ·
10 mins read
[Spark] PySpark 개발환경 구성과 주요기능
scala 와 python 을 이용한 Spark 비교 / Temp View / Python Package Management / spark-submit 옵션
Posted by
Wonyong Jang
on August 08, 2024 ·
11 mins read
[DevOps] Jenkins Batch to Airflow
젠킨스 배치의 문제점 / 젠킨스 배치를 airflow와 쿠버네티스(k8s) Job 으로 전환
Posted by
Wonyong Jang
on August 02, 2024 ·
5 mins read
[Airflow] 아파치 Airflow - Trigger
Trigger DAG 이용하여 arguments 전달(dag_run) /
Posted by
Wonyong Jang
on July 30, 2024 ·
4 mins read
[Airflow] 아파치 Airflow - Xcom
Cross Communication / Task 간 데이터 공유(push, pull)
Posted by
Wonyong Jang
on July 27, 2024 ·
6 mins read
[Airflow] 아파치 Airflow - Workflow
DAG(Directed Acyclic Graph) / 데이터 워크 플로우 관리 도구/ execution_date 의미 / backfill and catchup
Posted by
Wonyong Jang
on July 25, 2024 ·
14 mins read
[Python] LLM 을 이용하여 데이터 수집 및 요약 추출
LangChain과 OpenAI API 사용 / ChatOpenAI / StrOutputParser / ChatPromptTemplate / WebBaseLoader
Posted by
Wonyong Jang
on July 18, 2024 ·
11 mins read
[Python] Python을 이용한 Crawling (Scrapy)
Crawling, Scraping / 사이트의 크롤링 정책
Posted by
Wonyong Jang
on July 08, 2024 ·
5 mins read