본문 바로가기

티스토리챌린지1

하둡(Hadoop)과 스파크(Spark) 1. 하둡(Hadoop)개념Hadoop은 대규모 데이터를 분산 처리하기 위한 오픈 소스 프레임워크입니다.주로 정적인 데이터를 저장하고 처리하는 데 사용됩니다.핵심 구성 요소HDFS(Hadoop Distributed File System)데이터를 여러 노드에 분산 저장하는 파일 시스템.데이터를 분산 저장하고 복제해 장애에도 안전한 데이터 관리 가능.MapReduce데이터를 병렬로 처리하는 분산 처리 모델.Map 단계에서 데이터를 분리하고, Reduce 단계에서 결과를 집계.특징대규모 데이터 처리: 페타바이트(PB) 단위의 데이터를 처리.저렴한 비용: 일반 하드웨어를 사용하여 대규모 데이터 관리.내구성: 데이터 복제 기능으로 장애 복구 지원.단점느린 데이터 처리 속도 (디스크 기반 처리).실시간 데이터 처리.. 2024. 11. 26.

이전 1 다음

티스토리툴바