카프카 스트림이란?(kafka stream)

스트림이란?

한 방향으로 흐르는 연속된 데이터 흐름[참고1[참고2]

카프카 스트림이란?

카프카 스트림은 스트림을 처리하는 라이브러리이다.
카프카 스트림은 소비자(consumer)에서 동작한다.
예를 들면, ‘블로그 포스트 조회 수’ 같은 이벤트와 같이
실시간으로 갱신되는 데이터를 처리할 수 있다.

카프카 스트림 특징

카프카 스트림은 정확히 한 번(exactly once)만 데이터를 저장한다[참고3].
하나의 카프카 스트림에도
멀티 스레딩과 리커버리를 지원하기 때문에
쉽게 대용량 처리가 가능하다[참고4]

카프카 스트림 구조

[참고5: streams_concepts_duality]에 자세히 설명되어 있다.
크게 kStream과 kTable로 구성된다.
kStream
- 각 시간 별 스트림 데이터이다.
- 예를 들어 블로그 포스트 조회 수라면
  {“post_id”: 1}
kTable
- 각 시간 별 스트림 데이터의 변경을 기록한다.
- 예를 들어 변경을 합산(sum)이라고 생각하면 아래와 같이 동작한다.
  - time=1
    - kStream={“post_id”:1} -> kTable= {“post_id”:1, “summed”: 1}
  - time=2
    - kStream={“post_id”:1} -> kTable= {“post_id”:1, “summed”: 2}
  - time=3
    - kStream={“post_id”:2} -> kTable= [{“post_id”:1, “summed”: 2}, {“post_id”:2, “summed”: 1}]
집계(aggregation)
- kTable에서 ‘변경을 합산(sum)’이라고 설명한 부분이 집계이다.
- kStream이 들어왔을 때 key를 기준으로
  원하는 집계 로직을 구축하면
  kTable에 반영된다.
kStream과 kTable의 join
- kStream과 kTable 모두 join이 가능하다.

예시

환경
- java 21
- spring boot 3.2.3

설치

implementation 'org.apache.kafka:kafka-streams'  
implementation 'org.springframework.kafka:spring-kafka'  

가정
- “블로그 포스트 조회 수”를 기록하는 카프카 스트림을 구성한다.
- 생산자에서 전송하는 메세지는 문자열이라고 가정한다.
- 편의를 위하여 문자열은 “블로그 포스트 ID”라고 가정한다.
- [참고6][참고7]

global/config/KafkaStreamsConfig.java

@Configuration  
public class KafkaStreamsConfig {  
            
    @Value("${spring.kafka.producer.bootstrap-servers}")  
    private String bootstrapServers;  
            
    KafkaStreamsConfiguration kStreamsConfig() {  
        Map<String, Object> props = new HashMap<>();  
        props.put(StreamsConfig.APPLICATION_ID_CONFIG, "my-streams-app");  
        props.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, bootstrapServers);  
        props.put(StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG, Serdes.String().getClass());  
        props.put(StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG, Serdes.String().getClass());  
            
        return new KafkaStreamsConfiguration(props);  
    }  
            
    @Bean  
    FactoryBean<StreamsBuilder> countBlogViewsDSLBuilder() {  
        StreamsBuilderFactoryBean streamsBuilder = new StreamsBuilderFactoryBean();  
        return streamsBuilder;  
    }  
                
    @Bean  
    KStream<String, String> countBlogViewsKStream(StreamsBuilder countBlogViewsDSLBuilder) {  
        // stream을 불러오는 부분, "count-blog-views" 토픽을 구독한다.  
        KStream<String, String> kStream = countBlogViewsDSLBuilder.stream("count-blog-views");  
            
        // 집계를 처리하는 부분  
        // "countBlogViews"는 Materialized view 이름  
        kStream  
            .selectKey((key, value) -> {  
                return value.getPostId().replace("\"", "");  
            })  
            .groupByKey()  
            .count(Materialized.as("countBlogViews"))  
         // 집계를 완료한 kTable을 "count-blog-views-result" 토픽에 저장한다.  
        .toStream()  
        .to("count-blog-views-result");  
            
        return kStream;  
    }  
}  

blog/BlogController.java

@RequestMapping(value = "/count-blog-views")  
@RequiredArgsConstructor  
@RestController  
public class BlogController {  
    public final KafkaTemplate<String, String> kafkaTemplate;
    public final FactoryBean<StreamsBuilder> countBlogViewsDSLBuilder;  
            
    // kStream 생성자  
    @GetMapping(value = "/produce")  
    public String produceCountBlogViews(@RequestParam(value = "post-id") String postId) {  
        this.kafkaTemplate.send("count-blog-views", postId);  
            
        return "success";  
    }  
            
    // 집계 결과를 출력하는 함수  
    @GetMapping("/all")  
    public void printAllCountBlogViews() {  
        StreamsBuilderFactoryBean builder = (StreamsBuilderFactoryBean) countBlogViewsDSLBuilder;  
            
        KafkaStreams kafkaStreams = builder.getKafkaStreams();  
            
        // "countBlogViews"는 Materialized view 이름  
        ReadOnlyKeyValueStore<String, String> view = kafkaStreams  
            .store(StoreQueryParameters.fromNameAndType("countBlogViews", QueryableStoreTypes.keyValueStore()));  
            
        KeyValueIterator<String, String> address = view.all();  
        address.forEachRemaining(keyValue -> System.out.println("keyValue.toString()++" + keyValue.toString()));  
    }  
}  

카프카 스트림이란?(kafka stream)

스트림이란?

카프카 스트림이란?

카프카 스트림 특징

카프카 스트림 구조

예시

참고

Further Reading

카프카 스트림, JsonSerializer 사용하기

여러 개의 카프카 스트림 사용하기

카프카 커넥트(kafka connect)로 mongoDB에 카프카 스트림 쓰기

Trending Tags