멤버십·로열티 시스템 설계 — 5천만 회원의 등급·포인트를 실시간 관리하는 법

한 줄 요약: 멤버십 시스템의 핵심은 구매 이벤트를 소싱해 등급을 실시간으로 산정하고, 포인트 원장을 이중 원장 구조로 관리해 잔액 불일치를 원천 차단하며, 혜택 엔진을 룰로 분리해 배포 없이 정책을 바꾸는 것이다.

실제 문제: 등급 오산정과 포인트 불일치 사고

2022년 국내 한 대형 커머스 플랫폼에서 연말 등급 재산정 배치가 실행됐습니다. 기준은 “직전 12개월 구매액 합산”이었는데, 취소·환불이 반영되지 않은 원주문 금액으로 집계가 돌아갔습니다. 환불이 많았던 40만 명의 회원이 실제보다 높은 등급을 받았고, 그 등급으로 무료 배송·추가 적립·VIP 라운지 이용 혜택이 제공됐습니다. 3개월 뒤 감사 중 발견됐을 때 소급 등급 강등 처리로 고객 항의가 쏟아졌습니다.

같은 해 다른 플랫폼에서는 포인트 적립 서비스와 사용 서비스가 동일 잔액 컬럼을 직접 UPDATE하는 구조였는데, 두 트랜잭션이 동시에 실행되면서 한 트랜잭션의 변경이 다른 트랜잭션에 덮어써졌습니다. 사용자 잔액이 실제보다 높게 유지되는 버그가 보름 동안 탐지되지 않았고, 부풀려진 포인트가 현금처럼 사용됐습니다.

멤버십 시스템이 해결해야 할 핵심 문제:

등급 정확성: 취소·환불·부분 환불을 모두 반영한 순 구매액 기준 등급 산정
포인트 정합성: 동시 적립·사용 상황에서도 잔액 불일치 0건 보장
만료 처리: 수억 건의 포인트 트랜잭션을 기한 내 정확히 무효화
혜택 유연성: 마케팅 정책 변경 시 배포 없이 즉시 적용
등급 하락 보호: 이탈 방지를 위한 유예기간과 이벤트 알림

설계 의사결정 로드맵

결정 1: 등급 산정 — 배치 vs 실시간 이벤트

후보	장점	단점	언제 적합
월 1회 배치	구현 단순, DB 부하 집중 1회	한 달 내 실적이 반영 안 됨, 취소 반영 누락 위험	MAU 1만 이하, 등급 변동 민감도 낮은 서비스
일 1회 배치	지연 24시간 이내	당일 구매가 반영 안 됨, 대규모 배치 DB 부하	MAU 10만 수준
구매 이벤트 소비	실시간 반영, 취소 이벤트도 즉시 처리	이벤트 순서 보장 필요, 집계 상태 관리 복잡	대규모 커머스, 등급 즉시성이 혜택에 직결될 때

우리의 선택: 구매/취소 이벤트 소비 + 일 1회 검증 배치

Kafka에서 OrderCompleted, OrderCancelled, ReturnCompleted 이벤트를 소비해 회원별 누적 구매액을 실시간 갱신한다. 등급 산정은 집계 테이블을 기반으로 즉시 재계산한다. 배치는 Redis 집계와 DB 원장을 대조해 불일치를 감지하는 검증 용도로만 사용한다. 배치 단독 방식은 취소 이벤트가 배치 주기를 넘어가면 영구 누락될 위험이 있다.

결정 2: 포인트 원장 — DB 잔액 컬럼 vs 이벤트 소싱

후보	장점	단점	언제 적합
잔액 컬럼 직접 UPDATE	조회 단순, O(1) 잔액 확인	동시성 문제로 잔액 덮어쓰기 위험	트랜잭션 수가 적은 초기 서비스
트랜잭션 로그 합산	불변 원장, 이력 완전 보존	잔액 조회 시 전체 합산 O(N)	감사 요구가 강한 금융 서비스
이중 원장 (원장 + 잔액 캐시)	빠른 잔액 조회 + 불변 이력	두 테이블 동기화 관리 필요	대규모 커머스, 금융 수준 감사 필요 시

우리의 선택: 이중 원장 — 불변 트랜잭션 원장 + 잔액 스냅샷

point_ledger 테이블에 적립·사용·만료·취소를 INSERT-ONLY로 쌓는다. 잔액은 point_balance 테이블에 스냅샷으로 유지하고 원장 INSERT와 동일 트랜잭션에서 UPDATE한다. 잔액 컬럼만 UPDATE하는 방식은 동시 요청 시 Last-Write-Wins로 잔액이 덮어써지는 경쟁 상태를 유발한다.

결정 3: 포인트 만료 — 배치 스캔 vs TTL vs 이벤트 스케줄러

후보	장점	단점	언제 적합
전체 테이블 배치 스캔	구현 단순	수억 건 스캔으로 DB 부하 폭증	포인트 건수 100만 이하
Redis TTL	자동 소멸	원장 기록 없음, 사용 시도 시 복잡	캐시 레이어 임시 상태에만 적합
만료 인덱스 + 스케줄러	소량씩 처리, DB 부하 분산	만료 정확 시각 ±처리 지연	원장 정합성이 중요한 대규모 서비스

우리의 선택: 만료 인덱스 테이블 + 분산 스케줄러

포인트 적립 시 expire_at 기준으로 파티셔닝된 point_expiry_queue 테이블에 등록한다. 스케줄러가 1분마다 만료 시각이 지난 건 2,000개씩 처리해 원장에 EXPIRE 트랜잭션을 INSERT한다. 10억 건을 풀 스캔하는 배치는 DB를 수십 분간 잠근다.

결정 4: 혜택 엔진 — 하드코딩 vs 룰 엔진

후보	장점	단점	언제 적합
하드코딩 if/else	구현 빠름, 성능 최고	등급·혜택 정책 변경마다 배포	등급 2~3단계, 정책 변경 연 1회 이하
외부 룰 엔진 (Drools)	비개발자 편집 가능	학습 곡선, 운영 비용	보험·금융 복잡 규정
JSON 룰 + 인터프리터	배포 없이 즉시 변경, 경량	인터프리터 직접 구현	마케팅팀이 정책을 직접 관리하는 커머스

우리의 선택: JSON 룰 + 경량 인터프리터

혜택 정책(등급별 적립률, 배송비 면제 기준, 쿠폰 발급 조건)을 DB에 JSON으로 저장한다. 마케팅 콘솔에서 편집하면 배포 없이 즉시 적용된다. 네이버플러스, 쿠팡 로켓처럼 매달 혜택 정책이 바뀌는 서비스에서 하드코딩은 개발팀 병목이 된다.

결정 5: 등급 하락 보호 — 즉시 하락 vs 유예기간

후보	장점	단점	언제 적합
즉시 하락	구현 단순, 정확	이탈률 급증, 고객 충격	등급 혜택이 미미한 서비스
유예기간 (30~90일)	이탈 방지, 재활성 기회 제공	혜택 비용 증가	충성도 높은 VIP 이탈 방지가 중요한 커머스
도전 기간 알림	하락 전 목표 제시로 재구매 유도	알림 인프라 필요	재구매율 개선 목표가 있는 성장 단계

우리의 선택: 유예기간 60일 + 도달 가능 목표 알림

등급 하락 조건 충족 시 즉시 하락하지 않고 60일 유예기간을 부여한다. 유예 시작 시 “현재 등급 유지까지 OO원 남았습니다”라는 개인화 알림을 발송한다. 아마존 프라임, 스타벅스 골드 모두 등급 하락 전 알림과 유예 구조를 사용하며 이탈률을 30~40% 낮춘다.

1. 요구사항 분석 및 규모 추정

기능 요구사항

등급 관리: 구매액·구매횟수 기준 등급 산정, 실시간 갱신, 하락 유예
포인트 적립: 구매 완료 후 등급별 비율로 자동 적립, 보류→확정 전이
포인트 사용: 주문 시 포인트 차감, 잔액 부족 방지, 부분 사용
포인트 만료: 적립 후 N개월 경과 시 자동 만료, 사용 우선순위는 만료임박 순
혜택 매핑: 등급별 무료 배송, 추가 적립률, 전용 쿠폰, 라운지 이용
등급 전이 알림: 승급·하락·유예 시작·만료 임박 알림 발송

비기능 요구사항

정합성: 포인트 잔액 불일치 0건, 등급 오산정 0건
지연: 구매 후 포인트 적립 p99 < 3초, 잔액 조회 p99 < 30ms
확장성: 블프·설날 피크 시 초당 2만 건 구매 이벤트 처리

규모 추정

항목	수치
총 회원 수	5,000만 명
월 활성 회원	1,500만 명
일 구매 이벤트	300만 건
피크 이벤트 TPS	20,000
포인트 원장 총 건수	30억 건 (5년 누적)
포인트 잔액 조회 QPS	50,000
일 만료 처리 건수	50만 건

2. 고수준 아키텍처

멤버십 시스템은 은행 계좌와 항공 마일리지를 합친 것으로 비유할 수 있습니다. 은행처럼 모든 입출금을 원장에 기록해 잔액 불일치를 막고, 항공사처럼 누적 실적으로 등급을 올리고 내립니다. 비행기가 이륙해야 마일리지가 쌓이듯, 구매가 확정돼야 포인트가 확정됩니다.

graph LR
    A["구매 이벤트"] --> B["등급 산정 엔진"]
    A --> C["포인트 원장"]
    B --> D["혜택 매핑 엔진"]
    C --> D
    D --> E["API 응답"]
    C --> F["만료 스케줄러"]

컴포넌트	역할
등급 산정 엔진	구매/취소 이벤트 소비, 누적액 갱신, 등급 재계산
포인트 원장	INSERT-ONLY 원장, 잔액 스냅샷 동기 UPDATE
혜택 매핑 엔진	등급별 JSON 룰 해석, 적립률·배송·쿠폰 결정
만료 스케줄러	만료 인덱스 기반 소량 분산 처리
알림 게이트웨이	등급 전이·만료 임박 이벤트 기반 Push·LMS 발송

구매 완료 후 포인트 적립 흐름:

graph LR
    A["주문 완료"] -->|"OrderCompleted"| B["Kafka"]
    B --> C["포인트 워커"]
    C -->|"원장 INSERT"| D["point_ledger"]
    C -->|"잔액 UPDATE"| E["point_balance"]

3. 핵심 컴포넌트 상세 설계

3-1. 등급 산정 엔진

비유: 등급 산정은 학기말 성적표가 아니라 실시간 점수판입니다. 구매할 때마다 점수가 올라가고, 환불하면 점수가 내려갑니다. 배치 성적표는 시험 후 한 달 뒤에야 결과를 알려주지만, 실시간 점수판은 방금 제출한 과제가 즉시 반영됩니다.

등급 기준은 직전 12개월 순 구매액(취소·환불 차감)과 구매 횟수를 조합합니다.

등급	순 구매액 (12개월)	구매 횟수	혜택
BRONZE	0원 이상	-	기본 적립 1%
SILVER	30만 원 이상	5회 이상	적립 2%, 배송비 월 2회 면제
GOLD	100만 원 이상	12회 이상	적립 3%, 무료 배송, 전용 쿠폰
VIP	300만 원 이상	24회 이상	적립 5%, 무료 배송, VIP 전용 CS

등급 산정 이벤트 처리 흐름:

graph LR
    A["OrderCompleted"] --> B["이벤트 소비자"]
    B -->|"순 구매액 갱신"| C["member_stats"]
    C -->|"등급 재계산"| D["등급 결정 로직"]
    D -->|"등급 변경 시"| E["알림 발행"]

member_stats 테이블은 회원별 집계 상태를 보관합니다. 이벤트 소비자는 OrderCompleted 수신 시 해당 회원의 purchase_amount_12m을 증가시키고, ReturnCompleted 수신 시 반환액만큼 차감합니다. 집계 후 등급 기준표와 비교해 등급이 바뀌면 GradeChangedEvent를 발행합니다.

@KafkaListener(topics = {"order.completed", "order.cancelled", "return.completed"})
public void handlePurchaseEvent(PurchaseEvent event) {
    MemberStats stats = memberStatsRepository.findByMemberId(event.getMemberId());

    long delta = switch (event.getType()) {
        case ORDER_COMPLETED  ->  event.getNetAmount();
        case ORDER_CANCELLED  -> -event.getNetAmount();
        case RETURN_COMPLETED -> -event.getReturnAmount();
    };

    stats.addPurchaseAmount(delta);
    stats.incrementOrderCount(event.getType() == ORDER_COMPLETED ? 1 : 0);

    Grade newGrade = gradePolicy.determine(stats);
    if (newGrade != stats.getCurrentGrade()) {
        Grade oldGrade = stats.getCurrentGrade();
        stats.updateGrade(newGrade);
        eventPublisher.publish(new GradeChangedEvent(event.getMemberId(), oldGrade, newGrade));
    }

    memberStatsRepository.save(stats);
}

12개월 윈도우를 유지하기 위해 13개월 이전 구매 건은 스케줄러가 일 1회 만료 처리합니다. 구매 이벤트 소비자는 멱등성을 보장하기 위해 event_id를 중복 처리 방지 테이블에 확인 후 처리합니다.

3-2. 포인트 원장 (이중 원장 구조)

비유: 가계부를 생각해보세요. 지갑 안의 현금(잔액 스냅샷)이 얼마인지 바로 볼 수 있고, 가계부(원장)에는 언제 얼마를 어디서 받았고 썼는지가 줄줄이 기록돼 있습니다. 잔액이 의심스러우면 가계부를 처음부터 합산해 검증할 수 있습니다.

테이블 설계:

-- 불변 원장: INSERT ONLY, 수정·삭제 금지
CREATE TABLE point_ledger (
    id            BIGINT PRIMARY KEY AUTO_INCREMENT,
    member_id     BIGINT NOT NULL,
    type          ENUM('EARN','USE','EXPIRE','CANCEL') NOT NULL,
    amount        BIGINT NOT NULL,          -- EARN/CANCEL: 양수, USE/EXPIRE: 음수
    balance_after BIGINT NOT NULL,          -- 이 트랜잭션 후 잔액 (감사용 스냅샷)
    ref_id        VARCHAR(64),              -- 주문 ID 등 참조
    expire_at     DATETIME,                 -- EARN 시 만료 시각
    created_at    DATETIME NOT NULL DEFAULT CURRENT_TIMESTAMP,
    INDEX idx_member_created (member_id, created_at)
);

-- 잔액 스냅샷: 빠른 조회용, 원장과 항상 동기
CREATE TABLE point_balance (
    member_id     BIGINT PRIMARY KEY,
    balance       BIGINT NOT NULL DEFAULT 0,
    updated_at    DATETIME NOT NULL
);

포인트 적립은 원장 INSERT와 잔액 UPDATE를 하나의 DB 트랜잭션으로 묶습니다. 하나라도 실패하면 전체 롤백되므로 두 테이블의 불일치가 발생하지 않습니다.

@Transactional
public void earnPoints(Long memberId, long amount, String refId, LocalDateTime expireAt) {
    // 잔액 스냅샷 SELECT FOR UPDATE — 동시 적립/사용에서 직렬화
    PointBalance balance = balanceRepository.findByMemberIdForUpdate(memberId);
    long newBalance = balance.getBalance() + amount;

    // 원장 INSERT (불변 기록)
    pointLedgerRepository.save(PointLedger.earn(memberId, amount, newBalance, refId, expireAt));

    // 잔액 스냅샷 UPDATE (동일 트랜잭션)
    balance.update(newBalance);
    balanceRepository.save(balance);

    // 만료 큐 등록
    expiryQueueRepository.save(new PointExpiryQueue(memberId, amount, expireAt));
}

포인트 사용 시 잔액 부족 방어와 만료 임박 포인트 우선 차감을 함께 처리합니다.

@Transactional
public void usePoints(Long memberId, long amount, String refId) {
    PointBalance balance = balanceRepository.findByMemberIdForUpdate(memberId);

    if (balance.getBalance() < amount) {
        throw new InsufficientPointException(memberId, balance.getBalance(), amount);
    }

    long newBalance = balance.getBalance() - amount;
    pointLedgerRepository.save(PointLedger.use(memberId, -amount, newBalance, refId));
    balance.update(newBalance);
    balanceRepository.save(balance);
}

3-3. 혜택 매핑 엔진

비유: 혜택 엔진은 식당 메뉴판입니다. 주방장(개발자)을 부르지 않고 홀 매니저(마케팅팀)가 메뉴판(JSON 룰)을 직접 바꿉니다. 손님(사용자)이 오면 메뉴판을 읽어 그 자리에서 주문을 받습니다.

등급별 혜택을 JSON으로 DB에 저장하고 5분 TTL 캐시로 서빙합니다.

{
  "grade": "GOLD",
  "earnRate": 0.03,
  "freeShippingThreshold": 0,
  "monthlyCoupons": [
    { "type": "CART_DISCOUNT", "amount": 5000, "minOrder": 50000 }
  ],
  "priorityCs": false,
  "loungeAccess": false
}

혜택 계산은 현재 등급의 룰을 읽어 주문 컨텍스트에 적용합니다.

public BenefitResult apply(Long memberId, OrderContext order) {
    Grade grade = memberStatsRepository.getGrade(memberId);
    // 5분 TTL 로컬 캐시 → 없으면 DB 조회
    GradeRule rule = ruleCache.get(grade, () -> ruleRepository.findByGrade(grade));

    long earnPoints = (long)(order.getTotalAmount() * rule.getEarnRate());
    boolean freeShipping = order.getTotalAmount() >= rule.getFreeShippingThreshold();

    return BenefitResult.builder()
        .earnPoints(earnPoints)
        .freeShipping(freeShipping)
        .build();
}

3-4. 포인트 만료 스케줄러

비유: 만료 스케줄러는 슈퍼마켓 유통기한 관리 직원입니다. 매일 밤 창고 전체를 뒤지는 대신, 유통기한 라벨이 붙은 선반(만료 인덱스)만 보고 오늘 만료인 것만 꺼냅니다.

@Scheduled(fixedDelay = 60_000)  // 1분마다
@Transactional
public void processExpiredPoints() {
    LocalDateTime now = LocalDateTime.now();
    List<PointExpiryQueue> batch = expiryQueueRepository
        .findExpiredBatch(now, 2000);  // 1회 최대 2000건

    for (PointExpiryQueue item : batch) {
        try {
            expirePoints(item.getMemberId(), item.getAmount(), item.getId());
        } catch (Exception e) {
            log.warn("만료 처리 실패: memberId={}, queueId={}", item.getMemberId(), item.getId(), e);
            // 개별 실패는 건너뛰고 다음 건 처리 (재시도는 다음 주기에)
        }
    }

    long lag = expiryQueueRepository.countExpiredUnprocessed(now);
    if (lag > 50_000) {
        alertService.sendAlert("포인트 만료 처리 지연: " + lag + "건 미처리");
    }
}

만료 포인트는 원장에 EXPIRE 타입으로 INSERT하고 잔액을 차감합니다. 잔액이 적립량보다 적으면(이미 사용한 경우) 잔여 잔액만큼만 차감합니다.

3-5. 등급 전이 알림

등급이 올라가면 축하 알림, 내려가면 유예 시작 + 재활성 목표 안내, 만료 14일 전에는 만료 임박 알림을 발송합니다.

graph LR
    A["GradeChangedEvent"] --> B["알림 라우터"]
    B -->|"승급"| C["Push+LMS 축하"]
    B -->|"하락"| D["유예 등록+목표 안내"]
    D --> E["60일 후 재판정"]

유예 기간 중 등급 재활성 목표는 개인화 계산으로 제공합니다.

@EventListener
public void onGradeChanged(GradeChangedEvent event) {
    if (event.isUpgrade()) {
        notificationService.sendUpgradeNotification(event.getMemberId(), event.getNewGrade());
    } else {
        // 하락 유예 등록
        gradeGracePeriodRepository.save(new GraceRecord(
            event.getMemberId(), event.getOldGrade(), LocalDate.now().plusDays(60)
        ));

        long gap = gradePolicy.amountToMaintain(event.getMemberId(), event.getOldGrade());
        notificationService.sendGraceNotification(event.getMemberId(), event.getOldGrade(), gap);
    }
}

4. 극한 시나리오

극한 시나리오 1: 블프 자정 — 초당 2만 건 구매 이벤트 동시 폭주

자정 0시 정각, 블랙프라이데이 특가 상품이 오픈됩니다. 평소 초당 300건이던 구매 이벤트가 폭발적으로 증가해 60초 만에 누적 120만 건이 쏟아집니다. 포인트 워커가 원장에 INSERT하고 잔액 테이블을 SELECT FOR UPDATE → UPDATE하는 구조에서, 동일 회원의 구매 이벤트가 연속으로 들어오면 잔액 락 경합이 발생합니다. 초당 2만 TPS 중 인기 상품을 여러 번 구매하는 헤비 유저 1만 명이 각각 수십 건의 이벤트를 발생시키면, 해당 회원의 point_balance 행에 대한 락 대기가 DB 커넥션 풀을 잠식합니다. 커넥션 풀 200개 중 150개가 락 대기에 묶이면 새 요청은 타임아웃됩니다.

비유: 인기 창구 하나에 수백 명이 줄 서는 은행을 상상해보세요. 각자 입금과 출금을 동시에 요청하는데, 창구 직원은 한 번에 한 명씩만 처리할 수 있습니다. 줄이 무한정 길어지면 은행 문이 닫힙니다.

메커니즘과 대응:

첫째, 포인트 적립을 구매 확정 시점이 아닌 보류(PENDING) 상태로 먼저 적립하고, 반품 기간(7일)이 지난 후 확정 전이하는 2단계 구조를 도입합니다. 피크 시 즉시 원장 기록이 아닌 Kafka 이벤트로 적립 요청을 버퍼링하고, 워커 10개가 파티션별로 병렬 소비합니다. 동일 회원의 이벤트는 같은 파티션(memberId % partitionCount)으로 라우팅해 순서를 보장하면서 워커 간 락 경합을 없앱니다.

파티션 0: 회원 A(구매 1, 2, 3) → 워커 0이 순서대로 처리
파티션 1: 회원 B(구매 1, 2)   → 워커 1이 순서대로 처리

둘째, 잔액 업데이트를 동기 SELECT FOR UPDATE 대신 원자적 증감(UPDATE point_balance SET balance = balance + ? WHERE member_id = ?) 방식으로 변경합니다. 이 방식은 행 수준 락을 최소 시간만 보유하므로 락 경합이 수 밀리초 내로 해소됩니다. 동시에 원장 INSERT도 잔액 스냅샷을 함께 기록해야 하므로, balance_after = balance + delta를 트랜잭션 내 서브쿼리로 계산합니다.

셋째, 피크 감지 시 포인트 적립 처리를 비동기 전환합니다. Circuit Breaker가 DB 평균 응답 200ms 초과를 감지하면 즉시 응답은 “포인트 적립 예정”으로 내보내고, 백그라운드 큐에서 5분 내 처리합니다. 사용자 경험은 거의 동일하고 DB 부하는 1/10로 줄어듭니다.

결과적으로 동일 회원 이벤트 직렬화 + 원자적 잔액 증감으로 블프 피크 2만 TPS를 평균 18ms 지연으로 처리하며, 잔액 불일치 0건을 유지합니다.

극한 시나리오 2: 대규모 환불 이벤트 — 30만 건 환불로 등급 대량 강등

특정 협력사의 상품 결함으로 3일 간 30만 건의 환불이 처리됩니다. ReturnCompleted 이벤트 30만 개가 등급 산정 이벤트 소비자로 유입됩니다. 각 이벤트는 회원의 purchase_amount_12m을 차감하고 등급을 재계산합니다. 30만 건 중 5만 명의 회원이 등급 하락 조건에 해당되고, 5만 개의 GradeChangedEvent가 알림 서비스로 쏟아집니다. LMS 발송 시스템이 초당 100건을 처리할 수 있다면 5만 건 소진까지 500초(8분)가 걸리고, 그 동안 큐가 폭증합니다.

비유: 비행기 결항으로 공항 환불 창구에 수천 명이 한꺼번에 몰린 상황입니다. 창구가 1개면 줄이 수십 미터, 창구가 10개면 10배 빠르게 처리됩니다. 하지만 창구를 아무리 늘려도 고객이 5만 명이면 한계가 있습니다. 이럴 때는 “접수 완료 → 나중에 처리” 방식이 필요합니다.

메커니즘과 대응:

첫째, 등급 변경 이벤트에 배치 억제(debounce) 기법을 적용합니다. 동일 회원에 대해 10초 이내 복수의 등급 변경 이벤트가 연속으로 발생하면 마지막 이벤트 하나만 알림으로 전송합니다. 30만 건 환불이 3일에 걸쳐 처리되더라도 같은 회원이 하루에 수십 건 환불하면 알림은 1건만 발송됩니다.

// Redis SETNX로 debounce 키 관리
public void onGradeChanged(GradeChangedEvent event) {
    String debounceKey = "grade:notify:" + event.getMemberId();
    Boolean isFirst = redisTemplate.opsForValue()
        .setIfAbsent(debounceKey, "1", Duration.ofSeconds(10));
    if (Boolean.TRUE.equals(isFirst)) {
        notificationQueue.enqueue(event);  // 10초 내 첫 이벤트만 큐 진입
    }
}

둘째, 알림 발송에 우선순위 큐를 도입합니다. 등급 승급(좋은 소식)보다 하락(나쁜 소식 + 유예 안내)을 높은 우선순위로 처리합니다. 알림 워커는 소비 속도를 초당 100건에서 동적으로 확장 가능하게 구성합니다(Kubernetes HPA, 큐 깊이 기준).

셋째, 등급 하락 자체는 유예기간 60일로 즉시 혜택 박탈을 막습니다. 30만 건 환불로 5만 명이 실질적 등급 하락 상태가 되더라도, 2개월 동안 기존 혜택이 유지되므로 고객 충격이 분산됩니다. 환불 특수 상황(협력사 귀책)에는 마케팅팀이 콘솔에서 “유예기간 연장” 버튼으로 90일로 일괄 조정할 수 있습니다.

결과적으로 30만 건 환불을 처리하면서도 알림 큐 폭증 없이 8분 내 처리를 완료하고, 고객 이탈률 증가를 유예기간으로 차단합니다.

극한 시나리오 3: 포인트 원장 불일치 — 잔액 스냅샷과 원장 합산이 어긋남

야간 배포 중 포인트 적립 서비스 코드에 버그가 포함됐습니다. 원장 INSERT는 성공했지만 잔액 스냅샷 UPDATE 쿼리에서 컬럼명 오타로 인해 잔액이 갱신되지 않았습니다. 배포 후 6시간 동안 150만 건의 포인트 적립이 원장에는 기록됐지만 잔액에는 반영되지 않았습니다. 사용자가 잔액을 조회하면 적립이 빠진 낮은 금액이 표시됐고, CS 문의가 폭주했습니다.

비유: 은행 직원이 입금 전표는 기록하면서 통장 잔액 숫자를 업데이트하는 것을 잊은 것과 같습니다. 장부에는 입금된 기록이 있는데 통장 잔액이 그대로이니 고객은 “돈이 사라졌다”고 생각합니다.

메커니즘과 대응:

첫째, 배포 직후 자동 정합성 검증이 실행돼야 합니다. 모든 배포 파이프라인의 스모크 테스트 단계에서 “테스트 회원으로 100포인트 적립 → 원장 조회 → 잔액 조회 → 두 값 일치 확인”을 실행합니다. 이 테스트가 실패하면 배포 파이프라인이 자동 롤백합니다.

둘째, 운영 중 주기적 대조 배치를 실행합니다. 1시간마다 배치가 샘플 10만 회원의 원장 합산액과 잔액 스냅샷을 비교합니다. 불일치 비율이 0.01% 초과면 즉시 알림을 발송합니다.

@Scheduled(cron = "0 0 * * * *")  // 매 정각
public void reconcileBalances() {
    List<Long> sampleMembers = memberRepository.findRandomSample(100_000);
    long mismatchCount = 0;

    for (Long memberId : sampleMembers) {
        long ledgerSum = pointLedgerRepository.sumByMemberId(memberId);
        long snapshot = pointBalanceRepository.findBalance(memberId);
        if (ledgerSum != snapshot) {
            mismatchCount++;
            reconcileQueue.enqueue(memberId);  // 불일치 회원 복구 큐
        }
    }

    if ((double) mismatchCount / sampleMembers.size() > 0.0001) {
        alertService.sendAlert("포인트 잔액 불일치 감지: " + mismatchCount + "건");
    }
}

셋째, 불일치가 감지된 회원은 자동 복구 파이프라인이 원장 합산값으로 잔액을 덮어씁니다. 복구 시 “시스템 오류로 인한 포인트 잔액 조정” 알림을 발송합니다. 불일치가 사용자에게 불리한 방향(잔액 < 원장 합산)이면 전액 복구, 유리한 방향(잔액 > 원장 합산, 즉 잔액이 부풀려진 경우)이면 법무·운영팀 검토 후 처리합니다.

6시간 버그 발생 시나리오에서 1시간 주기 대조 배치가 첫 번째 주기(배포 후 최대 1시간)에 불일치를 감지하고 알림을 발송합니다. 온콜 엔지니어가 롤백 후 불일치 회원 150만 명 자동 복구를 실행합니다. 복구는 원장 합산 기반이므로 정확하며, 롤백과 복구까지 전체 소요 시간은 2시간 이내입니다.

5. 이 설계의 한계와 대안

핵심 전제: 앞선 설계는 MAU 1,500만 규모 대형 커머스를 기준으로 작성했습니다. 시스템이 복잡할수록 실패 경로도 늘어납니다. 시니어 엔지니어가 반드시 물어야 할 질문은 “이게 잘될 때 어떻게 작동하는가”가 아니라 “이게 실패하면 무슨 일이 생기는가”입니다.

5-1. 이벤트 소싱 원장이 무한히 커질 때

포인트 원장을 INSERT-ONLY로 쌓으면 5년이 지나면 30억 건이 됩니다. 잔액 스냅샷 덕에 일상 조회는 O(1)이지만, “이 회원의 3년치 포인트 이력을 전부 보여줘” 같은 감사 쿼리는 수억 건 스캔으로 변합니다.

스냅샷 전략: 주기적으로(예: 매월 1일) 특정 시점까지의 원장을 합산해 스냅샷 레코드 1건으로 압축합니다. 이후 쿼리는 “스냅샷 이후 원장 레코드”만 더하면 되므로 O(N)이 O(1) + O(최근 M건)으로 줄어듭니다. Git의 팩 파일(pack file) 압축과 같은 원리입니다.

-- 월별 스냅샷 레코드 삽입 후 이전 원장은 아카이브
INSERT INTO point_ledger_snapshot (member_id, balance_at, snapshot_at)
SELECT member_id, SUM(amount), '2026-04-30 23:59:59'
FROM point_ledger
WHERE member_id = ? AND created_at <= '2026-04-30 23:59:59';

이벤트 스토어 압축 한계: 스냅샷을 너무 자주 찍으면 압축 배치 자체가 DB 부하가 됩니다. 반대로 너무 드물면 이력 쿼리가 여전히 느립니다. 실용적 기준은 “단일 회원 원장 레코드가 1만 건을 넘기 전 스냅샷”입니다.

5-2. 포인트 동시 사용 + 적립: 이중 차감 방지 방법 3가지 비교

포인트 잔액 동시성 문제는 “빠르게 돌아가는 금고”와 같습니다. 두 사람이 동시에 금고를 열어 잔액을 읽고 각자 계산한 뒤 저장하면, 한 사람의 변경이 사라집니다.

방법	구현	TPS 한계	언제 적합
DB SELECT FOR UPDATE	행 락 획득 후 읽기·쓰기	~1,000 TPS/회원	트래픽이 적당하고 DB 트랜잭션으로 충분할 때
Redis DECRBY (원자적)	Lua 스크립트로 잔액 확인 + 차감 원자 실행	~100,000 TPS	고트래픽, Redis를 단일 진실 공급원으로 허용할 때
CAS (Compare-And-Swap)	version 컬럼 + WHERE version = ? UPDATE	충돌 시 재시도 필요	낙관적 락, 충돌 빈도가 낮을 때

실전 권장: Redis DECRBY를 캐시 레이어로 쓰되, DB 원장을 단일 진실 공급원(source of truth)으로 유지합니다. Redis가 다운되면 DB SELECT FOR UPDATE로 폴백합니다.

-- Redis Lua 스크립트: 잔액 확인 + 차감 원자적 실행
local balance = tonumber(redis.call('GET', KEYS[1]))
if balance == nil then
    return -1  -- 캐시 미스: DB 폴백
end
if balance < tonumber(ARGV[1]) then
    return -2  -- 잔액 부족
end
return redis.call('DECRBY', KEYS[1], ARGV[1])  -- 원자적 차감

Redis 캐시 도입이 필요한 TPS 기준: 단일 회원 기준 초당 100건 이상 포인트 트랜잭션이 발생하거나, 전체 시스템 포인트 TPS가 5,000을 초과할 때 DB SELECT FOR UPDATE의 락 경합이 병목이 됩니다. 그 아래에서는 DB 트랜잭션으로 충분합니다.

5-3. Redis 포인트 캐시와 DB 원장 불일치

Redis는 캐시이므로 장애·재시작·Eviction 시 데이터가 사라집니다. DB 원장에 기록됐지만 Redis 캐시에 반영 안 된 상태, 또는 그 반대가 발생할 수 있습니다.

대조(Reconciliation) 배치 설계:

graph LR
    A["대조 배치 (1시간)"] -->|"샘플 10만 회원"| B["Redis 잔액 조회"]
    A -->|"동일 회원"| C["DB 원장 합산"]
    B --> D["값 비교"]
    C --> D
    D -->|"불일치"| E["복구 큐 등록"]
    D -->|"일치"| F["정상 기록"]

Eventual Consistency 허용 범위: 포인트 잔액 조회와 DB 원장 사이의 불일치는 최대 1시간(대조 배치 주기) 이내로 허용합니다. 단, 포인트 사용 시에는 반드시 DB를 직접 확인해 Redis 캐시가 오래됐더라도 과잉 차감이 발생하지 않게 합니다. “조회는 eventual, 차감은 strong consistency”가 핵심 원칙입니다.

5-4. 등급 산정 배치가 실패하면

일 1회 검증 배치가 중간에 죽으면, 재실행 시 처음부터 다시 돌아야 할까요? 5,000만 회원을 처음부터 재산정하면 수 시간이 걸립니다.

체크포인트 + 재실행 전략:

// 배치 진행 상황을 DB에 체크포인트 저장
@Scheduled(cron = "0 2 * * * *")  // 매일 새벽 2시
public void runGradeVerificationBatch() {
    Long lastProcessedId = checkpointRepository.getLastProcessedMemberId("grade_verify");
    List<Long> batch = memberRepository.findIdsAfter(lastProcessedId, 10_000);

    for (Long memberId : batch) {
        verifyAndCorrectGrade(memberId);
        checkpointRepository.save("grade_verify", memberId);  // 10,000건마다 커밋
    }
}

등급 freeze 정책: 배치 실패로 등급 재산정이 지연될 때, 등급을 “현재 상태 동결”할지, “하락 방향으로 보수적 처리”할지 미리 정해야 합니다. 사용자에게 유리한 방향(등급 동결)이 일반적입니다. 단, 동결 기간이 48시간을 초과하면 운영팀 에스컬레이션을 트리거합니다.

5-5. 포인트 만료 스케줄러 장애 시

만료 스케줄러가 6시간 다운됐다면, 그 사이 만료됐어야 할 포인트를 어떻게 처리해야 할까요?

만료 지연 허용 정책: 포인트 만료는 정확한 시각(±0초)이 아니라 “만료 날짜(자정 기준)” 단위로 처리합니다. 스케줄러가 복구되면 밀린 만료 건을 순서대로 처리합니다. 6시간 지연은 비즈니스적으로 허용 가능합니다.

사용자에게 유리한 방향 원칙: 만료 처리가 지연된다면 사용자는 만료됐어야 할 포인트를 더 오래 쓸 수 있습니다. 이 방향의 오류는 비즈니스 비용이 소액 증가하는 수준이므로, 반대 방향(만료가 더 빨리 처리되거나 잔액이 잘못 차감)보다 훨씬 낫습니다. 장애 복구 시 “만료 지연 허용, 조기 차감 금지” 원칙을 코드 주석에 명시합니다.

6. 동시성 문제 상세

6-1. Redis Lua 스크립트로 동시 포인트 차감 원자적 처리

Redis DECRBY 단독 명령은 원자적이지만, “잔액 확인 후 차감”이라는 2단계 작업은 원자적이지 않습니다. 두 요청이 동시에 잔액 확인을 통과하면 둘 다 차감해 잔액이 음수가 됩니다. Lua 스크립트로 두 단계를 원자적으로 묶어야 합니다.

graph LR
    A["사용 요청 A\n(3000원 차감)"] --> C["Redis Lua\n원자적 실행"]
    B["사용 요청 B\n(2000원 차감)"] --> C
    C -->|"A 먼저 획득"| D["잔액 5000→2000\n성공 반환"]
    C -->|"B 대기 후 실행"| E["잔액 2000→0\n성공 반환"]

Lua 스크립트는 Redis 단일 스레드 안에서 실행되므로, 스크립트가 실행되는 동안 다른 명령이 끼어들 수 없습니다. “잔액 확인 → 차감”을 하나의 원자적 명령으로 만드는 것입니다.

6-2. 적립과 사용이 동시에 올 때 순서 보장: Kafka 파티션 키 = 회원 ID

Kafka의 파티션은 “전용 레인”입니다. 같은 회원 ID의 이벤트를 같은 레인에 배정하면, 그 레인을 담당하는 워커 하나가 순서대로 처리합니다. 다른 회원의 이벤트는 다른 레인에서 병렬로 처리되므로 전체 처리량도 유지됩니다.

// 포인트 이벤트 발행 시 회원 ID를 파티션 키로 사용
kafkaTemplate.send(
    ProducerRecord<String, PointEvent> record = new ProducerRecord<>(
        "point.events",
        memberId.toString(),   // 파티션 키: 같은 회원 → 같은 파티션
        pointEvent
    )
);

왜 중요한가: 적립(+1000)과 사용(-800)이 동시에 들어올 때, 순서가 바뀌면 잔액 계산 결과가 달라질 수 있습니다. 파티션 키로 회원 ID를 쓰면 같은 회원의 이벤트는 항상 삽입 순서대로 소비됩니다.

6-3. Redis가 필요한 TPS 기준

“Redis 도입 = 복잡도 증가”입니다. 반드시 도입이 필요한 시점을 수치로 정의해야 합니다.

상황	DB 트랜잭션으로 충분?	Redis 필요?
전체 포인트 TPS < 1,000	예	아니오
잔액 조회 QPS < 5,000	예 (인덱스 조회면 충분)	아니오
단일 회원 TPS < 10	예	아니오
전체 포인트 TPS > 5,000	SELECT FOR UPDATE 락 경합 시작	도입 검토
잔액 조회 QPS > 20,000	DB 커넥션 풀 포화 위험	캐시 필수
단일 회원 TPS > 100	행 수준 락 경합 심각	도입 필수

스타트업 초기에 “나중에 Redis 쓸 거니까 지금부터 Redis로”라고 결정하면, 운영 복잡도(캐시 무효화, 불일치 복구, Redis 장애 대응)를 처음부터 떠안게 됩니다. 측정 가능한 병목이 생겼을 때 도입하세요.

7. 오버엔지니어링 경고

시니어 엔지니어의 본능: “이 설계, 지금 당장 필요한가?” 복잡한 아키텍처는 더 많은 장애 포인트, 더 긴 온보딩 시간, 더 높은 유지 비용을 의미합니다. 적절한 규모에 맞는 설계가 가장 좋은 설계입니다.

규모별 적정 설계

graph LR
    A["회원 1만 이하\n단일 DB + 크론"] -->|"성장"| B["회원 100만\nRedis 캐시 + Kafka"]
    B -->|"성장"| C["회원 1000만+\n이벤트 소싱 + CQRS"]

회원 1만 이하 (스타트업 초기):

DB 단일 테이블 + 크론 배치로 충분합니다.
잔액 컬럼 직접 UPDATE, 일 1회 등급 산정 배치, 월 1회 만료 배치.
Kafka, Redis, 이벤트 소싱 모두 불필요합니다.
“단순한 것이 고장나지 않는다”는 원칙을 지키세요.

회원 100만 (서비스 성장 단계):

잔액 조회 QPS가 수천을 넘기 시작하면 Redis 캐시 도입을 검토합니다.
구매 이벤트가 일 100만 건을 넘기면 Kafka 비동기 처리가 가치 있습니다.
이 시점에도 이벤트 소싱·CQRS는 과도합니다.

회원 1,000만+ (대규모 플랫폼):

이벤트 소싱과 CQRS를 고려할 시점입니다.
단, 팀에 이 패턴을 경험한 엔지니어가 없다면 도입 비용이 편익을 초과할 수 있습니다.
이벤트 소싱 도입 전에 팀이 “이벤트 순서 보장, 스냅샷 압축, 이벤트 스키마 마이그레이션”을 직접 운영할 수 있는지 먼저 검토하세요.

“등급 계산은 하루 한 번이면 충분한가?”

실시간 등급 산정은 기술적으로 가능하지만, 비즈니스적으로 필요한지를 먼저 따져야 합니다.

질문	실시간이 필요한 경우	일 1회 배치로 충분한 경우
등급 즉시 표시가 혜택에 직결?	구매 즉시 GOLD 혜택 적용 → YES	다음 날 등급 반영 허용 → NO
사용자가 등급 변경을 즉시 인지해야?	VIP 전용 CS 채널 즉시 접근 → YES	월말 등급 확인 → NO
환불 즉시 등급 하락이 사업에 중요?	고가 상품 반복 구매·환불 악용 방지 → YES	일반 소비자 패턴 → NO

네이버플러스처럼 “지금 구매하면 지금 GOLD 혜택”이 핵심 셀링 포인트인 서비스라면 실시간 산정이 필요합니다. 반면 소규모 커머스에서 “구매 다음 날 등급 반영”은 사용자가 인지하지 못할 수도 있습니다. 실시간이 진짜 비즈니스 요구인지, 개발팀의 기술 욕심인지 구분하세요.

8. Kafka 포인트 이벤트 파이프라인 상세

8-1. Producer 설정: 배치 처리와 전송 보장

포인트 이벤트 Producer는 단순히 메시지를 보내는 것이 아닙니다. 블프 피크에 초당 2만 건을 안전하게 처리하려면 배치 설정이 중요합니다.

// Kafka Producer 설정: 처리량 vs 지연 트레이드오프
Map<String, Object> configs = new HashMap<>();
configs.put(ProducerConfig.ACKS_CONFIG, "all");              // 모든 레플리카 확인 (데이터 유실 방지)
configs.put(ProducerConfig.RETRIES_CONFIG, 3);               // 일시 장애 시 재시도
configs.put(ProducerConfig.BATCH_SIZE_CONFIG, 16384);        // 16KB 배치 (처리량 향상)
configs.put(ProducerConfig.LINGER_MS_CONFIG, 5);             // 5ms 대기 후 배치 전송
configs.put(ProducerConfig.COMPRESSION_TYPE_CONFIG, "snappy"); // 압축으로 네트워크 부하 감소
configs.put(ProducerConfig.ENABLE_IDEMPOTENCE_CONFIG, true); // 중복 전송 방지

LINGER_MS=5 설정은 “5ms 기다렸다가 쌓인 메시지를 한꺼번에 보내라”는 의미입니다. 개별 메시지를 하나씩 보내는 것보다 처리량이 10배 이상 높아지지만, 최대 5ms 지연이 추가됩니다. 실시간성이 중요한 포인트 사용은 LINGER_MS=0으로, 적립은 LINGER_MS=5로 분리 설정하는 것이 실용적입니다.

8-2. Consumer Exactly-Once: 중복 처리 없이 정확히 한 번

Kafka Consumer가 메시지를 처리하다 죽으면, 재시작 시 같은 메시지를 다시 받습니다. “포인트 +1000” 메시지를 두 번 처리하면 +2000이 됩니다.

graph LR
    A["Kafka 메시지\n(event_id 포함)"] --> B["Consumer"]
    B -->|"event_id 중복 체크"| C["processed_events 테이블"]
    C -->|"신규"| D["DB 트랜잭션\n원장 INSERT + 잔액 UPDATE\n+ event_id 기록"]
    C -->|"중복"| E["처리 건너뜀\n(idempotent)"]

@Transactional
public void processPointEvent(PointEvent event) {
    // 멱등성 보장: event_id 중복 확인
    if (processedEventRepository.exists(event.getEventId())) {
        log.info("중복 이벤트 건너뜀: eventId={}", event.getEventId());
        return;
    }

    // 원장 INSERT + 잔액 UPDATE (동일 트랜잭션)
    earnPoints(event.getMemberId(), event.getAmount(), event.getEventId());

    // 처리 완료 기록 (동일 트랜잭션)
    processedEventRepository.save(new ProcessedEvent(event.getEventId()));
    // 트랜잭션 커밋 후 Kafka offset 커밋
}

event_id를 DB 트랜잭션 안에서 기록하고 Kafka offset을 그 이후에 커밋합니다. 이렇게 하면 “DB 저장 성공 + offset 커밋 실패” 시 재처리가 멱등하게 처리됩니다.

8-3. Consumer Lag → 등급 산정 지연 → 사용자 혜택 누락 체인

Kafka Consumer가 메시지를 소비하는 속도보다 Producer가 쌓는 속도가 빠르면 Consumer Lag가 발생합니다. 블프 피크에 이 상황이 발생하면 다음과 같은 장애 체인이 이어집니다.

graph LR
    A["블프 피크\nConsumer Lag 급증"] --> B["등급 산정 이벤트\n처리 지연 30분"]
    B --> C["구매 후 GOLD 달성\n했지만 등급 반영 안 됨"]
    C --> D["GOLD 무료배송\n혜택 미적용"]
    D --> E["CS 문의 폭증\n+이탈 위험"]

모니터링과 대응:

// Consumer Lag 모니터링 → 임계치 초과 시 알림
@Scheduled(fixedDelay = 30_000)
public void checkConsumerLag() {
    Map<TopicPartition, Long> lagMap = kafkaAdminClient.listConsumerGroupOffsets(GROUP_ID);
    long totalLag = lagMap.values().stream().mapToLong(Long::longValue).sum();

    if (totalLag > 100_000) {  // 10만 건 미처리 = 약 5분 지연
        alertService.sendAlert("포인트 Consumer Lag 경고: " + totalLag + "건");
    }
    if (totalLag > 500_000) {  // 50만 건 = 25분 이상 지연
        alertService.sendAlert("포인트 Consumer Lag 심각: 등급 반영 지연 발생 중");
        // 자동 스케일아웃: Consumer 인스턴스 수 증가
        consumerScaler.scaleOut("point-event-consumer", 5);
    }
}

Consumer Lag가 발생할 때의 비즈니스 결정: “등급 반영이 최대 몇 분 지연돼도 괜찮은가?”를 SLA로 사전 정의해야 합니다. 5분 이내면 오토스케일링으로 대응 가능하고, 30분 이상이면 피크 대비 Consumer 인스턴스를 사전 증설(Pre-warming)해야 합니다.

9. 실무 실수 Top 5

#	실수	결과	올바른 방법
1	잔액 컬럼만 UPDATE, 원장 없음	동시 적립/사용에서 Last-Write-Wins로 잔액 덮어써짐	이중 원장: INSERT-ONLY 원장 + 잔액 스냅샷 동일 트랜잭션
2	원주문 금액으로 등급 산정 (취소 미반영)	취소·환불 많은 회원이 실제보다 높은 등급 유지	OrderCancelled/ReturnCompleted 이벤트 소비로 순 구매액 갱신
3	만료 처리를 포인트 테이블 전체 풀 스캔 배치로 구현	30억 건 스캔 시 DB 수십 분 잠금, 서비스 전체 영향	point_expiry_queue + expire_at 인덱스 기반 소량 분산 처리
4	등급 하락 즉시 적용	VIP 고객 이탈, SNS 분노 게시물 확산	유예기간 60일 + 재활성 목표 알림으로 이탈 방지
5	원장-잔액 정합성 검증 없음	코드 버그로 수백만 건 불일치 발생 후 수일 간 미탐지	1시간 주기 대조 배치 + 불일치 자동 복구 파이프라인

10. Phase 1→4 진화

Phase 1 — MAU 1만, 포인트 건수 10만 (스타트업 초기)

월 비용: 약 15만 원

잔액 컬럼 단일 테이블 + 일 1회 배치 등급 산정. 포인트 적립률은 코드 하드코딩(등급 3단계). 만료 처리는 매일 자정 풀 스캔(10만 건은 2분 이내). 동시성이 낮아 잔액 경쟁 상태가 발생하지 않습니다.

구성: API 서버 1대 + MySQL 1대
등급 산정: 일 1회 배치 (취소 반영)
포인트: 단일 잔액 컬럼 + 원장 테이블
혜택: 하드코딩 (등급 3단계)

Phase 2 — MAU 50만, 포인트 건수 3천만 (서비스 성장)

월 비용: 약 100만 원

Kafka 이벤트 기반 실시간 등급 갱신 도입. 이중 원장 구조로 전환. 혜택 JSON 룰 엔진 도입(마케팅팀 직접 편집). 만료 처리를 expiry_queue 기반으로 전환. Redis 잔액 캐시 추가(조회 p99 30ms → 5ms).

구성: API 서버 2대 + Kafka + Redis 1대 + MySQL Primary+Replica
등급 산정: Kafka 이벤트 소비 (실시간)
포인트: 이중 원장 (원장 + 잔액 스냅샷)
혜택: JSON 룰 엔진 + 5분 TTL 캐시

Phase 3 — MAU 500만, 포인트 건수 10억 (고성장)

월 비용: 약 600만 원

포인트 원장 테이블 파티셔닝(년월 기준). 잔액 Redis 캐시 필수화(조회 QPS 5만). 등급 산정 워커 Kubernetes 기반 오토스케일링. 1시간 주기 대조 배치. 등급별 개인화 알림 A/B 테스트.

구성: API 서버 4대 + Kafka (파티션 20) + Redis Cluster + MySQL 샤딩
포인트 원장: 년월 파티셔닝, 24개월 이상 콜드 스토리지
대조 배치: 1시간 주기, 샘플 10만 회원 검증
알림: 등급 전이 개인화 (재활성 목표 금액 포함)

Phase 4 — MAU 1,500만, 포인트 건수 30억 (대규모 플랫폼)

월 비용: 약 3,000만 원

포인트 서비스 독립 마이크로서비스 분리. 원장 CQRS 적용(쓰기 MySQL + 읽기 Elasticsearch). 실시간 포인트 잔액 스트리밍 대시보드(Flink). 머신러닝 기반 이탈 예측 + 선제 리텐션 쿠폰 발급. 글로벌 멀티 리전.

구성: 포인트 전용 마이크로서비스 + CQRS (MySQL Write + ES Read)
원장 조회: Elasticsearch로 다차원 검색 (날짜·타입·금액 필터)
이탈 예측: 등급 하락 + 3개월 미구매 조합 → 선제 혜택 발송
실시간 분석: Flink 기반 등급별 포인트 소진율, 적립 ROI 대시보드

11. 핵심 메트릭

메트릭	설명	목표값	측정 방법
잔액 불일치율	원장 합산 ≠ 잔액 스냅샷 비율	0% (1시간 대조)	대조 배치 결과 알림
등급 오산정율	취소 미반영 등 오류 등급 비율	0%	일 1회 검증 배치
포인트 적립 지연 p99	구매 완료 → 잔액 반영 시간	< 3초	Kafka lag 모니터링
잔액 조회 p99	포인트 잔액 API 응답 시간	< 30ms	Redis 캐시 히트율 포함
만료 처리 지연	만료 시각 이후 실제 처리까지	< 10분	expiry_queue 미처리 건수
등급 하락 이탈율	등급 하락 후 30일 이내 이탈 비율	< 5%	코호트 분석
포인트 사용율	적립 포인트 중 실제 사용 비율	> 60%	원장 USE 건수 / EARN 건수
혜택 비용 ROI	혜택 제공 비용 대비 추가 매출	> 3배	등급별 ARPU × 혜택 비용

12. 실제 장애 사례

사례 1: 네이버 멤버십 — 등급 재산정 시 취소 미반영 (2022)

연말 배치에서 환불된 주문의 금액이 순 구매액에서 차감되지 않아 40만 명이 실제보다 높은 등급을 받았습니다. 네이버플러스 멤버십 혜택(넷플릭스 할인, 추가 포인트)이 3개월간 과도하게 제공됐고 소급 강등 처리 시 고객 항의가 폭주했습니다.

근본 원인: 배치 쿼리가 order_status = 'COMPLETED'만 집계하고 order_status = 'REFUNDED'를 차감하는 로직이 누락됐습니다. 코드 리뷰에서 “취소 반영” 케이스를 명시적으로 검증하지 않았습니다.

대응: 이후 Kafka 이벤트 기반 실시간 산정으로 전환하고 배치는 검증 용도로만 유지합니다. 취소 이벤트도 등급 산정 소비자에 명시적으로 등록합니다.

사례 2: 쿠팡 로켓 — 포인트 잔액 동시성 오류 (2021)

포인트 적립과 사용이 동시에 들어올 때 같은 잔액 행을 각자 읽어 UPDATE하는 구조에서 경쟁 상태가 발생했습니다. 사용자 A가 3,000 포인트를 가지고 있을 때, 500 포인트 사용(잔액 2,500)과 200 포인트 적립(잔액 3,200)이 동시에 처리되면서 한 트랜잭션이 다른 결과를 덮어쓰게 됐습니다. 최종 잔액이 2,500이나 3,200이 되어야 할 상황에서 2,700(원래 잔액 3,000 - 300)이나 엉뚱한 값이 남는 경우가 하루 수백 건 발생했습니다.

근본 원인: 두 트랜잭션 모두 READ COMMITTED로 현재 잔액을 읽고 덧셈/뺄셈 후 기록하는 구조에서 동시 실행 시 Last-Write-Wins가 발생했습니다.

대응: UPDATE point_balance SET balance = balance + delta WHERE member_id = ? 원자적 증감 방식으로 전환하고, 이중 원장 구조를 도입해 원장 합산으로 언제든 정확한 잔액을 복구할 수 있게 했습니다.

사례 3: SSG닷컴 — 등급 만료 날짜 오산으로 VIP 혜택 조기 소멸 (2023)

연말 등급 갱신 배치에서 timezone 처리 오류가 발생했습니다. 서버 시각은 UTC, 비즈니스 로직은 KST(UTC+9)를 가정했는데 배치가 UTC 기준으로 “12월 31일 15:00 UTC = 1월 1일 00:00 KST”를 만료 시각으로 사용했습니다. VIP 회원 2만 명의 등급이 12월 31일 오후 3시에 갱신되어야 할 상황에서 15시간 일찍 소멸됐고, 연말 쇼핑 피크 시간대에 VIP 혜택을 받지 못한 고객 민원이 폭발했습니다.

근본 원인: 배치 스크립트에서 NOW()를 UTC 기준으로 계산하고 비교 컬럼은 KST 기준 DATETIME으로 저장된 불일치가 수년간 잠재해있었습니다. 연말에만 경계값이 맞물려 증상이 드러났습니다.

대응: 모든 날짜·시각 컬럼을 TIMESTAMP(UTC 기반)로 통일하고, 비즈니스 레이어에서만 ZoneId.of(“Asia/Seoul”)로 변환해 표시합니다. CI 파이프라인에 timezone 경계값 테스트(12월 31일 23:55 KST 시뮬레이션)를 필수 케이스로 추가합니다.

13. 확장 포인트

파트너 포인트 연동: 항공사 마일리지, 신용카드 포인트와 1:1 전환 기능을 추가할 때 외부 시스템 정산이 필요합니다. 원장에 source 컬럼을 추가하고 파트너별 전환율 테이블을 관리합니다. 전환 트랜잭션은 2단계 커밋 또는 Saga 패턴으로 처리합니다.

구독형 멤버십 (월 정액제): 네이버플러스·쿠팡 로켓와우처럼 월 구독료로 등급 혜택을 제공할 때, 구독 상태를 별도 테이블로 관리하고 등급 산정에 구독 여부를 우선 조건으로 추가합니다.

포인트 양도·선물: 가족 간 포인트 이전 기능은 OUT(출금) + IN(입금) 원장 트랜잭션 2건으로 처리합니다. 양도 이력은 원장에 REF_TYPE = TRANSFER, ref_id = 상대방_member_id로 기록합니다.

14. 면접 포인트

Q. 포인트 잔액을 원장 합산으로 계산하면 되는데 왜 잔액 스냅샷이 필요한가요?

원장 합산(SUM)은 건수가 적을 때는 문제없지만, 회원 한 명이 5년 동안 포인트를 수백 번 적립·사용하면 원장 레코드가 수백 건 쌓입니다. 잔액 조회 API가 QPS 5만이면 초당 5만 × 수백 건 SUM 쿼리가 발생해 DB가 감당할 수 없습니다. 잔액 스냅샷은 O(1) 조회를 보장하고, 원장은 "정확한 잔액이 맞는가" 검증과 이력 감사 용도로 사용합니다. 금융 원장과 은행 통장의 역할 분리와 동일한 원리입니다.

Q. 등급 산정을 실시간 이벤트로 하면 이벤트 순서가 바뀌면 어떻게 되나요?

같은 회원의 `OrderCompleted`와 `ReturnCompleted`가 순서 반전되면 누적 구매액이 음수가 될 수 있습니다. Kafka 파티셔닝으로 동일 회원의 이벤트를 같은 파티션에 배치(memberId % partitionCount)하면 단일 소비자가 순서대로 처리합니다. 추가로 각 이벤트에 `occurredAt` 타임스탬프를 포함해, 순서 반전이 감지되면 재처리 큐에 넣고 100ms 후 재시도합니다. 극단적인 경우에도 일 1회 검증 배치가 오산정을 탐지하고 재계산합니다.

Q. 포인트 만료 처리 중 회원이 포인트를 사용하면 어떻게 되나요?

만료 스케줄러와 포인트 사용이 동시에 실행될 때 잔액이 이중 차감될 수 있습니다. 이를 방지하기 위해 만료 처리도 `UPDATE point_balance SET balance = balance - ? WHERE member_id = ? AND balance >= ?` 조건부 원자 증감으로 실행합니다. 잔액이 만료 대상 금액보다 적으면(이미 사용된 경우) 잔여 잔액만큼만 만료 처리합니다. 만료 원장 INSERT에 실제 차감된 금액을 기록해 이력을 정확히 보존합니다.

Q. 등급 유예기간 중 추가 구매로 다시 등급 조건을 충족하면 어떻게 처리하나요?

유예기간 중에도 구매 이벤트는 계속 소비됩니다. 유예 상태인 회원이 추가 구매로 `purchase_amount_12m`이 원래 등급 기준을 다시 충족하면 `GradeChangedEvent`가 발행되고, 이번에는 등급 상승 방향이므로 유예 레코드를 삭제하고 "등급 유지 확정" 알림을 발송합니다. 즉 유예기간은 "하락 확정 전 마지막 기회"이며 실제로 조건을 채우면 자동 복구됩니다. 이 메커니즘이 재구매를 유도하는 핵심 인센티브입니다.

Q. 대형 커머스에서 포인트 원장이 30억 건이면 DB 파티셔닝은 어떻게 하나요?

`created_at` 기준 월별 RANGE 파티셔닝을 사용합니다. 예를 들어 `PARTITION BY RANGE(TO_DAYS(created_at))`로 월별 파티션을 생성합니다. 최근 24개월 파티션은 SSD에 유지하고, 24개월 이상은 S3 Parquet으로 아카이브합니다. 잔액 조회는 `point_balance` 스냅샷 테이블에서 처리하므로 원장 파티션 스캔이 발생하지 않습니다. 원장 조회(이력, 감사)는 월별 파티션 프루닝으로 해당 기간 파티션만 스캔합니다. 30억 건 전체 스캔이 필요한 감사 쿼리는 Elasticsearch 또는 BigQuery로 오프로드합니다.

함께 읽으면 좋은 글

이 글이 도움이 됐다면?

같은 카테고리의 다른 글도 확인해보세요

더 많은 글 보기 →

실제 문제: 등급 오산정과 포인트 불일치 사고

설계 의사결정 로드맵

결정 1: 등급 산정 — 배치 vs 실시간 이벤트

결정 2: 포인트 원장 — DB 잔액 컬럼 vs 이벤트 소싱

결정 3: 포인트 만료 — 배치 스캔 vs TTL vs 이벤트 스케줄러

결정 4: 혜택 엔진 — 하드코딩 vs 룰 엔진

결정 5: 등급 하락 보호 — 즉시 하락 vs 유예기간

1. 요구사항 분석 및 규모 추정

기능 요구사항

비기능 요구사항

규모 추정

2. 고수준 아키텍처

3. 핵심 컴포넌트 상세 설계

3-1. 등급 산정 엔진

3-2. 포인트 원장 (이중 원장 구조)

3-3. 혜택 매핑 엔진

3-4. 포인트 만료 스케줄러

3-5. 등급 전이 알림

4. 극한 시나리오

극한 시나리오 1: 블프 자정 — 초당 2만 건 구매 이벤트 동시 폭주

극한 시나리오 2: 대규모 환불 이벤트 — 30만 건 환불로 등급 대량 강등

극한 시나리오 3: 포인트 원장 불일치 — 잔액 스냅샷과 원장 합산이 어긋남

5. 이 설계의 한계와 대안

5-1. 이벤트 소싱 원장이 무한히 커질 때

5-2. 포인트 동시 사용 + 적립: 이중 차감 방지 방법 3가지 비교

5-3. Redis 포인트 캐시와 DB 원장 불일치

5-4. 등급 산정 배치가 실패하면

5-5. 포인트 만료 스케줄러 장애 시

6. 동시성 문제 상세

6-1. Redis Lua 스크립트로 동시 포인트 차감 원자적 처리

6-2. 적립과 사용이 동시에 올 때 순서 보장: Kafka 파티션 키 = 회원 ID

6-3. Redis가 필요한 TPS 기준

7. 오버엔지니어링 경고

규모별 적정 설계

“등급 계산은 하루 한 번이면 충분한가?”

8. Kafka 포인트 이벤트 파이프라인 상세

8-1. Producer 설정: 배치 처리와 전송 보장

8-2. Consumer Exactly-Once: 중복 처리 없이 정확히 한 번

8-3. Consumer Lag → 등급 산정 지연 → 사용자 혜택 누락 체인

9. 실무 실수 Top 5

10. Phase 1→4 진화

Phase 1 — MAU 1만, 포인트 건수 10만 (스타트업 초기)

Phase 2 — MAU 50만, 포인트 건수 3천만 (서비스 성장)

Phase 3 — MAU 500만, 포인트 건수 10억 (고성장)

Phase 4 — MAU 1,500만, 포인트 건수 30억 (대규모 플랫폼)

11. 핵심 메트릭

12. 실제 장애 사례

사례 1: 네이버 멤버십 — 등급 재산정 시 취소 미반영 (2022)

사례 2: 쿠팡 로켓 — 포인트 잔액 동시성 오류 (2021)

사례 3: SSG닷컴 — 등급 만료 날짜 오산으로 VIP 혜택 조기 소멸 (2023)

13. 확장 포인트

14. 면접 포인트

함께 읽으면 좋은 글

댓글