데모 · StoryMine — 아이가 주인공인 AI 그림동화 (음성낭독)

StoryMine은 아이가 말로 들려준 이야기를 받아, 아이를 닮은 주인공 캐릭터를 만들고, 페이지마다 삽화를 그리고, 목소리로 읽어주는 모바일 우선 동화책 PWA입니다. 한국어와 영어를 지원하며, "한 번 만들면 끝나는 장난감"이 아니라 책장·시리즈·다운로드·과금까지 갖춘 하나의 작은 서비스로 설계했습니다.

1. 무엇을, 누구를 위해

사용자: 아이와 부모. 아이는 마이크로 "공룡이 우주에 가는 이야기"처럼 말하고, 부모는 나이·언어·페이지 수·그림체·목소리를 고릅니다.
결과물: 표지 + 본문(페이지별 삽화 + 짧은 글) + 페이지별 음성 낭독이 들어간 동화책. 자동 페이지 넘김으로 "읽어주는 그림책"처럼 동작하고, 책장에서 다시 보거나 PDF로 내려받을 수 있습니다.
핵심 가치: ① 아이가 주인공이 되는 몰입감, ② 기다림 최소화(삽화 병렬 생성), ③ 개인정보 안심(아이 사진을 저장하지 않음).

2. 사용자 흐름

말하기/입력          설계            집필            삽화 + 낭독(동시)         리더
(STT·사진)  ─▶  이야기 구조  ─▶  페이지 글  ─▶  gpt-image-1 ┐            자동 넘김
아이 이름·나이      (gpt-5.4)       (gpt-5.4)     Neural TTS  ┘─▶ 저장 ─▶  ◀ 이전/다음 ▶

입력 — 음성(브라우저 STT)이나 텍스트로 이야기 아이디어를 받고, 처음 한 번 아이 사진·이름을 받습니다.
캐릭터화(vision) — 아이 사진을 그 자리에서만 멀티모달 모델에 보내 "둥근 갈색 머리, 하늘색 후드티…" 같은 영어 캐릭터 묘사(anchor) 를 생성하고, 사진 원본은 즉시 폐기합니다(저장 안 함).
설계 → 집필 — gpt-5.4가 나이·언어·페이지 수에 맞춰 이야기 구조와 페이지별 글을 씁니다. 주인공 이름은 부모가 정한 값으로 고정합니다.
삽화 + 낭독(동시 생성) — 페이지마다 gpt-image-1로 삽화를, Azure Neural TTS로 음성을 동시에 만듭니다.
리더 — 글 캡션은 그림을 가리지 않도록 옅은 그라데이션 위에 얹고, 페이지가 음성 길이에 맞춰 자동으로 넘어갑니다.

3. 아키텍처

                    ┌──────────────────────────── Azure ────────────────────────────┐
  모바일 브라우저    │                                                                │
   (PWA, 단일 HTML) │   Container Apps (FastAPI)                                      │
        │  HTTPS     │      │  키리스(Managed Identity, AAD 토큰)                       │
        └───────────┼─────▶│──▶ Azure OpenAI  gpt-5.4      (이야기 설계·집필)          │
                    │      │──▶ Azure OpenAI  gpt-image-1  (페이지 삽화)               │
                    │      │──▶ Azure AI Speech  Neural TTS (페이지 음성)              │
                    │      │──▶ (vision) 멀티모달 — 사진→캐릭터 묘사, 사진 미저장        │
                    │      │                                                          │
                    │      └──▶ PostgreSQL Flexible Server (키리스/MI)                 │
                    │             · 사용자·세션·책·페이지·사용량(과금)                  │
                    │             · assets 테이블(BYTEA): 표지·삽화·음성 바이트         │
                    └────────────────────────────────────────────────────────────────┘

프런트엔드: 단일 HTML PWA(설치 가능, 오프라인 셸). 안내 페이지 없이 바로 만들기로 진입.
백엔드: FastAPI(Container Apps). 모든 외부 AI 호출은 키리스(Managed Identity + AAD 토큰) — 코드/환경에 키를 두지 않습니다.
영속화: PostgreSQL Flexible Server. 텍스트 메타데이터뿐 아니라 이미지·음성 바이트도 assets 테이블(BYTEA) 에 저장하고, 앱이 /api/assets/...로 프록시해 내보냅니다(브라우저가 스토리지에 직접 접근하지 않음).

4. 핵심 구성요소

구성	역할	메모
Azure OpenAI gpt-5.4	이야기 설계 + 페이지 집필 + 사진→캐릭터 묘사(vision)	키리스(AAD)
Azure OpenAI gpt-image-1	페이지 삽화 1024²	텍스트 앵커로 캐릭터 일관성 유지
Azure AI Speech (Neural TTS)	페이지 음성 낭독(SSML)	ko/en 프리셋 보이스, 키리스(resource_id)
Container Apps	FastAPI 호스팅(스케일 0~N)	이미지는 ACR
PostgreSQL Flexible	책·페이지·사용량 + 에셋 바이트	키리스(MI), 자산까지 한 곳

5. 설계 결정 & 트레이드오프 (핵심)

5-1. 캐릭터 일관성 — "seed" 대신 텍스트 앵커

이미지 모델에는 페이지 간 동일 인물을 보장하는 seed가 없습니다. 그래서 vision이 만든 영어 캐릭터 묘사(anchor) 를 모든 페이지 프롬프트 앞에 고정으로 붙여 같은 주인공을 유지합니다. 대신 페이지마다 "이 장면의 핵심 행동·배경·카메라 앵글을 다르게"를 강제해 그림이 스토리 진행을 적극적으로 반영하도록 했습니다(비슷비슷한 그림 방지).

5-2. 대기시간 — 페이지 삽화·음성 병렬 생성

삽화와 음성은 페이지 간 독립적이라 ThreadPool로 동시에 생성합니다(동시성 조절 가능). 8~16페이지를 순차로 그리면 수 분이 걸리지만, 병렬화로 체감 대기를 크게 줄였습니다. "만드는 동안 다른 책을 보거나 또 만들 수 있게" 비동기 진행 UX와 짝을 이룹니다.

5-3. 보안 — 전구간 키리스(Managed Identity)

OpenAI·Speech·DB 모두 키 없이 AAD 토큰/Managed Identity로 접근합니다. 키 유출·로테이션 부담이 없고, 환경변수에 비밀이 없습니다.

5-4. 거버넌스 회피 — 에셋을 Blob이 아니라 Postgres에

중앙 거버넌스가 스토리지 publicNetworkAccess를 주기적으로 잠그는 환경입니다. 에셋이 모두 앱 프록시(브라우저가 스토리지에 직접 안 감)라는 점을 이용해, 이미지·음성 바이트를 Postgres assets(BYTEA) 로 옮겨 거버넌스와 무관하게 동작하도록 했습니다. URL은 그대로 유지됩니다.

5-5. 개인정보 최소화 — 아이 사진을 저장하지 않음

아이 사진은 캐릭터 묘사를 만드는 순간에만 쓰고 즉시 폐기합니다. 보관 항목은 로그인 계정 + 아이 별명(이름) + 글로 된 캐릭터 설명뿐이며, 썸네일은 사진이 아니라 이름 기반 익명 아바타(SVG) 로 만듭니다. 시작 시 과거에 저장됐던 사진 자산도 자동 삭제합니다.

5-6. 사용자별 격리 & 과금 한도

책·아이 프로필·사용량은 모두 로그인 user_id로 격리됩니다(다른 사람 책장이 섞이지 않음). 과금은 무료(평생 1권) / $9(월 10권) / $19(월 30권) 로, 사용량 테이블로 월 한도를 강제합니다(개발 중에는 한도를 크게 열어둠).

6. 개인정보·규제

아동 대상 서비스라 데이터 보호가 1순위입니다.

한국 개인정보보호법(PIPA): 만 14세 미만 아동 정보는 법정대리인 동의가 필요하고, 얼굴 사진은 생체정보로 간주될 수 있습니다 → 사진 미저장 + 데이터 최소화로 위험을 원천 차단하고, 로그인·계정 화면에 보호자 동의·미저장 고지를 넣었습니다.
COPPA(미국, 13세 미만) / GDPR Art.8(EU, 아동): 동일한 방향(최소 수집·보호자 동의·목적 한정)으로 설계.
저장하는 것: 로그인 계정, 아이 별명, 비식별 캐릭터 설명, 생성된 책. 저장하지 않는 것: 아이 사진·생체정보.

규제 수치·요건은 시점에 따라 바뀔 수 있어 공식 출처(law.go.kr, pipc.go.kr) 확인을 전제로 합니다.

7. 비용·성능 관점

호스팅: Container Apps(유휴 시 스케일 0) + Postgres Flexible(소형). 사용량 기반이라 평상시 비용이 낮습니다.
변동비(생성당): 텍스트(gpt-5.4) + 페이지 수만큼의 이미지(gpt-image-1) + 음성(TTS). 이미지가 지배적이라 페이지 수·동시성으로 비용/속도를 조절합니다.
속도: 병렬 삽화 생성으로 "말하기 → 완성"까지 체감 시간을 단축. 만드는 동안 다른 작업이 가능한 비동기 UX.

8. 한계 & 향후

로그인: 현재 게스트(쿠키 기반) 위주. 안정적인 계정별 격리·휴대성을 위해 Google·Kakao OAuth 연동이 다음 단계.
목소리: 현재는 Azure Neural TTS 프리셋 보이스(아이/따뜻한 성우 톤). "아이 본인 목소리" 합성은 추가 동의·안전장치가 필요한 영역이라 신중히 검토 대상.
결제: Stripe 연동 구조는 준비됨(상품·웹훅), 운영 전환 시 키 주입.

한 줄 정리

키리스 Azure AI(스토리·삽화·음성) + Container Apps + Postgres 위에, 개인정보 최소화(사진 미저장) 와 병렬 생성으로 빠른 체감을 핵심 가치로 얹은, 아이가 주인공인 개인용 동화 서비스입니다.

← 데모 목록 학습 포털 홈