5월, AI 코딩이 '파일럿'을 졸업했다 — Cisco·MUFG·KPMG가 보여주는 변곡점

질문 하나로 시작할게요. 여러분 회사에서 AI 코딩 도구를 쓰고 있다면, 그건 "일부 팀이 실험적으로 돌려보는 단계"인가요, 아니면 "안 쓰면 빌드 파이프라인이 안 돌아가는 단계"인가요? 2026년 5월 한 달 동안 쏟아진 대기업 발표들을 모아놓고 보니, 글로벌 기업들의 답은 빠르게 후자로 넘어가고 있어요. 저는 이게 단순한 발표 러시가 아니라 도입 단계가 한 칸 넘어간 변곡점이라고 봐요. 오늘은 그 주장을 다섯 개의 사례로 증명해 보려고 해요.

파일럿과 졸업의 차이는 "틀리면 책임지는가"

파일럿과 핵심 업무 통합을 가르는 기준은 화려한 수치가 아니에요. 제가 보는 기준은 딱 하나예요. 그 AI가 틀렸을 때 회사가 실제로 손해를 보는 자리에 들어가 있는가. 데모 환경에서 코드 한 조각을 짜주는 건 파일럿이에요. 하지만 프로덕션 빌드를, 27만 명의 일상 업무를, 세금 신고서를 맡기는 건 졸업이에요. 5월의 발표들은 대부분 후자 쪽이에요.

가장 선명한 게 Cisco예요. OpenAI의 Cisco 사례에 따르면, Cisco는 자사 보안 제품인 AI Defense의 상당 부분을 Codex로 개발하면서 출시 기간을 몇 분기에서 몇 주로 줄였다고 해요. 더 구체적인 숫자도 나와요. 15개 이상의 상호 연결된 레포지토리에 걸친 크로스 레포 빌드 최적화로 빌드 시간을 약 20% 줄이고 매달 1,500 엔지니어링 시간 이상을 절약했다는 거예요. 그리고 대규모 C/C++ 코드베이스의 결함 수정을 에이전트로 자동화해서 결함 해결 처리량을 10~15배로 늘렸다고 밝혔어요. 이건 "한번 써봤더니 좋더라" 수준이 아니라, 회사의 출시 일정과 결함 처리 능력 자체가 Codex에 묶여 있다는 뜻이에요.

금융권으로 가면 MUFG가 같은 방향을 가리켜요. OpenAI의 MUFG 사례와 관련 보도에 따르면, MUFG는 2026년부터 ChatGPT Enterprise를 단계적으로 도입해 미쓰비시UFJ은행 직원 약 3만 5천 명이 문서 작성·리서치·고객 응대 같은 일상 업무에 쓰도록 했어요. 흥미로운 건 내부용에서 멈추지 않는다는 점이에요. 앱을 ChatGPT와 연동해 가계 재무 관리나 자산 상담 같은 고객용 서비스까지 만들겠다고 했어요. AI 전문 인력도 2024 회계연도 135명에서 2026년 350명 이상으로 늘린다고 하고요. 도구를 깐 게 아니라 조직을 AI-native로 다시 설계하는 거예요.

규모로 보면 KPMG가 압권이에요. Anthropic의 KPMG 제휴 발표에 따르면, KPMG는 138개국 27만 6천 명 이상의 전체 인력에 Claude를 통합해요. Claude를 KPMG의 핵심 업무 플랫폼인 Digital Gateway에 임베드하고, Claude Cowork와 Managed Agents를 활용해 세무·법률·사이버보안·사모펀드 영역에서 고객용 도구를 만든다고 했어요. 특히 "세무 에이전트를 몇 주가 아니라 몇 분 만에 만들 수 있다"는 표현이 눈에 띄어요.

흩어진 사례가 같은 곳을 가리킨다

여기서 제 해석을 더할게요. 위 세 건만 보면 "큰 회사들이 큰 계약 맺었네" 정도로 읽힐 수 있어요. 하지만 나머지 두 사례를 겹쳐 놓으면 패턴이 보여요.

Endava 사례에 따르면, Endava는 Codex로 요구사항 분석을 수 주에서 수 시간으로 줄였어요. 법무 이해관계자와의 2시간짜리 회의 녹취를 Codex에 넣어 동작하는 요구사항 명세를 만들어냈고, 1~2주 걸리던 작업이 1시간짜리 회의 두 번으로 압축됐다고 해요. 더 중요한 건 이 회사가 말하는 "에이전틱 조직"의 정의예요. 시니어의 전문성을 AI 에이전트로 코드화해서, 첫 고객 대화부터 출시까지 전 단계에 에이전트를 붙이는 거예요. 코딩 자동화를 넘어 업무 구조 자체를 바꾸는 거죠.

마지막 자기개선 세무 에이전트 사례가 이 글의 주장을 가장 날카롭게 만들어요. OpenAI·Thrive·Crete가 Codex로 만든 세무 에이전트는 Crete Professional Alliance를 통한 파일럿에서 복잡한 1040·1041 신고서를 포함해 7,000건의 세무 신고를 처리했고, 인간 회계사의 수정을 학습 신호로 삼아 초기 약 25% 수준이던 신고서 작성 정확도를 몇 주 만에 최대 97%까지 끌어올렸다고 해요. 처리량은 약 50% 늘고 실무자 시간은 3분의 1가량 절약됐다고 하고요. 세금 신고는 틀리면 곧바로 책임이 따르는, 가장 보수적인 영역이에요. 그 자리에 자기개선 루프를 도는 에이전트가 들어갔다는 게 핵심이에요.

다섯 사례의 공통점은 이거예요. 모두 "AI를 써볼까"가 아니라 "어느 핵심 업무에 어떻게 박을까"를 말하고 있어요. 빌드 파이프라인(Cisco), 전사 워크플로우(MUFG), 27만 명의 업무 플랫폼(KPMG), 요구사항·고객 커뮤니케이션(Endava), 세무 신고(Thrive·Crete). 자리가 다 달라요. 그런데 단계는 똑같이 한 칸 넘어가 있어요. 저는 이미 OpenAI와 Dell이 Codex를 온프레미스로 가져간 발표를 다루면서 "코딩 에이전트가 클라우드를 넘어 기업 내부로 들어가는 신호"라고 썼는데, 그 신호가 5월 한 달 동안 여러 산업에서 동시에 켜진 셈이에요.

반론: 발표는 발표일 뿐이다

솔직하게 한계도 짚을게요. 이 사례들은 전부 벤더(OpenAI·Anthropic)가 공개한 자료예요. 잘 안 된 부분이 들어 있을 리 없어요. "매달 1,500시간 절약" "정확도 97%" 같은 숫자는 인상적이지만, 측정 방법과 비교 기준이 함께 공개되지 않으면 신뢰도를 깎고 봐야 해요. 특히 세무 정확도 97%는 "어떤 항목을, 어떤 난이도에서, 사람 검토를 얼마나 끼고" 측정했는지가 빠지면 그대로 받아들이기 어려워요. 7,000건 파일럿도 전체 모집단 대비 규모는 공개되지 않았고요.

그리고 "전사 도입 발표"와 "전사 정착"은 다른 얘기예요. MUFG의 3만 5천 명, KPMG의 27만 명은 접근 권한이 부여된 인원이지 실제로 매일 쓰는 인원이 아닐 가능성이 높아요. 라이선스를 깔아주는 것과 워크플로우가 바뀌는 것 사이엔 큰 강이 있어요. 그래서 저는 이 발표들을 "이미 졸업했다"가 아니라 "졸업식 날짜를 잡았다"로 읽는 게 더 정확하다고 봐요. 변곡점은 결과가 아니라 방향의 전환이니까요.

한국 개발자 입장에서

한국 개발자 입장에서 이 흐름이 남 일처럼 느껴질 수도 있어요. Cisco·MUFG·KPMG는 글로벌 기업이고, 한국의 규제 환경이나 보안 정책은 또 다르니까요. 하지만 저는 두 가지가 우리에게도 곧 닥칠 현실이라고 생각해요. 첫째, MUFG가 일본 금융권에서 보여주듯 보수적인 산업도 빠르게 움직이기 시작했어요. 한국 금융·대기업도 "도입 여부"가 아니라 "어느 업무부터"를 논의하는 단계로 넘어갈 거예요. 둘째, Endava 사례처럼 엔지니어의 역할이 "코드를 쓰는 사람"에서 "에이전트가 만든 결과를 검토·책임지는 사람"으로 이동하고 있어요. 이건 영어권만의 변화가 아니에요. 평가받는 능력이 타이핑 속도에서 요구사항을 정확히 정의하고 에이전트 출력을 검증하는 능력으로 옮겨간다면, 지금 무엇을 연습해 둘지가 달라져요.

구체적 takeaway

총평 대신 행동 가능한 걸로 마무리할게요.

첫째, "어느 핵심 업무인가"로 질문을 바꾸세요. "우리도 AI 써야 하나"는 이미 철 지난 질문이에요. Cisco는 빌드와 결함 수정, Thrive는 세무 신고처럼 틀리면 책임이 따르는 좁은 영역을 골랐어요. 막연히 전사 도입이 아니라, 검증 가능하고 반복적인 한 업무를 먼저 정하는 게 졸업의 첫 단계예요.

둘째, 검증 루프를 먼저 설계하세요. 세무 에이전트가 25%에서 97%로 올라간 동력은 모델이 아니라 인간 회계사의 수정을 학습 신호로 되먹인 루프였어요. 에이전트를 도입하기 전에 "출력을 누가, 어떤 기준으로 검토하고, 그 피드백이 어디로 흘러가는가"를 먼저 정해야 해요. 이게 없으면 정확도는 안 올라가요.

셋째, 벤더 수치는 한 단계 깎아서 받되 방향은 믿으세요. "97%" "1,500시간"은 그대로 인용하지 말고 우리 환경에서 자체 베이스라인을 재보세요. 다만 다섯 사례가 같은 변곡점을 가리킨다는 방향성은 충분히 신뢰할 만하다고 봐요. 올해 안에 "우리 회사는 어느 업무를 졸업시킬까"를 한 번이라도 진지하게 논의했다면, 그것만으로 늦지 않은 거예요.

근거가 된 소식: Cisco and OpenAI redefine enterprise engineering with AI agents, MUFG aims to become AI-native with OpenAI, Anthropic and KPMG strategic alliance, How Endava builds an agentic organization with Codex, Building self-improving tax agents with Codex

5월, AI 코딩이 '파일럿'을 졸업했다 — Cisco·MUFG·KPMG가 보여주는 변곡점

파일럿과 졸업의 차이는 "틀리면 책임지는가"

흩어진 사례가 같은 곳을 가리킨다

반론: 발표는 발표일 뿐이다

한국 개발자 입장에서

구체적 takeaway

이제 모델이 아니라 'SI 채널'을 사들인다 — TCS·DXC 합류가 보여주는 다음 전장

엔터프라이즈 졸업, 그 다음 — Notion·Nextdoor·LSEG가 Codex로 바꾼 것

OpenAI + Dell: Codex가 기업 온프레미스로 간다

파일럿과 졸업의 차이는 "틀리면 책임지는가"

흩어진 사례가 같은 곳을 가리킨다

반론: 발표는 발표일 뿐이다

한국 개발자 입장에서

구체적 takeaway

관련 글

이제 모델이 아니라 'SI 채널'을 사들인다 — TCS·DXC 합류가 보여주는 다음 전장

엔터프라이즈 졸업, 그 다음 — Notion·Nextdoor·LSEG가 Codex로 바꾼 것

OpenAI + Dell: Codex가 기업 온프레미스로 간다