2026年6月29日

豪Woolworths、AIアシスタントを完全エージェント化──8つの「エージェンティック・ジャッジ」で全応答を審査するガバナンス設計とは

この記事のポイント

豪小売最大手Woolworthsが、ロイヤルティアプリ「Everyday」のAIアシスタント「Mandy」を完全エージェント化。接客向けの「Olive」はすでにコンタクトセンター対応の70%超を処理し、7月に社内プレビューから消費者提供へ移行します
核心は、全応答を顧客到達前に自動検証する8つの自社製「エージェンティック・ジャッジ」。数値再計算・法令チェック・目的達成検証を別レイヤーで回す、本番運用のハルシネーション対策アーキテクチャです
EC・小売事業者にとっては「AIエージェントを実運用に乗せる際のガバナンスをどう設計するか」の具体的な参照モデルになります

Woolworthsが「Mandy」を完全エージェント化、Oliveは7月に消費者へ

Woolworths remakes Everyday chatbot into agentic assistant

Woolworths has disclosed plans to upgrade Mandy - the AI assistant embedded in its Everyday loyalty, mobile, and insurance products - to a fully agentic system.

letsdatascience.com

豪州とアジア太平洋で小売最大手のWoolworthsが、二つのAIアシスタントを相次いでエージェント化しています。一つは接客・問い合わせ対応の「Olive」、もう一つはロイヤルティアプリ「Everyday」に組み込まれた「Mandy」です。2026年6月、同社AIカスタマーエクスペリエンス責任者のKatharyn Moger氏は「エージェンティック・ロイヤルティへ拡張することを誇りに思う」と語り、Mandyを保険・モバイルを含むEverydayブランド全体でエージェント化する方針を明らかにしました。

先行するOliveの数字が目を引きます。同社幹部によれば、Oliveはすでにコンタクトセンター対応の70%超を処理しています。そのOliveは200,000人超の社員による2か月間のテストを経て、7月にいよいよ一般の買い物客へ提供されます。基盤はGoogle CloudのGemini Enterprise for Customer Experience（GECX）。Woolworthsはこのプラットフォームを使い、Oliveを「決定論的なチャット&ボイスボット」から本格的なエージェントへと、わずか半年ほどで作り変えました。

ニュースとしては「またひとつ小売がAIアシスタントを強化した」で終わりかねません。ですが本件の価値は別のところにあります。Woolworthsは、エージェントの出力を顧客に届ける前にどう検証しているかというガバナンスの内側を、業界としては珍しく具体的に公開しました。ここが本記事で最も厚く掘り下げる部分です。

8つの「エージェンティック・ジャッジ」が全応答を審査する

AIエージェントを実運用に乗せるとき、誰もが最初にぶつかる壁が「間違った答えをそのまま顧客に出してしまう」リスクです。価格を誤る、在庫のない商品を勧める、食品アレルギーや法令表示を取りこぼす。チャットボットなら笑い話で済んでも、買い物カゴを組んで決済まで代行するエージェントでは、そのまま事故になります。

Woolworthsの回答は、モデルそのもののガードレールに頼るのではなく、応答を別のAIが審査する独立した検証レイヤーを自前で構築することでした。同社技術ディレクターのVenky Erode Sivasubramaniyam氏は、2026年4月のGoogle Cloud Next '26（ラスベガス）で、Oliveの背後で動く8つの「エージェンティック・ジャッジ」を実演しました。重要なのは、これがモデルレベルの安全機能ではなく、Woolworths自身のチームが「自社専有で」作り込んだ別レイヤーだという点です。エージェントが答えを生成すると、顧客に届く前にこれら8つのジャッジが裏側で自動的に内容を吟味します。

名指しで説明された3つのジャッジが、設計思想をよく表しています。

ナンバー・クランチャー（number cruncher）は、応答に含まれる数値の主張をすべて再計算します。最安の単価、商品価格、材料の分量、レシピの分量。「エージェントが提示する情報が、本当に正確かどうかを担保する」ためのジャッジです。エージェント本体が数字を出し、別のジャッジが電卓を叩き直して照合する。生成と検算を切り離すこの発想は、数値ハルシネーションへの実務的な処方箋になっています。

プロダクト・ディテクティブ（product detective）は、エージェントの説明文が法令・食品安全・コンプライアンス要件を満たしているかをチェックします。食品小売にとって表示規制は事業の生命線であり、ここを人手のレビューに頼らず自動化レイヤーに組み込んだ意味は小さくありません。

ゴール・ジャッジ（goal judge）は、エージェントがミッションを誤りなく完遂したかを検証します。Sivasubramaniyam氏の例えが具体的です。「『夕食用に20ドル以内でローストチキンを含むカゴを組んで』と指示したとき、エージェントが誤って25ドルで戻してきたら、ゴールは未達だ。ジャッジはそのユースケースを失敗扱いにし、即座に我々へアラートを上げる」。タスクの「それっぽい完了」と「本当の達成」を切り分け、未達を検知して人へエスカレーションする仕組みです。

なぜここまでやるのか。Sivasubramaniyam氏の言葉が答えになっています。「エージェンティック・コマースのような製品を、組織と顧客をまたいでスケールさせるには、こうしたエージェンティック・ジャッジの一群が必要になる。特に大きなオーディエンスを抱えている場合はなおさらだ」。200,000人の社員、そしてその先の数百万の買い物客という規模では、確率的に正しい応答を出すだけでは足りません。「間違いを顧客に届けない」ことを構造として保証する層が要る、という実務判断です。

なぜ「AIがAIを審査する」設計が効くのか

この8ジャッジ方式の肝は、生成と検証の責務を分離している点にあります。一つの大規模モデルに「正しく答え、かつ自分で間違いをチェックしろ」と求めるのは、答案を書いた本人に採点させるようなものです。同じ思い込みや幻覚は、自己採点ではすり抜けやすい。

Woolworthsはこれを、専門特化した審査役を複数並べることで回避しています。数値は数値専門のジャッジが、コンプライアンスは法令専門のジャッジが、目的達成は目的専門のジャッジが見る。それぞれが単一の判断軸を持つため、汎用モデルの曖昧な「だいたい合っている」よりも、合否の境界が明確になります。LLMの出力をLLMで評価する「LLM-as-a-judge」の考え方を、本番のコマース要件に落とし込んだ実装例だと捉えると分かりやすいでしょう。

EC・小売の実装担当者にとっての示唆は明快です。エージェントを顧客接点に出すなら、モデルの賢さに賭けるのではなく、出力を独立に検査する層を別建てで持つ。そしてその検査軸は「自社の事業で事故になりうる項目」から逆算する。価格計算、在庫整合、規制表示、予算や条件の達成可否。Woolworthsの3つの実名ジャッジは、そのまま多くの事業者のチェックリストに翻訳できます。検証が失敗したら顧客には出さず人へ上げる、というフェイルセーフの動線まで含めて設計されている点も見落とせません。

基盤はGoogle Cloud GECX、その先に控える「先回り提案」

OliveとMandyを支えるのは、Google Cloudが2026年1月のNRFで発表したGemini Enterprise for Customer Experience（GECX）です。ショッピングとカスタマーサービスを単一のインターフェースに統合し、検索・推論・マルチモーダル理解（音声・画像・動画）・バックエンド連携を束ねる「先回り型のデジタルコンシェルジュ」をうたいます。Woolworthsはこれをアジア太平洋で初めて採用した小売であり、米国ではKroger、Lowe's、外食のPapa Johnsも導入しています。

Cloud Next '26のOliveデモは、その実力をよく示していました。「今夜の夕食に卵とパンを何品か追加して」という指示でカゴを組み、オーガニックへの置き換え、料理写真からのレシピ認識（スパゲッティ・カルボナーラを判別して材料を投入）、節約額の提示までを一連の会話でこなしています。Sivasubramaniyam氏は「生活費の高騰で、より安い選択肢を求める人が多い」と述べ、コスト意識への対応を強調しました。

Woolworthsが次に見据えるのが「先回りした買い物カゴ」です。エージェントが毎週の定番カゴをあらかじめ組み、そこから会話を始める構想で、まだ提供前の段階にあります。データ的な根拠について同氏は「正確に引用しないでほしいが、当社の食料品のおよそ8割は繰り返し購入だと思う」と述べ、リピート購買の多さが先回り提案を支える土台だと説明しました。一方で、エージェントがユーザーの依頼前にカゴを組み始めるこの機能は、同意設計とオプトインの透明性という新しい論点を持ち込みます。推奨がどう開示されるか、プロモーション商品への偏りが生じないかは、ABC Newsも未解決の問いとして指摘しています。

まとめ

Woolworthsの事例は、AIエージェントの実運用で本当に難しいのが「賢いモデルを選ぶこと」ではなく「間違いを顧客に届けない仕組みを作ること」だと、具体的な数字とアーキテクチャで示しました。8つのジャッジで全応答を審査する設計は、ハルシネーション対策とガバナンスを抽象論で終わらせない、再現可能な参照モデルです。

注目すべきは、この8ジャッジ方式がGECXの他の導入企業へ広がるか、業界の標準的なパターンになっていくか。そしてMandyの完全エージェント化と、Oliveの「先回りカゴ」が同意設計を伴ってどこまで実装されるか。コンタクトセンター対応7割という到達点は、自動化の成熟をすでに数字で語っています。自社の顧客接点でエージェントを動かす前に、「どの審査役を立てるか」を先に設計すること。Woolworthsが残した実務上の宿題は、そこにあります。

← 前の記事ExpediaがExplore 2026でAIを「成長エンジン」と宣言──Partner Centralエージェント・B2B AIツールキット・MCPサーバーの全貌次の記事 →AIコマースニュースダイジェスト（2026年6月29日）

豪Woolworths、AIアシスタントを完全エージェント化──8つの「エージェンティック・ジャッジ」で全応答を審査するガバナンス設計とは

この記事のポイント

Woolworthsが「Mandy」を完全エージェント化、Oliveは7月に消費者へ

8つの「エージェンティック・ジャッジ」が全応答を審査する

なぜ「AIがAIを審査する」設計が効くのか

基盤はGoogle Cloud GECX、その先に控える「先回り提案」

まとめ

AccentureとGoogle Cloudが提携拡大、Gemini Enterpriseで大企業のエージェンティック変革を加速

Salesforceが旧IntercomのAIエージェント「Fin」を約36億ドルで買収：問い合わせの76%を自律解決するエージェンティックAIをAgentforceへ

ケンブリッジ大学が「AIエージェントの安全性開示は危険なほど遅れている」と警告 ── セキュリティ・透明性フレームワーク構築が加速