Изградба на систем за набљудување на LLM на GCP

Најголемиот предизвик за тимовите кои работат со LLM системи во малопродажбата е да ги идентификуваат грешките пред да се пожалат клиентите. Изградбата на систем за набљудување на овие системи на Google Cloud Platform (GCP) овозможува континуирано следење на метриките, траги и автоматизирани евалуациски процеси кои откриваат отстапувања, халуцинации и деградации.

Зошто набљудувањето на LLM во малопродажбата е различно

Традиционалното набљудување на машинско учење се фокусира на дистрибутивни отстапувања на структурираните карактеристики и следи единствена метрика како точност или RMSE. LLM системите го нарушуваат овој модел на три начини:

Неструктурирани излези: Нема вистинска етикета за "дали агентот даде добар одговор?" што доаѓа во реално време.
Тивки модуси на грешка: Халуциниран одговор за политика на враќање изгледа идентично како точен во вашата табела за латентност.
Променливи контекстуални прозорци: Ист модел се однесува различно во зависност од тоа што е во прашањето — извлечени делови, историја на сесија, резултати од алатки.

Во малопродажбата, последиците се асиметрични. Погрешно персонализирана препорака чини клик, додека халуциниран одговор за политика на враќање може да чини клиент, враќање на средства и потенцијално поврат на средства.

Стек за набљудување

Системот се гради на четири компоненти на GCP кои работат заедно:

Cloud Logging: Секое LLM инференција емитува структуриран настан кој се зачувува во Cloud Logging.
Log Router: Овие настани се пренесуваат во BigQuery.
BigQuery: Табела со партиционирани податоци која овозможува брзи евалуации.
Vertex AI Pipelines: Автоматизирани ноќни евалуации на претходниот ден.

Шема за инференциски настани

Секое LLM инференција, без разлика дали е персонализација, оркестрација на агент или RAG генерирање на одговори, создава структуриран настан кој се зачувува во Cloud Logging и се пренесува во BigQuery. Оваа единствена шема ги поттикнува сите следни процеси — табели, евалуации, фино подесување и алармирање.

Евалуациски процес

Автоматизираната евалуација се извршува ноќно врз стратифициран примерок од претходниот ден. Процесот има четири фази:

Стратифицирано земање примероци: Претерано земање на инференции со ниска доверба за да се фокусира евалуацијата каде што најверојатно ќе се појават грешки.
Автоматско пресметување на метрики: Три семејства на метрики се пресметуваат за секоја инференција.
Откривање на аномалии: По оценувањето, се пресметуваат базелини за 7 дена и се означуваат сесии каде што денешните метрики се под 2σ од базелините.

Табела за евалуација

Табелата за евалуација во Looker Studio над BigQuery покрива пет прегледи:

Дневни трендови на метрики
Детален преглед на инференции со ниска доверба
Квалитет на извлекување (RAG слој)

Алармирање

Три политики за алармирање покриваат најкритичните модуси на грешка:

Зголемување на стапката на халуцинации
Пад на основноста
Прекршување на латентноста p99

Затворање на кругот

Евалуацискиот процес не само што ги открива проблемите, туку и создава податоци за обука за следната верзија на моделот. Работниот тек за човечка ревизија овозможува експертите да ги означат излезите како точни, неточни или потребни за ревизија, што директно се внесува во задачите за фино подесување на Vertex AI.

Клучни заклучоци

Запишете го целиот контекст, не само излезот. Извлечените делови, влезовите/излезите на алатките и самодовербените оценки се она што го прави можно евалуацијата.
Користете LLM како судија за основност и кохерентност.
Претерано земање на инференции со ниска доверба.
Квалитетот на извлекување е квалитет на одговорот.
Евалуацискиот процес е вашата база за фино подесување.

Од каде да започнете

Недела 1: Инструментирајте ги вашите Cloud Run инференциски ракувачи со структуриран запис.
Недела 2: Напишете ги петте табели за табеларни прегледи.
Недела 3: Додајте ноќен Vertex AI процес за оценување на основност и халуцинации.
Недела 4: Поставете ги трите политики за алармирање на Cloud Monitoring.

Шемата е најтешкиот дел. Добијте ја правилно во првата недела и сè друго е додаток.

Изградба на систем за набљудување на LLM на GCP

Зошто набљудувањето на LLM во малопродажбата е различно

Стек за набљудување

Шема за инференциски настани

Евалуациски процес

Табела за евалуација

Алармирање

Затворање на кругот

Клучни заклучоци

Од каде да започнете

Ознаки

Прочитај повеќе

Нови технологии на NVIDIA го забрзуваат развојот на роботи

AI помага во развој на SQLite алатки, но со предизвици

SiFive добива инвестиција од 400 милиони долари

Астронаути успешно се вратија од мисија околу Месечината