Microsoft випустила інструмент для тестування ШІ за текстовими описами

  • Ключові деталі:
  • Розроблено новий фреймворк з відкритим кодом ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing) від Microsoft.
  • ASSERT автоматизує тестування специфічної для застосунку поведінки ШІ, перетворюючи природномовні описи на автоматизовані тести.
  • Система генерує сценарії, виконує тести, оцінює результати та дозволяє детально вивчати шляхи виконання ШІ для виявлення збоїв.
Microsoft випустила інструмент для тестування ШІ за текстовими описами 3

У сфері розробки штучного інтелекту (ШІ) спостерігається значний прогрес у створенні методів оцінки моделей, що охоплюють безпеку, відповідність вимогам, схильність до підлабузництва та узгодженість. Однак, компанії та розробники стикаються з новою, специфічною проблемою: забезпечення того, щоб їхні ШІ-системи діяли саме так, як задумано для конкретного продукту чи послуги.

Прагнучи спростити цей процес тестування, Microsoft представила ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing) – фреймворк з відкритим кодом, призначений для полегшення оцінки поведінки ШІ в контексті конкретного застосунку.

Як зазначають представники Microsoft, ASSERT дозволяє легко оцінювати специфічну для застосунків поведінку ШІ, використовуючи можливості самого штучного інтелекту для перетворення високорівневих описів цілей, політик або очікуваної поведінки, наданих природною мовою, на детальні, оцінені тести, які підлягають аналізу.

ASSERT приймає описи очікуваної поведінки та політик ШІ-моделі, перетворює їх на структурований набір допустимих і неприпустимих дій, генерує проблемні сценарії та тестові випадки, виконує їх проти цільової системи та оцінює отримані результати. Він також може записувати шляхи, якими рухалася ШІ-система, включаючи проміжні дії та виклики інструментів, що дозволяє розробникам детально вивчати причини збоїв.

Розробники можуть також надавати контекст системи, доступні інструменти та обмеження для подальшої персоналізації оцінюваних аспектів.

Наприклад, розробник може вказати, що ШІ-агент для дослідження документів не повинен надсилати електронні листи особам поза компанією, повинен надавати доступ до конфіденційної інформації лише керівникам вищої ланки та формувати стислі резюме з урахуванням попереднього контексту. ASSERT використовуватиме ці правила для генерації тестових сценаріїв, які на постійній основі перевірятимуть дотримання системою цих правил.

Microsoft випустила інструмент для тестування ШІ за текстовими описами 4

Згідно з заявою Microsoft, цей фреймворк заповнює прогалину, яку не можуть охопити загальніші оцінки, коли ШІ-моделі призначені для роботи відповідно до контексту, політик та інструментів конкретного застосунку чи продукту.

«Одним із висновків, які ми зробили, є те, що оцінка є абсолютно критичною для прийняття правильних рішень», — зазначила Сара Берд, директорка з продуктів відповідального ШІ в Microsoft. «Тому що, якщо ви не розумієте поведінки ШІ-системи, надзвичайно складно зрозуміти, чи відповідає вона стандартам вашої організації… Ми виявили, що якщо ви справді хочете мати надійну систему, вам слід оцінювати набагато більше вимірів, специфічних для застосунку».

Берд додала, що ASSERT може використовуватися для оцінки систем як на етапі розробки, так і після розгортання, а також для безперервного моніторингу.

Випуск цього інструменту відбувається на тлі поступової, але ширшої трансформації в індустрії ШІ. У міру зростання можливостей моделей, дослідники все більше зосереджуються на повторюваному тестуванні та регресійному аналізі. Такі ініціативи, як HELM від Стенфорду, AILuminate від MLCommons та групи з оцінки, як METR, вже запроваджують бенчмарки для вимірювання поведінки моделей за різних умов.

Подробиці можна знайти на сайті: techcrunch.com

Поділитися новиною:TelegramViberFacebook
No votes yet.
Please wait...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *