AI-Терміни, які ви чули: Час розібратися!

Ключові деталі:

Сфера штучного інтелекту стрімко розвивається, породжуючи нову термінологію, яка може бентежити навіть досвідчених фахівців.
Цей глосарій покликаний роз’яснити ключові терміни, що стосуються ШІ, від фундаментальних понять до сучасних розробок.
Матеріал регулярно оновлюється, щоб відображати динамічний характер галузі ШІ.

AI-Терміни, які ви чули: Час розібратися! 2

Штучний інтелект трансформує світ, одночасно винаходячи абсолютно нову мову для його опису. Варто провести п’ять хвилин за читанням матеріалів про ШІ, і ви натрапите на LLM, RAG, RLHF та ще з десяток термінів, які можуть змусити навіть дуже ерудованих людей у сфері технологій почуватися невпевнено. Цей глосарій — наша спроба виправити це. Ми регулярно його оновлюємо відповідно до еволюції галузі, тому вважайте його живим документом, подібним до самих систем ШІ, які він описує.

AGI (Загальний Штучний Інтелект)

Штучний загальний інтелект, або AGI, — це розмите поняття. Але загалом воно стосується ШІ, який перевершує середньостатистичну людину у багатьох, якщо не в більшості, завдань. Сем Альтман, генеральний директор OpenAI, одного разу описав AGI як “еквівалент середньостатистичної людини, яку ви могли б найняти як колегу”. Водночас, статут OpenAI визначає AGI як “високоавтономні системи, що перевершують людей у більшості економічно цінних робіт”. Бачення Google DeepMind дещо відрізняється від цих двох визначень; лабораторія вважає AGI “ШІ, який щонайменше дорівнює людським можливостям у більшості когнітивних завдань”. Збентежені? Не хвилюйтеся — експерти на передовій досліджень ШІ також.

AI-агент (Агент ШІ)

AI-агент — це інструмент, який використовує технології ШІ для виконання низки завдань від вашого імені — виходячи за межі можливостей звичайного ШІ-чатбота. Це може бути подання звітів про витрати, бронювання квитків чи столиків у ресторані, або навіть написання та підтримка коду. Однак, як ми вже пояснювали, у цій сфері, що тільки формується, багато рухомих елементів, тому “AI-агент” може означати різне для різних людей. Інфраструктура також ще будується для реалізації його передбачуваних можливостей. Але базова концепція передбачає автономну систему, яка може використовувати кілька систем ШІ для виконання багатоетапних завдань.

API-ендпоінти

Розглядайте API-ендпоінти як “кнопки” на зворотному боці програмного забезпечення, які інші програми можуть натискати, щоб змусити його виконувати певні дії. Розробники використовують ці інтерфейси для створення інтеграцій — наприклад, дозволяючи одній програмі отримувати дані з іншої або даючи змогу AI-агенту безпосередньо керувати сторонніми сервісами без ручного втручання людини на кожному інтерфейсі. Більшість пристроїв “розумного дому” та підключених платформ мають ці приховані кнопки, навіть якщо звичайні користувачі їх ніколи не бачать і не взаємодіють з ними. Зі зростанням можливостей AI-агентів вони все частіше можуть самостійно знаходити та використовувати ці ендпоінти, відкриваючи потужні — і часом несподівані — можливості для автоматизації.

Ланцюжок міркувань (Chain of thought)

Отримавши просте запитання, людський мозок може відповісти, навіть не надто замислюючись — речі на кшталт “яка тварина вища, жирафа чи кішка?”. Але в багатьох випадках вам може знадобитися ручка та папір, щоб знайти правильну відповідь, оскільки існують проміжні кроки. Наприклад, якщо фермер має курей та корів, і разом у них 40 голів та 120 ніг, вам може знадобитися записати просте рівняння, щоб отримати відповідь (20 курей та 20 корів).

У контексті ШІ, “ланцюжок міркувань” для великих мовних моделей означає розбиття проблеми на менші, проміжні кроки для підвищення якості кінцевого результату. Зазвичай це займає більше часу для отримання відповіді, але відповідь, швидше за все, буде правильною, особливо в логічному або кодовому контексті. Моделі міркувань розробляються на основі традиційних великих мовних моделей та оптимізуються для “ланцюжка міркувань” завдяки навчанню з підкріпленням.

(Див.: Великі мовні моделі)

Кодові агенти (Coding agents)

Це більш специфічна концепція, ніж “AI-агент”, що означає програму, яка може самостійно виконувати дії, крок за кроком, для досягнення мети. Кодовий агент — це спеціалізована версія, застосована до розробки програмного забезпечення. Замість того, щоб просто пропонувати код для перегляду та вставки людиною, кодовий агент може автономно писати, тестувати та відлагоджувати код, обробляючи ітеративну роботу методом спроб і помилок, яка зазвичай займає день розробника. Ці агенти можуть працювати з усім кодом, виявляти помилки, запускати тести та виправляти їх з мінімальним наглядом з боку людини. Уявіть собі це як найм дуже швидкого стажера, який ніколи не спить і ніколи не втрачає концентрації — хоча, як і з будь-яким стажером, людина все одно повинна перевіряти роботу.

Обчислення (Compute)

Хоча це дещо багатозначний термін, “обчислення” загалом стосується життєво важливої обчислювальної потужності, яка дозволяє моделям ШІ працювати. Цей тип обробки живить індустрію ШІ, надаючи їй можливість навчати та розгортати свої потужні моделі. Термін часто є скороченням для видів апаратного забезпечення, що забезпечують обчислювальну потужність — таких як GPU, CPU, TPU та інші форми інфраструктури, які складають основу сучасної індустрії ШІ.

Глибоке навчання (Deep learning)

Підмножина самокерованого машинного навчання, в якій алгоритми ШІ розроблені з багатошаровою структурою штучної нейронної мережі (ANN). Це дозволяє їм робити більш складні кореляції порівняно з простішими системами на основі машинного навчання, такими як лінійні моделі або дерева рішень. Структура алгоритмів глибокого навчання натхненна взаємопов’язаними шляхами нейронів у людському мозку.

Моделі ШІ глибокого навчання здатні самостійно визначати важливі характеристики в даних, замість того, щоб вимагати від інженерів-людей визначати ці ознаки. Структура також підтримує алгоритми, які можуть навчатися на помилках і, через процес повторення та коригування, покращувати власні результати. Однак, системи глибокого навчання вимагають багато точок даних для досягнення хороших результатів (мільйони або більше). Вони також зазвичай потребують більше часу для навчання порівняно з простішими алгоритмами машинного навчання — тому витрати на розробку, як правило, вищі.

(Див.: Нейронна мережа)

Дифузія (Diffusion)

Дифузія — це технологія, що лежить в основі багатьох моделей ШІ для генерації мистецтва, музики та тексту. Натхненні фізикою, системи дифузії повільно “руйнують” структуру даних — наприклад, фотографій, пісень тощо — додаючи шум, доки нічого не залишиться. У фізиці дифузія спонтанна та незворотна — цукор, що дифундував у каві, не можна відновити до форми кубика. Але системи дифузії в ШІ прагнуть вивчити своєрідний процес “зворотної дифузії”, щоб відновити зруйновані дані, набуваючи здатності відновлювати дані з шуму.

Дистиляція (Distillation)

Дистиляція — це техніка, що використовується для вилучення знань з великої моделі ШІ за допомогою моделі “вчитель-учень”. Розробники надсилають запити до моделі-вчителя та записують результати. Іноді відповіді порівнюються з набором даних, щоб перевірити їхню точність. Ці результати потім використовуються для навчання моделі-учнів, яка навчається імітувати поведінку вчителя.

Дистиляція може використовуватися для створення меншої, більш ефективної моделі на основі більшої моделі з мінімальними втратами дистиляції. Ймовірно, саме так OpenAI розробила GPT-4 Turbo — швидшу версію GPT-4.

Хоча всі компанії, що займаються ШІ, використовують дистиляцію внутрішньо, деякі з них могли також використовувати її, щоб наздогнати передові моделі. Дистиляція від конкурента зазвичай порушує умови використання API та чат-асистентів ШІ.

Тонке налаштування (Fine-tuning)

Це стосується подальшого навчання моделі ШІ для оптимізації її продуктивності для більш специфічного завдання чи галузі, ніж раніше було фокусом її навчання — зазвичай шляхом подання нових, спеціалізованих (тобто орієнтованих на завдання) даних.

Багато стартапів у галузі ШІ беруть великі мовні моделі як відправну точку для створення комерційного продукту, але прагнуть підвищити його корисність для цільового сектору чи завдання, доповнюючи ранні цикли навчання тонким налаштуванням на основі власних галузевих знань та досвіду.

(Див.: Великі мовні моделі [LLM])

GAN (Генеративно-змагальні мережі)

GAN, або генеративно-змагальна мережа, — це тип фреймворку машинного навчання, який лежить в основі деяких важливих розробок у галузі генеративного ШІ для створення реалістичних даних — включаючи (але не обмежуючись) інструменти для створення діпфейків. GAN передбачають використання пари нейронних мереж, одна з яких використовує свої навчальні дані для генерації виходу, який передається іншій моделі для оцінки.

Дві моделі, по суті, запрограмовані на те, щоб перевершити одна одну. Генератор намагається пропустити свій вихід через дискримінатор, тоді як дискримінатор працює над виявленням штучно згенерованих даних. Цей структурований конкурс може оптимізувати виходи ШІ, роблячи їх більш реалістичними без необхідності додаткового людського втручання. Хоча GAN найкраще працюють для вузьких застосувань (таких як створення реалістичних фотографій чи відео), а не для загального ШІ.

Галюцинація (Hallucination)

“Галюцинація” — це термін, який галузь ШІ віддає перевагу для опису випадків, коли моделі ШІ вигадують інформацію — буквально генерують неточні дані. Очевидно, це величезна проблема для якості ШІ.

Галюцинації призводять до того, що результати GenAI можуть вводити в оману і навіть призводити до реальних ризиків — з потенційно небезпечними наслідками (уявіть собі запит про здоров’я, який видає шкідливі медичні поради).

Вважається, що проблема вигадування інформації ШІ виникає внаслідок прогалин у навчальних даних. Галюцинації сприяють розвитку все більш спеціалізованих та/або вертикальних моделей ШІ — тобто специфічних для домену ШІ, які потребують вужчої експертизи — як способу зменшити ймовірність прогалин у знаннях та скоротити ризики дезінформації.

Виведення (Inference)

Виведення — це процес запуску моделі ШІ. Це дозволяє моделі робити прогнози або висновки на основі раніше побачених даних. Важливо розуміти, що виведення не може відбутися без навчання; модель повинна вивчити закономірності в наборі даних, перш ніж вона зможе ефективно екстраполювати з цих навчальних даних.

Багато типів апаратного забезпечення можуть виконувати виведення, від процесорів смартфонів до потужних GPU та спеціально розроблених прискорювачів ШІ. Але не всі з них можуть однаково добре запускати моделі. Дуже великі моделі займуть вічність, щоб робити прогнози, скажімо, на ноутбуці, порівняно з хмарним сервером з висококласними чіпами ШІ.

[Див.: Навчання]

Велика мовна модель (LLM)

Великі мовні моделі, або LLM, — це моделі ШІ, які використовуються популярними AI-асистентами, такими як ChatGPT, Claude, Gemini від Google, Llama від Meta, Copilot від Microsoft або Le Chat від Mistral. Коли ви спілкуєтеся з AI-асистентом, ви взаємодієте з великою мовною моделлю, яка обробляє ваш запит безпосередньо або за допомогою різних доступних інструментів, таких як веб-браузер або інтерпретатори коду.

LLM — це глибокі нейронні мережі, що складаються з мільярдів числових параметрів (або ваг, див. нижче), які вивчають взаємозв’язки між словами та фразами і створюють представлення мови, своєрідну багатовимірну карту слів.

Ці моделі створюються шляхом кодування закономірностей, знайдених у мільярдах книг, статей та транскрипцій. Коли ви даєте запит LLM, модель генерує найбільш імовірний шаблон, що відповідає запиту.

(Див.: Нейронна мережа)

Кеш пам’яті (Memory cache)

Кеш пам’яті — це важливий процес, що прискорює виведення (тобто процес, за допомогою якого ШІ генерує відповідь на запит користувача). По суті, кешування — це техніка оптимізації, призначена для підвищення ефективності виведення. ШІ, очевидно, керується високооктановими математичними розрахунками, і щоразу, коли ці розрахунки виконуються, вони споживають більше енергії. Кешування призначене для зменшення кількості розрахунків, які може знадобитися виконати моделі, зберігаючи певні розрахунки для майбутніх запитів користувачів та операцій. Існують різні види кешування пам’яті, хоча одним з найбільш відомих є кешування KV (ключ-значення). Кешування KV працює в моделях на основі трансформерів і підвищує ефективність, забезпечуючи швидші результати шляхом зменшення часу (і алгоритмічних зусиль), необхідних для генерації відповідей на запитання користувачів.

(Див.: Виведення)

Нейронна мережа (Neural network)

Нейронна мережа — це багатошарова алгоритмічна структура, яка лежить в основі глибокого навчання — і, ширше, всього буму генеративних інструментів ШІ, що послідував за появою великих мовних моделей.

Хоча ідея натхнення щільно взаємопов’язаними шляхами людського мозку як структури дизайну для алгоритмів обробки даних сягає 1940-х років, саме недавній підйом графічних процесорних пристроїв (GPU) — завдяки індустрії відеоігор — справді розкрив силу цієї теорії. Ці чіпи виявилися добре придатними для навчання алгоритмів з набагато більшою кількістю шарів, ніж було можливо в попередні епохи — дозволяючи системам ШІ на основі нейронних мереж досягати значно кращої продуктивності в багатьох доменах, включаючи розпізнавання голосу, автономну навігацію та відкриття ліків.

(Див.: Великі мовні моделі [LLM])

Відкритий код (Open source)

Відкритий код — це програмне забезпечення — або, все частіше, моделі ШІ — чий базовий код робиться загальнодоступним для будь-кого для використання, перегляду або модифікації. У світі ШІ сімейство моделей Llama від Meta є яскравим прикладом; Linux є відомим історичним паралелем в операційних системах. Підходи з відкритим кодом дозволяють дослідникам, розробникам та компаніям по всьому світу будувати на основі роботи один одного, прискорюючи прогрес та забезпечуючи незалежні аудити безпеки, які закриті системи не можуть легко надати. Закритий код означає, що код є приватним — ви можете використовувати продукт, але не бачити, як він працює, як у випадку з моделями GPT від OpenAI — розбіжність, яка стала одним з визначальних дебатів у галузі ШІ.

Паралелізація (Parallelization)

Паралелізація означає виконання багатьох завдань одночасно, а не послідовно — наче 10 співробітників працюють над різними частинами проекту одночасно, замість того, щоб один співробітник робив усе послідовно. В ШІ паралелізація є фундаментальною як для навчання, так і для виведення: сучасні GPU спеціально розроблені для виконання тисяч обчислень паралельно, що є великою причиною, чому вони стали апаратним фундаментом індустрії. Зі зростанням складності систем ШІ та збільшенням розмірів моделей, здатність паралелізувати роботу на багатьох чіпах та багатьох машинах стала одним з найважливіших факторів, що визначають, наскільки швидко та ефективно моделі можуть бути побудовані та розгорнуті. Дослідження кращих стратегій паралелізації тепер є самостійним напрямком дослідження.

RAMageddon (Криза RAM)

RAMageddon — це веселий новий термін для не надто веселої тенденції, що охоплює технологічну індустрію: постійний дефіцит мікросхем оперативної пам’яті (RAM), які живлять практично всі технологічні продукти, якими ми користуємося щодня. Оскільки індустрія ШІ розцвіла, найбільші технологічні компанії та лабораторії ШІ — всі змагаються за найпотужніший та найефективніший ШІ — купують так багато RAM для живлення своїх дата-центрів, що для решти з нас майже нічого не залишається. І цей вузький прохід у постачанні означає, що те, що залишається, стає все дорожчим.

Це стосується таких галузей, як ігри (де великі компанії змушені підвищувати ціни на консолі, оскільки важче знайти чіпи пам’яті для їхніх пристроїв), споживча електроніка (де дефіцит пам’яті може спричинити найбільше падіння поставок смартфонів за понад десятиліття) та загальні корпоративні обчислення (оскільки ці компанії не можуть отримати достатньо RAM для власних дата-центрів). Зростання цін, як очікується, припиниться лише після закінчення жахливого дефіциту, але, на жаль, немає жодних ознак того, що це станеться найближчим часом.

Рекурсивне самовдосконалення (Recursive self-improvement)

Подібно до AGI, рекурсивне самовдосконалення — це поріг того, наскільки розумним може стати ШІ, і наскільки мало він може залежати від людей. У сценарії RSI моделі ШІ починають вдосконалювати себе без людського втручання, що призводить до величезного прискорення можливостей та автономності. У деяких описах це буде катастрофічний момент, подібний до сингулярності, момент, коли моделі ШІ стануть невразливими до зовнішнього втручання. Але RSI також описує базову можливість — чи може модель ШІ розробити свого власного наступника? — що робить її набагато легшою для інженерів, які намагаються її створити. Кілька нещодавніх стартапів у галузі ШІ прагнуть створити рекурсивно самовдосконалювані моделі, але більшість з них відкидають апокаліптичні наслідки, представляючи RSI просто як наступний кордон для досліджень.

Навчання з підкріпленням (Reinforcement learning)

Навчання з підкріпленням — це спосіб навчання ШІ, де система вчиться, пробуючи різні речі та отримуючи винагороди за правильні відповіді — подібно до дресирування улюбленого вихованця ласощами, тільки “вихованець” у цьому сценарії — це нейронна мережа, а “ласощі” — це математичний сигнал, що вказує на успіх. На відміну від керованого навчання, де модель навчається на фіксованому наборі розмічених прикладів, навчання з підкріпленням дозволяє моделі досліджувати своє середовище, робити дії та постійно оновлювати свою поведінку на основі отриманого зворотного зв’язку. Цей підхід виявився особливо потужним для навчання ШІ грати в ігри, керувати роботами, а останнім часом — для загострення здатності до міркувань великих мовних моделей. Такі методи, як навчання з підкріпленням на основі зворотного зв’язку від людини, або RLHF, зараз є центральними для того, як провідні лабораторії ШІ тонко налаштовують свої моделі, щоб вони були більш корисними, точними та безпечними.

Токен (Token)

Коли йдеться про комунікацію між людиною та машиною, існують певні очевидні виклики — люди спілкуються за допомогою людської мови, тоді як програми ШІ виконують завдання через складні алгоритмічні процеси, що базуються на даних. Токени долають цей розрив: вони є основними будівельними блоками комунікації людини та ШІ, представляючи окремі сегменти даних, які були оброблені або створені LLM. Вони створюються шляхом процесу, який називається токенізацією, що розбиває необроблений текст на невеликі одиниці, які мовна модель може засвоїти, подібно до того, як компілятор перетворює людську мову на двійковий код, зрозумілий комп’ютеру. В корпоративному середовищі токени також визначають вартість — більшість компаній, що займаються ШІ, стягують плату за використання LLM на основі токенів, що означає, чим більше бізнес використовує, тим більше він платить.

Пропускна здатність токенів (Token throughput)

Отже, знову ж таки, токени — це невеликі шматки тексту — часто частини слів, а не цілі слова — на які мовні моделі ШІ розбивають мову перед її обробкою; вони приблизно аналогічні “словам” для розуміння робочих навантажень ШІ. Пропускна здатність означає, скільки можна обробити за певний період часу, тому пропускна здатність токенів — це, по суті, міра того, скільки роботи ШІ може виконати система одночасно. Висока пропускна здатність токенів є ключовою метою для команд, що займаються інфраструктурою ШІ, оскільки вона визначає, скільком користувачам модель може одночасно обслуговувати та як швидко кожен з них отримує відповідь. Дослідник ШІ Андрій Карпатій описував відчуття тривоги, коли його ШІ-підписки простоюють — відгукуючись на відчуття, яке він мав як аспірант, коли дороге комп’ютерне обладнання не використовувалося повною мірою — почуття, яке відображає, чому максимізація пропускної здатності токенів стала майже одержимістю в цій галузі.

Навчання (Training)

Розробка машинного навчання ШІ включає процес, відомий як навчання. Простими словами, це означає подання даних, щоб модель могла навчатися на основі закономірностей та генерувати корисні результати. По суті, це процес, коли система реагує на характеристики в даних, що дозволяє їй адаптувати результати до бажаної мети — чи то розпізнавання зображень котів, чи то створення хайку на вимогу.

Навчання може бути дорогим, оскільки воно вимагає багато вхідних даних, а обсяги, що вимагаються, мають тенденцію до зростання — саме тому гібридні підходи, такі як тонке налаштування ШІ на основі правил із цільовими даними, можуть допомогти керувати витратами, не починаючи повністю з нуля.

[Див.: Виведення]

Трансферне навчання (Transfer learning)

Техніка, за якою раніше навчена модель ШІ використовується як відправна точка для розробки нової моделі для іншого, але зазвичай пов’язаного завдання — дозволяючи перенести знання, отримані в попередніх циклах навчання.

Трансферне навчання може сприяти економії витрат, скорочуючи процес розробки моделі. Воно також може бути корисним, коли даних для завдання, для якого розробляється модель, відносно мало. Але важливо зазначити, що цей підхід має обмеження. Моделі, які покладаються на трансферне навчання для отримання загальних можливостей, ймовірно, потребуватимуть навчання на додаткових даних, щоб добре працювати у своїй галузі фокусування.

(Див.: Тонке налаштування)

Втрати валідації (Validation loss)

Втрати валідації — це число, яке показує, наскільки добре модель ШІ навчається під час тренування — і чим менше, тим краще. Дослідники уважно відстежують його як своєрідний звіт у реальному часі, використовуючи його для визначення, коли зупинити тренування, коли налаштувати гіперпараметри, або чи варто досліджувати потенційну проблему. Однією з ключових проблем, яку він допомагає виявити, є перенавчання (overfitting) — стан, коли модель запам’ятовує свої навчальні дані, а не справді вивчає закономірності, які вона може узагальнити на нові ситуації. Уявіть це як різницю між студентом, який справді розуміє матеріал, і тим, хто просто запам’ятав минулорічний іспит — втрати валідації допомагають виявити, яким стає ваша модель.

Ваги (Weights)

Ваги є основою навчання ШІ, оскільки вони визначають, яка важливість (або вага) надається різним ознакам (або вхідним змінним) у даних, що використовуються для навчання системи — таким чином формуючи вихід моделі ШІ.

Іншими словами, ваги — це числові параметри, які визначають, що є найбільш значущим у наборі даних для даного завдання навчання. Вони досягають своєї функції шляхом множення на входи. Навчання моделі зазвичай починається з випадково призначених ваг, але в міру проходження процесу ваги коригуються, оскільки модель прагне досягти результату, який більше відповідає цільовому.

Наприклад, модель ШІ для прогнозування цін на житло, навчена на історичних даних нерухомості для цільової локації, може включати ваги для таких ознак, як кількість спалень і ванних кімнат, чи є об’єкт окремим або напівквартирним, чи є парковка, гараж тощо.

Зрештою, ваги, які модель надає кожному з цих вхідних даних, відображають, наскільки вони впливають на вартість нерухомості, на основі наданого набору даних.

Ця стаття регулярно оновлюється новою інформацією.

Подробиці можна знайти на сайті: techcrunch.com

Поділитися новиною:Telegram Viber Facebook

Читайте також:

No votes yet.

Please wait...