Методологія Як ми рахували: Деталі дослідження

Ключові висновки:

  • Дослідження базується на трьох джерелах даних: національному опитуванні 5 023 дорослих американців, адміністративній базі даних радіостанцій FCC та комп’ютерному аналізі близько 440 000 годин аудіозаписів.
  • Було ідентифіковано 4 328 основних релігійних радіостанцій, які використовують жанри “Релігійна”, “Сучасна християнська”, “Госпел” або “Іспанська християнська”.
  • Для аналізу контенту було записано та оброблено 716 626 15-хвилинних аудіозаписів, що становить майже 440 000 годин контенту.

Це дослідження релігійного радіо в Сполучених Штатах використовує три різні джерела даних із супутніми методологіями:

  • Національно репрезентативне опитування 5 023 дорослих американців, проведене з 9 по 15 червня 2025 року.
  • Зовнішня база даних адміністративної інформації для всіх наземних радіостанцій AM та FM, ліцензованих FCC, у США.
  • Комп’ютерний контент-аналіз приблизно 440 000 годин аудіо, записаного з прямих радіовещальних інтернет-трансляцій протягом липня 2025 року.

Огляд

Дані цього звіту походять з 173-ї хвилі American Trends Panel (ATP) — національно репрезентативної панелі випадково відібраних дорослих громадян США, яку проводить Pew Research Center. Опитування проводилося з 9 по 15 червня 2025 року. Загалом 5 023 учасники панелі відповіли на запитання з 5 737 відібраних респондентів, що забезпечило рівень відгуку опитування 88%.

Сукупний рівень відгуку, що враховує невідповідність під час рекрутингових опитувань та відсів учасників, становить 3%. Рівень відриву серед учасників панелі, які увійшли до опитування та завершили принаймні одне запитання, становить 1%. Похибка вибірки для повної вибірки з 5 023 респондентів становить плюс-мінус 1,6 відсоткових пункти.

Опитування включає додаткову вибірку неоіспаномовних дорослих азійського походження, щоб забезпечити більш точні оцінки думок та досвіду цієї меншої демографічної підгрупи. Групи, що додатково відбираються, зважуються назад, щоб відобразити їхні правильні пропорції в популяції.

SSRS провела опитування для Pew Research Center за допомогою онлайн-інтерв’ю (n=4 842) та живих телефонних інтерв’ю (n=181). Інтерв’ю проводилися англійською та іспанською мовами.

Щоб дізнатися більше про ATP, прочитайте «Про American Trends Panel».

Набір до панелі

З 2018 року ATP використовує адресну вибірку (ABS) для набору учасників. Лист-запрошення та попередній стимул надсилаються поштою до стратифікованої випадкової вибірки домогосподарств, відібраних із файлу послідовності доставки комп’ютерів Поштової служби США. За оцінками, цей файл Поштової служби охоплює від 90% до 98% населення. У кожному вибраному домогосподарстві для участі відбирається дорослий, у якого наступний день народження. Інші деталі протоколу набору ABS змінювалися з часом, але доступні за запитом. До 2018 року ATP набиралася за допомогою опитувань методом випадкового цифрового набору з фіксованих та мобільних телефонів, що проводилися англійською та іспанською мовами.

Національна вибірка дорослих американців набиралася до ATP приблизно раз на рік з 2014 року. У деякі роки набір включав додаткові зусилля (відомі як «додаткова вибірка») для покращення точності даних для недостатньо представлених груп. Наприклад, дорослі латиноамериканського, афроамериканського та азійського походження були додатково відібрані у 2019, 2022 та 2023 роках відповідно.

Дизайн вибірки

Загальною цільовою популяцією для цього опитування були неоінституційні особи віком від 18 років і старше, які проживають у Сполучених Штатах. Вона складалася зі стратифікованої випадкової вибірки з ATP, де неоіспаномовні дорослі азійського походження відбиралися з певністю. Решта учасників панелі відбиралися зі ставками, призначеними для забезпечення того, щоб частка респондентів у кожному страті була пропорційна її частці в популяції дорослих США, наскільки це можливо. Ваги респондентів коригуються для врахування диференціальних імовірностей вибору, як описано в розділі «Зважування» нижче.

Розробка та тестування анкети

Анкета була розроблена Pew Research Center за консультацією з SSRS. Веб-програма, що використовувалася для онлайн-респондентів, ретельно тестувалася як на ПК, так і на мобільних пристроях командою проєкту SSRS та дослідниками Pew Research Center. Команда проєкту SSRS також заповнювала тестові дані, які аналізувалися в SPSS, щоб переконатися, що логіка та рандомізації працюють належним чином перед запуском опитування.

Стимули

Усім респондентам було запропоновано пост-оплачуваний стимул за участь. Респонденти могли вибрати отримання пост-оплачуваного стимулу у формі чека або подарункового коду для Amazon.com, Target.com або Walmart.com. Суми стимулів варіювалися від 5 до 20 доларів США залежно від того, чи належить респондент до частини населення, яку важче або легше охопити. Диференційовані суми стимулів були розроблені для підвищення участі в панельних опитуваннях серед груп, які традиційно мають низьку схильність до відгуку на опитування.

Протокол збору даних

Польовий період збору даних для цього опитування тривав з 9 по 15 червня 2025 року. Опитування проводилися у формі самостійного веб-опитування або живого телефонного інтерв’ю.

Для учасників панелі, які проходять опитування онлайн: 7 Листівки з повідомленнями були надіслані підмножині 9 червня. 8 Запрошення на опитування були надіслані двома окремими запусками: м’який запуск і повний запуск. Шістдесят учасників панелі були включені в м’який запуск, який почався з початкового запрошення, надісланого 9 червня. Усі інші англомовні та іспаномовні учасники панелі, відібрані для онлайн-участі, були включені в повний запуск і отримали запрошення 10 червня.

Методологія Як ми рахували: Деталі дослідження 15

Учасникам панелі, які брали участь онлайн, надсилалося електронне запрошення та до двох електронних нагадувань, якщо вони не відповідали на опитування. Учасникам ATP, які надали згоду на отримання SMS-повідомлень, надсилалося SMS-запрошення з посиланням на опитування та до двох SMS-нагадувань.

Для учасників панелі, які проходять опитування телефоном з живим інтерв’юером: Попередні листівки були надіслані 6 червня. М’який запуск відбувся 9 червня і передбачав набір номерів до завершення семи інтерв’ю. Усі решта англомовних та іспаномовних учасників панелі, відібраних для телефонного опитування, отримали дзвінки протягом решти польового періоду. Учасники, які проходять опитування телефоном, можуть отримати до шести дзвінків від навчених інтерв’юерів SSRS.

Перевірка якості даних

Для забезпечення високої якості даних дослідники Центру проводили перевірку якості даних для виявлення респондентів, які демонстрували моделі задоволення. Це включало перевірку того, чи респонденти залишали запитання порожніми з дуже високою частотою, або завжди обирали першу чи останню надану відповідь. В результаті цієї перевірки три респонденти ATP були вилучені з набору даних опитування до зважування та аналізу.

Зважування

Дані ATP зважуються в процесі, який враховує кілька етапів вибірки та невідповідність, що виникають на різних етапах процесу панельного опитування. Спочатку кожен учасник панелі має базову вагу, яка відображає його ймовірність набору до панелі. Ці ваги потім калібруються відповідно до контрольних показників популяції в супровідній таблиці для виправлення невідповідності під час рекрутингових опитувань та відсіву учасників панелі. Якщо для участі в хвилі було запрошено лише підмножину учасників панелі, ця вага коригується для врахування будь-яких диференціальних імовірностей вибору.

Серед учасників, які завершили опитування, ця вага знову калібрується відповідно до контрольних показників популяції, визначених у супровідній таблиці, та обрізається на 1-му та 99-му перцентилях для зменшення втрати точності, що виникає від дисперсії ваг. Помилки вибірки та тести статистичної значущості враховують вплив зважування.

Методологія Як ми рахували: Деталі дослідження 16

Наступна таблиця показує незважені розміри вибірок та похибку, що виникає внаслідок вибірки, яку можна було б очікувати на 95% рівні довіри для різних груп у опитуванні.

Методологія Як ми рахували: Деталі дослідження 17

Розміри вибірки та похибки вибірки для інших підгруп доступні за запитом. На додаток до похибки вибірки, слід пам’ятати, що формулювання запитань та практичні труднощі у проведенні опитувань можуть внести помилку або упередженість у результати опитувань громадської думки.

Розподіл та рівні відгуку

Методологія Як ми рахували: Деталі дослідження 18
Методологія Як ми рахували: Деталі дослідження 19

Визначення релігійних радіостанцій

Щоб визначити популяцію релігійних радіостанцій, що мовлять по всій території Сполучених Штатів, ми використовували дані від Radio-Locator, постачальника, що спеціалізується на актуальних адміністративних даних про радіостанції США та міжнародні станції. Radio-Locator використовує інформацію з ліцензій FCC для підтримки бази даних наземних радіостанцій, включаючи деталі, такі як місцезнаходження станції, позивний, діапазон і частота, а також власник чи ліцензіат. Ці дані на рівні станції доповнюються додатковими полями, включаючи основний жанр станції, веб-сайт, URL потоку живого аудіо та зону покриття. Для цього аналізу ми використовували знімок бази даних Radio-Locator станом на березень 2025 року.

База даних Radio-Locator містить 25 753 станції, розташовані в 50 штатах США та окрузі Колумбія. З них 17 115 є основними станціями, що мовлять у діапазоні AM або FM, і ще 8 638 є вторинними станціями «бустер» або «транслятор», які розширюють або ретранслюють основну станцію. У цьому дослідженні ми включаємо станції бустерів та трансляторів при оцінці географічного покриття, але фільтруємо дані, включаючи лише основні станції для решти аналізу.

Методологія Як ми рахували: Деталі дослідження 20

Усім станціям у базі даних Radio-Locator присвоєно мітку жанру, що вказує на тип контенту, який переважно складає розклад мовлення станції. Ми вважаємо станцію «релігійною», якщо її контент класифікується як «Релігійна», «Сучасна християнська», «Госпел» або «Іспанська християнська». Загалом, таких станцій у базі даних 7 366, з яких 4 328 є основними станціями, включеними до основного аналізу. Станції, класифіковані як «Іспанська християнська», були включені до всіх аналізів адміністративних даних, включаючи географічне покриття, але виключені з аналізу контенту живого радіо.

Популяція релігійних станцій була додатково валідована двома способами:

  • Дослідники переглядали веб-сайти станцій та записували інформацію про релігійну традицію станції з будь-яких доступних заяв «Про нас». Докладніше про те, як ми аналізували веб-сайти станцій, див. нижче.
  • На етапі контент-аналізу дослідження дослідники підтвердили, що всі станції з наявним записаним контентом мали ненульову кількість розмовної контенту, класифікованого під темою «Релігія», або музику від ідентифікованих релігійних виконавців. Докладніше про те, як ми класифікували розмовний контент та ідентифікували музику, див. нижче. 9

Цей звіт зосереджується на радіостанціях з переважно релігійним програмуванням, і на рівні станції переважна більшість релігійного радіо в США є християнською. Ми зіткнулися лише з двома станціями, які можна було однозначно ідентифікувати як частину іншої релігійної традиції: низькопотужна FM-станція в Лейквуді, Нью-Джерсі, керована єврейською організацією (WMDI-LP) та AM-станція в Спейніш-Форк, Юта, керована храмом Харе Крішна (KHQN).

Інший релігійний контент також може з’являтися як переривчасте програмування на інших громадських, розмовних або komunitas-радіостанціях. Однак, оскільки ці станції не транслюють релігійний контент як основний жанр свого програмування, вони не враховуються в цьому аналізі.

Аналіз веб-сайтів станцій

Для кожної з 3 332 станцій з доступним веб-сайтом (85% включених станцій) дослідники записували доступну інформацію про саму станцію, релігійну традицію чи конфесію, пов’язану зі станцією, та будь-які заяви «Про нас» чи подібний текст.

Ми також кодували повні розклади мовлення вибірки з 300 станцій, випадково відібраних з тих, що мають як веб-сайт, так і URL потоку аудіо. Дослідники отримали доступ до 24-годинного розкладу мовлення кожної станції та розділили його на 15-хвилинні часові блоки. Вони записували назви програм, інформацію про ведучих, тип програми (розмовна чи музична) та час початку й закінчення з точністю до найближчих 15 хвилин. 10 Збиралася інформація про розклад за сім днів для кожної відібраної станції.

Якщо розклад мовлення змінювався тиждень за тижнем або місяць за місяцем, кодувальники отримували інструкції вводити розклад за другий тиждень липня 2025 року, якщо він був доступний. Якщо розклад за липень 2025 року був недоступний, вони використовували розклад за поточний тиждень на момент кодування (квітень-травень 2025 року).

Цей процес дав детальну інформацію про названі програми, які з’являються в опублікованих розкладах мовлення станцій, що використовувалося для оцінки того, які програми з’являються на найбільшій кількості станцій.

Запис інтернет-трансляцій з релігійних радіостанцій

Щоб краще зрозуміти зміст релігійних радіопередач, ми провели великомасштабний запис, транскрипцію та аналіз інтернет-радіопотоків з 2 083 релігійних радіостанцій з переважно англомовним контентом, які транслюють свої прямі трансляції онлайн. Часто буває так, що група окремих станцій використовує один і той самий потік прямої трансляції, тому цей набір з 2 083 станцій представлений набором з 785 унікальних URL-адрес потоків.

Вибірка часових рамок для запису

Для цього дослідження ми мали обчислювальні потужності для одночасного моніторингу, запису та обробки 250 аудіопотоків. Замість того, щоб вибирати підмножину популяції станцій, які транслюються онлайн — записуючи деякі станції цілодобово протягом вікна збору даних, — ми записували в 15-хвилинних часових блоках, рівномірно розподілених по всіх доступних веб-потоках — записуючи всі станції частину часу.

Наше вікно збору даних було місяцем липень 2025 року. Ми запланували 250 блоків запису кожні 15 хвилин, 24 години на добу протягом усього місяця. Це становить 24 000 записів на день, загалом 744 000 за 31 день липня. Щоб максимізувати охоплення в межах цих параметрів, у випадках, коли кілька станцій використовували один і той самий потік трансляції, ми включали його один раз (а не кілька разів) у вибірку, а потім призначали записи з цього потоку всім станціям, які використовували його URL. В середньому, веб-потік кожної станції був запланований приблизно на 237 годин виділеного часу запису протягом вікна збору даних.

Інфраструктура запису

Примітка щодо станцій Educational Media Foundation

Educational Media Foundation (EMF) є найбільшою групою власників релігійного радіо в Америці, яка керує мережами станцій Air1 та K-LOVE. Вони переважно транслюють християнську музику. Онлайн-прослуховування на вимогу доступне для обох мереж Air1 та K-LOVE. Однак ці потоки доставляються через пропрієтарні веб-програвачі та мобільні додатки, які не надають загальнодоступних URL-адрес потоків, які можна було б надійно інтегрувати до нашої системи автоматичного запису.

Оскільки наша інфраструктура запису покладалася на FFmpeg для прямого підключення до запланованих URL-адрес потоків через фіксовані інтервали, ми не змогли послідовно та автоматизовано захоплювати аудіо зі станцій Air1 та K-LOVE. В результаті вони були виключені зі збору записаного контенту та подальшого аналізу контенту. Вони включені до аналізів, заснованих на адміністративних даних, таких як кількість станцій та географічне покриття.

Для завершення цього збору даних у необхідному масштабі ми розробили та розгорнули кластер з 250 контейнеризованих програм-слухачів потоків. Кожен слухач працював за виділеним розкладом, який визначав потік трансляції, до якого він підключався під час кожного 15-хвилинного слоту запису. На початку часового слоту призначений слухач підключався до запланованого URL і обробляв вхідні аудіодані за допомогою програмного забезпечення мультимедійного фреймворку FFmpeg. Через 15 хвилин слухач відключався від URL потоку та зберігав записаний аудіофайл як MP3 з низькою бітрейтом (64 кбіт/с).

Використовуючи цю процедуру, ми успішно записали та обробили загалом 716 626 15-хвилинних записів – 96% запланованих часових слотів, які ми намагалися захопити. Це становить приблизно 230 годин аудіо з кожного окремого URL потоку та майже 440 000 годин аудіо, враховуючи той факт, що кілька станцій спільно використовують веб-потік.

Транскрипція мовлення в текст

Кожен записаний аудіофайл проходив через конвеєр машинної транскрипції, який генерував транскрипти на рівні рядків для всього розмовного контенту. Цей конвеєр базувався на системі WhisperX, яка розширює базові моделі транскрипції мовлення в текст за допомогою диференціації дикторів (діаризації) та вирівнювання часових міток.

Наша реалізація системи WhisperX включала:

  • Моделі транскрипції whisper-large-v3-turbo від OpenAI
  • Моделі діарізації/виявлення голосової активності speaker-diarization-community-1 від pyannoteAI

Наші транскрипти на рівні рядків для кожного запису не тільки фіксують сказане, але й розбивають розмову на окремі твердження або «висловлювання», кожне з яких має часову мітку в аудіофайлі та тег з ідентифікатором диктора, щоб допомогти розрізнити різні голоси, що чути протягом запису. Коли транскрипція робиться рядок за рядком, зібране аудіо для цього дослідження складає понад 186 мільйонів рядків діалогу. Нижче наведено приклад транскрипції:

Методологія Як ми рахували: Деталі дослідження 21

Класифікація розмовного контенту в релігійних радіозаписах

Кожна приблизно 15-хвилинна радіотранскрипція передавалася великій мовній моделі (GPT-4.1) для розділення на тематично зв’язні сегменти, а не на основі фіксованих часових інтервалів або довільної кількості рядків. Оскільки транскрипти вже були діаризовані та пронумеровані за висловлюваннями, модель могла оцінювати зміни дикторів та лексичну безперервність для визначення меж цих сегментів.

Класифікатору було доручено групувати суміжні висловлювання в сегменти, які відображали спільний основний формат або комунікативну функцію (наприклад, монолог, інтерв’ю, читання новин). Дослідники валідували межі сегментів протягом процесів якісного кодування. Межі сегментів встановлювалися в точках, де відбувалася чітка зміна теми, інтерактивного формату або структури програми (наприклад, переходи до реклами, нових історій або участі викликаючих).

Для кожного отриманого сегмента модель повертала структуровані метадані, включаючи номери початкового та кінцевого рядків і описові мітки, що дозволяло проводити подальший аналіз на рівні сегментів, а не на рівні сирих транскриптів.

Прочитайте повний запит, який ми використовували для цього процесу. Конкретні створені класифікації обговорюються докладніше нижче.

Визначення форматів радіосегментів

Перший рівень класифікації стосується формату сегмента. Цей процес виявляв основний тип програмування, що відбувався в заданому сегменті, який містив мову, і додавав більш специфічні мітки контенту.

Ми почали з розробки кодексу з низкою категорій форматів, які ми очікували знайти в наших аудіозаписах. До них належали розмовне програмування, читання новин, проповіді, участь слухачів та реклама. Члени дослідницької групи класифікували вибірку сегментів. Цей процес ручного кодування включав кілька раундів ітерацій, де обговорювалися розбіжності та крайні випадки, і кодекс потім оновлювався, поки ми не фіналізували категорії форматів наступним чином:

  • Реклама/промо. Реклама або просування продукту, послуги чи події.
  • Аудіодрама/оповідання. Драматизована постановка або аудіоп’єса.
  • Взаємодія з викликаючим/участь слухачів. Ведучий або діджей взаємодіє зі слухачами. Це включає прийом дзвінків від аудиторії та читання листів або коментарів слухачів, але не включає взаємодію з гостями програми.
  • Обговорення/монолог/коментар. Один або кілька дикторів обговорюють тему або надають коментарі. Це включає типовий «розмовний радіо» контент, жарти, релігійні думки, а також обговорення або діалоги між ведучими чи діджеями.
  • Інтерв’ю. Інтерв’ю з гостем програми. Це не включає діалог між ведучими станції чи діджеями.
  • Читання новин/трафік/погода. Пряме читання новин, або місцевих дорожніх умов та погоди (наприклад, «Зараз початок години, ось Боб з новинами»). Зверніть увагу, що тривалі коментарі щодо новин або поточних подій класифікуються як обговорення/монолог/коментар.
  • Релігійні служби або проповіді. Один диктор проповідує або виступає з релігійним посланням. Це включає молитву, месу або літургію.
  • Перехід/заповнювач. Адміністративні або логістичні оголошення, включаючи вступ до програм, висновки, переходи між сегментами або ідентифікацію станції (наприклад, «Ви слухаєте 99.1 FM»).

Ці категорії форматів є взаємовиключними – тобто кожен сегмент міг бути віднесений лише до однієї категорії формату.

Після фіналізації кодексу він був інтегрований у конвеєр сегментації та обробки та переданий GPT-4.1 для класифікації форматів. Прочитайте повний запит, який ми використовували для цього процесу. Випадкова вибірка сегментів транскриптів була вручну закодована для валідації цього завдання трьома дослідниками. Розбіжності вирішувалися за допомогою моделі агрегації Dawid-Skene. Показники ефективності наведені в таблиці «Ефективність моделі: класифікація форматів».

Методологія Як ми рахували: Деталі дослідження 22

Розпізнавання іменованих сутностей

Розпізнавання іменованих сутностей (NER) – це завдання вилучення інформації, яке передбачає ідентифікацію та класифікацію слів або фраз у довгому тексті, що посилаються на реальні сутності. Як частина нашого конвеєра сегментації та обробки, ми інструктували модель виконувати NER для ідентифікації людей, груп та місць, згаданих у радіосегментах. Ми також використовували NER для позначення назв історій або книг (включаючи релігійні писання, такі як Біблія), а також посилань на конкретні уривки або вірші Писання.

Прочитайте повний запит, який ми використовували для цього процесу. Конкретні категорії та визначення NER, які ми використовували:

  • Особа. Іменна фізична особа (наприклад, «Дональд Трамп», «Папа Римський», «Ісус»). Це включає як реальних людей, так і вигаданих персонажів, а також посилання на божества в релігійному контексті (наприклад, «Святий Дух», «Небесний Отець»).
  • Група. Група людей, що згадуються колективно, але не є іменною організацією (наприклад, «збори», «аудиторія»). Це включає групи людей, що називаються за національністю (наприклад, «французи») та релігійні групи чи конфесії (наприклад, «католики», «мусульмани», «баптисти»).
  • Організація. Іменна організація чи агентство (наприклад, «Pew Research Center», «NASA», «Південна баптистська конвенція»).
  • Назва. Іменна книга, пісня, фільм, шоу або інший твір мистецтва чи медіа (наприклад, «Великий Гетсбі», «Біблія»). Це включає назви релігійних історій (наприклад, «Притча про доброго самарянина», «Нагірна проповідь»). Це не включає професійні титули (наприклад, «Президент», «Доктор», «Отець»).
  • Місце. Іменне місцезнаходження або геополітична одиниця (наприклад, «Сполучені Штати», «Нью-Йорк», «Гора Синай», «Мар-а-Лаго»).
  • Посилання на Писання. Посилання на уривок або вірш у Писанні (наприклад, «Івана 3:16», «Буття 1:1»).

Для валідації результатів NER три дослідники переглянули вибірку рядків транскрипції з ідентифікованими сутностями та незалежно закодували як прогнозовану назву сутності (наприклад, «Дональд Трамп»), так і прогнозований тип сутності (наприклад, «Особа»). Розбіжності вирішувалися за допомогою моделі агрегації Dawid-Skene. Показники ефективності наведені в таблиці «Ефективність моделі: розпізнавання іменованих сутностей».

Методологія Як ми рахували: Деталі дослідження 23

Визначення загальних тем

Ми додатково класифікували розмовні сегменти записів за темами, згаданими або обговореними в них. Ці мітки мали на меті відобразити загальні, високорівневі тематичні області, щоб ми могли широко класифікувати контент релігійного розмовного радіо.

Подібно до процесу визначення того, які формати ми будемо використовувати для класифікації сегментів, ітеративний процес ручного кодування використовувався для визначення остаточного списку тем для ідентифікації в даних. Однак, на відміну від форматів, теми не були взаємовиключними. Сегмент міг бути позначений кількома темами, які застосовуються. Остаточний набір категорій тем, що використовувалися:

  • Бізнес/економіка/фінанси. Обговорення економічних та фінансових тем, включаючи податкову чи митну політику, поради щодо особистих фінансів, фондові ринки чи інвестиції, та криптовалюту.
  • Розваги/популярна культура/спорт. Обговорення тем популярної культури, включаючи кіно, телебачення, музику, спорт та знаменитостей.
  • Сім’я/виховання дітей/освіта. Обговорення тем, пов’язаних із сім’єю, включаючи шлюб, народження дітей, догляд за дітьми, виховання дітей, школи та освітні стандарти.
  • Здоров’я/добробут. Обговорення тем, пов’язаних із добробутом, включаючи охорону здоров’я, аборти, вакцинацію, медикаменти, психічне здоров’я, фітнес та фізичні вправи.
  • Спосіб життя/поради/особистісний розвиток. Прямі та нормативні рекомендації щодо способу життя, дій чи поведінки.
  • Політика/поточні події/соціальний коментар. Обговорення або коментарі щодо тем, включаючи новини або поточні події, місцеві оновлення, політику та соціальні проблеми. Це не включає оновлення спільноти або сегменти погоди/трафіку, які не стосуються ширших політичних тем або новин.
  • Релігія. Обговорення релігійних тем, включаючи релігійні вірування, Писання та релігійних діячів.
  • Наука/технології. Обговорення тем, пов’язаних з наукою, включаючи зміну клімату та еволюцію.

Після фіналізації кодексу він був інтегрований у конвеєр сегментації та обробки та переданий GPT-4.1 для класифікації тем. Прочитайте повний запит, який ми використовували для цього процесу. Випадкова вибірка прогнозів моделі для цього завдання була вручну закодована для валідації трьома дослідниками. Розбіжності вирішувалися за допомогою моделі агрегації Dawid-Skene. Показники ефективності наведені в таблиці «Ефективність моделі: класифікація загальних тем».

Методологія Як ми рахували: Деталі дослідження 24

Визначення більш конкретних підтем

Окрім ширших тем, які ми визначили, ми додатково розглянули конкретні підтеми, що становлять інтерес. Будь-які сегменти з міткою теми «Релігія», «Політика/поточні події/соціальний коментар», «Здоров’я/добробут», «Бізнес/економіка/фінанси» або «Наука/технології» передавалися до моделі підтем.

Подібно до процесів класифікації форматів та тем, ітеративний процес ручного кодування використовувався для визначення остаточного набору підтем для ідентифікації. Як і з темами, підтеми не були взаємовиключними. Сегмент міг бути позначений кількома підтемами, які застосовуються. Ми визначили остаточний список тем як наступний:

  • Аборти. Дискусії на основі віри про моральність абортів, дебати між політичними позиціями, обговорення альтернатив абортів (наприклад, центри кризової вагітності) або клініки репродуктивного здоров’я, які зазвичай пропонують аборти, та загальні посилання на аборти, навіть якщо термін «аборт» явно не згадується. Це також включає обговорення федеральних законів або судових рішень, пов’язаних із правами на аборти (наприклад, Roe v. Wade, Dobbs v. Jackson Women’s Health) та законами штатів чи заборонами абортів. Це не включає загальні дискусії про жіноче здоров’я або репродуктивне здоров’я (наприклад, ЕКО, контроль над народжуваністю).
  • Злочинність/правоохоронна діяльність. Обговорення злочинності, правоохоронної діяльності та системи правосуддя. Це включає посилання на конкретні злочини (наприклад, у новинах або під час обговорення гучної судової справи), посилання на злочинність, хвилі злочинності, «закон і порядок» або беззаконня в абстрактному сенсі, дії поліції або інших правоохоронних органів, таких як Імміграційна та митна служба США, злочинність або знищення майна під час протестів, а також дії поліції під час протестів. Це не включає обговорення протестів у ширшому сенсі (тобто протестів, що не стосуються злочинності, знищення майна або дій поліції).
  • Економіка. Обговорення економіки або економічних умов, включаючи політику глобальної торгівлі або тарифів, «кухонні» питання (наприклад, вартість продуктів харчування або догляду за дітьми), вартість життя, інфляцію, податкову політику, безробіття, наймання або звільнення, бідність та фондовий ринок. Це не включає загальні посилання на економічний або соціальний клас (наприклад, «середній клас»).
  • Зовнішня політика/міжнародна політика. Обговорення політики США щодо інших країн, внутрішньої політики в інших країнах та міжнародної політики між іншими країнами, включаючи політику глобальної торгівлі або тарифів, а також сучасні війни та конфлікти. Це не включає обговорення історичних війн та конфліктів.
  • Імміграція. Обговорення імміграції або іммігрантів, як у контексті США, так і в глобальному контексті. Це включає дії Імміграційної та митної служби (ICE) або Прикордонної служби (CBP) (наприклад, депортація або затримання іммігрантів), дії іммігрантів та імміграційну політику.
  • Питання та права ЛГБТК+. Обговорення питань, прав та ідентичностей ЛГБТК+, включаючи пов’язані закони або судові рішення (наприклад, Obergefell v. Hodges), одностатеві шлюби, сумісність або несумісність релігії та ЛГБТК+ ідентичностей, питання, пов’язані з трансгендерними особами чи ідентичностями (наприклад, доступ до гендерно-афірмативної допомоги, заборони щодо ванних кімнат, спортивні заборони тощо), посилання на конверсійну терапію та обговорення гомофобної або трансфобної риторики чи дій.

Після фіналізації кодексу ми доопрацювали модель ModernBERT на наборі синтетичних міток тем, згенерованих GPT-4.1 для випадкової вибірки сегментів із ширшої колекції даних. Потім ми використали цю модель для подальшої класифікації решти сегментів у масштабі. Прочитайте повний запит, який ми використовували для цього процесу. Випадкова вибірка сегментів транскриптів була вручну закодована для валідації цього завдання трьома дослідниками. Розбіжності вирішувалися за допомогою моделі агрегації Dawid-Skene. Показники ефективності наведені в таблиці «Ефективність моделі: додаткова класифікація підтем».

Методологія Як ми рахували: Деталі дослідження 25

Класифікація позиції щодо питань

На додаток до класифікації сегментів за детальними підтемами та ідентифікації ключових осіб і груп, згаданих за допомогою NER, ми також хотіли оцінити ставлення дикторів до ряду ключових питань. Для цього ми розробили систему класифікації позиції, яка, враховуючи цільове питання, могла визначити, є текст про це питання нейтральним чи упередженим, і якщо упередженим, то чи висловлює диктор сприятливу чи несприятливу думку щодо питання.

Ми кодували позицію для вибору питань, осіб та груп, відібраних як з нашого процесу NER, так і з нашого процесу класифікації підтем.

  • З результатів NER ми ідентифікували згадки про Дональда Трампа, Джо Байдена, Демократичну партію та Республіканську партію. Ми також використовували результати NER для ідентифікації посилань на Ізраїль та палестинські території – але лише в сегментах з міткою підтеми «Зовнішня політика/міжнародна політика», що дозволило нам звузити наш аналіз до думок про сучасні події в регіоні, а не дискусій, пов’язаних з його біблійним контекстом.
  • З класифікацій підтем ми кодували позицію для п’яти додаткових питань: аборти, питання та права ЛГБТК+, імміграція, економіка та злочинність/правоохоронна діяльність.

Для більшості цих питань, осіб та груп ми кодували сегменти як нейтральні або упереджені, а упереджений текст додатково кодувався як сприятливий/несприятливий щодо предмета. Підтеми «Злочинність/правоохоронна діяльність» та «Економіка» не так легко відображаються на конкретних позиціях, тому вони кодувалися лише як нейтральні або упереджені.

Повний набір питань, осіб та груп, проаналізованих на позицію:

  • Дональд Трамп: Нейтральне висвітлення включає сегменти, які згадують Трампа, його дії або дії його адміністрації у фактичному, ціннісно-нейтральному ключі. Упереджене висвітлення включає сегменти, які висловлюють позицію щодо Трампа, його дій або дій його адміністрації. Якщо диктор вказує, що його позиція узгоджується з Трампом або підтримує його, сегмент кодується як сприятливий. Якщо він висловлює незгоду або критику, сегмент кодується як несприятливий.
  • Джо Байден: Нейтральне висвітлення включає сегменти, які згадують Байдена, його дії або дії його адміністрації у фактичному, ціннісно-нейтральному ключі, включаючи ретроспективні посилання на його президентство. Упереджене висвітлення включає сегменти, які висловлюють позицію щодо Байдена, його дій або дій його адміністрації. Якщо диктор вказує, що його позиція узгоджується з Байденом або підтримує його чи його адміністрацію, сегмент кодується як сприятливий. Якщо він висловлює незгоду або критику, сегмент кодується як несприятливий.
  • Республіканська партія: Нейтральне висвітлення включає сегменти, які згадують Республіканську партію за назвою та обговорюють її членів, керівництво, платформу або дії у фактичному, ціннісно-нейтральному ключі. Упереджене висвітлення включає сегменти, які висловлюють позицію щодо Республіканської партії, включаючи оцінки її обраних посадовців, політичних позицій, виборчих результатів або загального напрямку. Якщо диктор вказує, що його позиція узгоджується з Республіканською партією або підтримує її, сегмент кодується як сприятливий щодо партії. Якщо він висловлює незгоду, критику або несхвалення, сегмент кодується як несприятливий щодо партії.
  • Демократична партія: Нейтральне висвітлення включає сегменти, які згадують Демократичну партію за назвою та обговорюють її членів, керівництво, платформу або дії у фактичному, ціннісно-нейтральному ключі. Упереджене висвітлення включає сегменти, які висловлюють позицію щодо Демократичної партії, включаючи оцінки її обраних посадовців, політичних позицій, виборчих результатів або загального напрямку. Якщо диктор вказує, що його позиція узгоджується з Демократичною партією або підтримує її, сегмент кодується як сприятливий щодо партії. Якщо він висловлює незгоду, критику або несхвалення, сегмент кодується як несприятливий щодо партії.
  • Ізраїль: Нейтральне висвітлення включає сегменти, які згадують Ізраїль, ізраїльський уряд або ізраїльські дії у фактичному, ціннісно-нейтральному ключі, включаючи опис триваючих бойових дій, дипломатичної активності або інших зовнішньополітичних подій. Упереджене висвітлення включає сегменти, які висловлюють позицію щодо Ізраїлю або дій його уряду чи військових, включаючи перебіг війни між Ізраїлем та ХАМАС та ширші політичні питання, пов’язані з конфліктом. Якщо диктор вказує, що його позиція узгоджується з Ізраїлем або його діями, підтримує їх чи співчуває їм, сегмент кодується як сприятливий щодо Ізраїлю. Якщо диктор висловлює критику або несхвалення щодо Ізраїлю або його дій, сегмент кодується як несприятливий щодо Ізраїлю.
  • Палестинські території: Нейтральне висвітлення включає сегменти, які згадують палестинські території, керівні органи або палестинський народ у фактичному, ціннісно-нейтральному ключі, включаючи опис триваючих бойових дій, дипломатичної активності або інших зовнішньополітичних подій. Упереджене висвітлення включає сегменти, які висловлюють позицію щодо палестинських територій, органів влади або палестинського народу, включаючи перебіг війни між Ізраїлем та ХАМАС та ширші політичні питання, пов’язані з конфліктом. Якщо диктор вказує, що його позиція узгоджується з палестинськими територіями чи народом, підтримує їх або співчуває їм, сегмент кодується як сприятливий щодо палестинських територій. Якщо диктор висловлює критику або несхвалення щодо палестинських територій чи народу, сегмент кодується як несприятливий щодо палестинських територій.
  • Аборти: Нейтральне висвітлення включає сегменти, які згадують аборти, права на аборти, законодавство, судові справи, балотування або пов’язані медичні процедури у фактичному, ціннісно-нейтральному ключі. Упереджене висвітлення включає сегменти, які висловлюють позицію щодо законності, моральності, доступності або регулювання абортів, або які виступають за конкретні політики щодо абортів. Якщо диктор висловлює позицію на підтримку прав на аборти або доступу до абортів, сегмент кодується як сприятливий щодо прав на аборти. Якщо диктор висловлює позицію проти абортів або за обмеження чи заборони, сегмент кодується як несприятливий щодо прав на аборти.
  • Питання та права ЛГБТК+: Нейтральне висвітлення включає сегменти, які згадують ЛГБТК+ осіб, питання, права, законодавство, судові справи, публічні дебати або пов’язані політики у фактичному, ціннісно-нейтральному ключі. Упереджене висвітлення включає сегменти, які висловлюють позицію щодо прав ЛГБТК+, правових захистів, соціальної прийнятності, освітньої політики, гендерної ідентичності та пов’язаної політики, або інших питань, що стосуються ЛГБТК+ осіб. Якщо диктор вказує на підтримку прав ЛГБТК+, захистів або соціальної прийнятності, сегмент кодується як сприятливий. Якщо диктор висловлює незгоду з правами ЛГБТК+, виступає за обмеження захистів чи визнання, або негативно характеризує ЛГБТК+ ідентичності чи політики, сегмент кодується як несприятливий.
  • Імміграція: Нейтральне висвітлення включає сегменти, які згадують імміграцію, мігрантів, перетини кордону, процеси надання притулку, депортації або пов’язані політики у фактичному, ціннісно-нейтральному ключі. Упереджене висвітлення включає сегменти, які висловлюють позицію щодо рівня імміграції, прикордонного контролю, політики депортації, шляхів до легального статусу чи громадянства, або ширших соціальних та економічних наслідків імміграції. Якщо диктор співчуває іммігрантським спільнотам або представляє імміграцію як вигідну, бажану, або таку, що повинна підтримуватися або розширюватися, сегмент кодується як сприятливий. Якщо диктор представляє імміграцію як шкідливу, загрозливу, або таку, що повинна обмежуватися чи скорочуватися, сегмент кодується як несприятливий.
  • Економіка: Нейтральне висвітлення включає сегменти, які обговорюють економіку або економічні умови у фактичному, ціннісно-нейтральному ключі. Це може включати макроекономічні дискусії, а також «кухонні» питання. У упередженому висвітленні диктор займає позицію, яка може включати думку про загальний стан або напрямок економіки, твердження за або проти певної економічної політики, або поради щодо того, як окремі споживачі повинні адаптуватися до економічних умов. (Упереджене висвітлення економіки не було далі розмежоване як сприятливе чи несприятливе.)
  • Злочинність/правоохоронна діяльність: Нейтральне висвітлення включає сегменти, які обговорюють злочинність, правоохоронну діяльність або систему правосуддя у фактичному, ціннісно-нейтральному ключі. Це може включати звіти про конкретні злочини, описи гучних судових справ, посилання на тенденції злочинності або «закон і порядок» в абстрактному сенсі, або звіти про дії поліції, ICE або інших правоохоронних органів, включаючи протести. Упереджене висвітлення включає сегменти, в яких диктор займає позицію щодо рівня злочинності, причин злочинності, ефективності або поведінки правоохоронних органів, справедливості або ефективності системи правосуддя, або запропонованих політичних заходів реагування на злочинність. (Упереджене висвітлення злочинності/правоохоронної діяльності не було далі розмежоване як сприятливе чи несприятливе.)

Після фіналізації кодексу ми доопрацювали модель ModernBERT на наборі синтетичних міток позицій, згенерованих GPT-4.1 для випадкової вибірки сегментів із ширшої колекції даних. Потім ми використали цю модель для подальшої класифікації решти сегментів у масштабі. Прочитайте повний запит, який ми використовували для цього процесу. Випадкова вибірка прогнозів виробничої моделі для цього завдання була вручну закодована до трьома дослідниками. Розбіжності вирішувалися за допомогою моделі агрегації Dawid-Skene. Показники ефективності наведені в таблиці «Ефективність моделі: класифікація позицій щодо питань».

Методологія Як ми рахували: Деталі дослідження 26

Прогнозування статі диктора

Для оцінки статі дикторів у записаних трансляціях ми використовували audeering/wav2vec2-large-robust-24-ft-age-gender, попередньо навчену модель wav2vec2, допрацьовану для прогнозування характеристик диктора на основі вокального аудіо.

Методологія Як ми рахували: Деталі дослідження 27

Оскільки наш конвеєр транскрипції генерує часові мітки транскриптів з мітками дикторів, ми могли ідентифікувати всі окремі висловлювання для кожного диктора в заданому записі, витягти відповідний аудіофрагмент на основі цих часових міток і передати аудіосегменти моделі wav2vec2. Модель генерує прогнози на основі вокальних характеристик і видає класифікацію статі для кожного сегмента. Ми агрегували ці прогнози на рівні диктора, щоб призначити одну класифікацію статі кожному диктору в аналізі. Це ймовірнісний підхід, який покладається виключно на акустичні характеристики голосу диктора для визначення статі та обмежений бінарною класифікацією чоловічих/жіночих категорій.

Для валідації результатів моделі прогнозування статі один дослідник кодував вибірку з 50 висловлювань (30 прогнозованих чоловічих голосів, 20 прогнозованих жіночих) за очевидною вокальною статтю. Його судження збіглися з моделлю в 98% випадків.

Визначення музичного контенту в релігійних радіозаписах

Відрізнення музики від мовлення

Одним з перших кроків в обробці необробленого аудіо радіомовлення, яке ми записали, було відрізнення сегментів, що містили музику, від тих, що містили мовленнєвий контент. Ми зробили це за допомогою MIT/ast-finetuned-audioset-10-10-0.4593, попередньо навченої моделі Audio Spectrogram Transformer (AST), допрацьованої на датасеті AudioSet. AudioSet містить широкий спектр коротких аудіофрагментів, тому ми адаптували цю модель до наших 15-хвилинних радіозаписів, розділивши повні записи на перекривні 10-секундні сегменти. Усі сегменти класифікувалися як мовлення або музика незалежно, а потім знову об’єднувалися в безперервні області кожної категорії. У випадках, коли модель застосовувала обидві мітки, мовлення та музика (ймовірно, вказуючи на когось, хто говорить під музику), ми вважали цей сегмент мовленням.

Незалежно від цього процесу, все необроблене аудіо проходило через конвеєр транскрипції, обговорений вище. Коли модель виявлення музики класифікувала сегмент як музику, ця частина транскрипції позначалася як <МУЗИКА>, незалежно від того, чи намагалася модель транскрибувати тексти пісень.

Ідентифікація треків, виконавців та музичних жанрів

Підхід до ідентифікації мовлення та музики, описаний вище, не розрізняє комерційно доступні студійні записи та інші музичні елементи, які могли відтворюватися під час трансляції, включаючи рекламні джингли, тематичну музику для вступу програм та музику, що грає під час релігійних служб. Щоб розпізнати конкретні треки, які відтворювалися на релігійних радіостанціях протягом липня 2025 року, ми використовували AudD, API розпізнавання музики, яке може аналізувати короткий фрагмент пісні, співставляти його з треком у своїй базі даних та повертати метадані про трек, включаючи його виконавця, жанр та ідентифікатор у музичній бібліотеці Spotify для отримання додаткових деталей (за наявності).

Замість того, щоб класифікувати всі зібрані музичні елементи, ми випадковим чином вибрали 249 076 необроблених 15-хвилинних записів, які ми зібрали, і вибрали один 12-секундний музичний фрагмент для ідентифікації з записів, що містили принаймні дві хвилини безперервної музики.

Використовуючи цю процедуру вибірки, 131 825 записів (53% від вибраних) містили ідентифіковану музику, загалом 39 262 унікальних треки від 13 594 різних виконавців, що представляють 300 915 унікальних випадків відтворення треку, враховуючи той факт, що у багатьох випадках кілька станцій спільно використовують потік трансляції. Треки, ідентифіковані через AudD, містили інформацію про назву, виконавця та альбом.

Близько 93% усіх унікальних ідентифікованих треків також мали пов’язані метадані в музичній бібліотеці Spotify, що дозволило нам отримати більш детальну інформацію про виконавців, які їх створили, включаючи жанри, з якими вони асоціюються, якщо такі були вказані. Оскільки теги жанрів не завжди стандартизовані для виконавців у таких базах даних, дослідники переглянули 25 найпоширеніших тегів жанрів (які сукупно становили 97% ідентифікованих треків, що мали будь-яку пов’язану інформацію про жанр) та об’єднали їх у наступний набір стандартизованих категорій для аналізу:

Методологія Як ми рахували: Деталі дослідження 28

Відображення категорій програм на 24-годинний розклад

Контент-аналіз у цьому дослідженні базується на приблизно 440 000 годин аудіо, записаного з релігійних радіостанцій протягом липня 2025 року. Як описано вище, цей процес запису відбувався у 15-хвилинних блоках, рівномірно розподілених по всіх станціях, які ми моніторили. Хоча ми захопили близько 230 комбінованих годин контенту на станцію і маємо широке охоплення того, що кожна станція транслювала протягом місяця, те, що ми записали, не обов’язково є безперервним.

Для зручності інтерпретації ми представляємо різні висновки, які описують контент релігійного радіо в термінах «годин на день» на певній станції або групі станцій. Але оскільки ми не маємо безперервних записів для кожної станції протягом 24-годинного періоду, ці показники «годин на день» не вимірюються безпосередньо. Натомість вони розраховуються на основі категорій контенту, виявлених у даних. Це простий процес: якщо ми виявимо, що половина матеріалу, який ми записали для певної станції, є музикою, то ми можемо помножити цю частку на 24 години на добу, щоб отримати показник 12 годин музики на день для цієї станції в середньому.

Цей підхід ґрунтується на припущенні, що відповідні станції дійсно транслюють 24 години на добу і не вимикаються на ніч. Наш аналіз показує, що це стосується переважної більшості релігійних станцій в Америці, принаймні, коли ми підключаємося через їхні веб-потоки. Ми не мали труднощів із записом контенту вночі протягом періоду збору даних.

Ми також провели перевірку валідності на вибірці з 2500 записів, шукаючи відсутність сигналу. Ми виявили, що в середньому менше 30 секунд тиші виникає протягом повного 15-хвилинного блоку запису, і немає статистично значущої різниці в кількості тиші, що чується вночі, порівняно з іншим часом доби. (Ці тести проводилися на основі місцевих часових поясів станцій.)

← Попередня сторінка 1 4 5 6 7 8 9 Наступна сторінка →

  1. AAPOR Task Force on Address-based Sampling. 2016. “AAPOR Report: Address-based Sampling.”
  2. Email [email protected].
  3. ATP не використовує маршрутизатори або ланцюги в будь-якій частині свого онлайн-протоколу збору даних, а також вони не використовуються для направлення респондентів до додаткових опитувань.
  4. Поштові листівки з повідомленнями для онлайн-учасників надсилаються 1) учасникам, які були набрані протягом останніх двох років, і 2) учасникам, набраним до двох років тому, які бажають продовжувати отримувати поштові листівки.
  5. Одна станція була ідентифікована як нерелігійна на етапі аналізу контенту: WPCM з Берлінгтона-Грема, Північна Кароліна, була класифікована Radio-Locator як «Сучасна християнська», але не було виявлено жодного релігійного контенту. Після подальшого перегляду ми виявили, що WPCM змінив свій формат на «Класичні хіти» у квітні 2025 року. Вона була виключена з аналізу.
  6. У випадках, коли кілька коротких програм були заплановані в одному 15-хвилинному часовому блоці, кодувальники призначали блок програмі, що займала більшу частину часу. Якщо жодна окрема програма не займала більшість блоку, кодувалися всі заплановані програми.
  • PDF звіту
  • Topline
  • Анкета

Дізнатися більше на: www.pewresearch.org

No votes yet.
Please wait...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *