Мудрість (вибраного) натовпу

Все більше і більше компаній користуються мудрістю своїх клієнтів та користувачів - дуже обрана натовп. Вони роблять це за допомогою «великих даних» - збираючи скарбниці анонімних даних, а потім проводячи на них пост-хок аналіз.

Ці зусилля можуть призвести до деяких цікавих уявлень. Це також може змусити компанії припустити, що результати можна узагальнити для всього населення.

І проблема полягає в цьому останньому питанні. Оскільки, якщо ви починаєте з самостійно відібраної вибірки, ваші дані стосуються лише таких людей, як вони, а не всієї сукупності. Це лише одна з проблем вимірювання - і вжиття заходів - на основі інформації від вибраних натовпів.

Веб-сайти вже майже 20 років проводять вимірювання "великих даних". Щоразу, коли ви відвідуєте веб-сайт, він залишає невеликий слід даних на сервері веб-сайту. Власники сервера беруть ці дані та запускають їх через платформу аналізу даних (наприклад, Google Analytics). Він надає власнику веб-сайту сукупну інформацію про типи людей, які відвідують їх веб-сайт.

Оскільки кожен веб-сайт унікальний, така інформація стосується лише цього веб-сайту. Наприклад, користувач, який відвідує CNN, може мати мало спільного з користувачем, який відвідує Match.com.

Проблема вибору натовпу

При аналізі даних статистики називають таку вибірку «самостійно відібраною вибіркою», що призводить до проблеми «упередженості самовідбору». Простіше кажучи, це означає, що, оскільки ваші дані надходять лише від людей, які користуються певним додатком чи видом соціальних мереж, вони не є репрезентативними для населення в цілому. І оскільки це не репрезентативно для загальної сукупності, ви не можете узагальнювати дані.

Я називаю це проблемою "відбору натовпу". Оскільки, якщо ви набираєтеся своєї мудрості серед натовпу, краще переконайтеся, що натовп є представником населення, якщо ви намагаєтесь отримати від нього узагальнені уявлення.

Є цілі компанії, які нічим не займаються, окрім аналізу тенденцій та даних із Twitter. Але якщо ви подивитесь, хто користується Twitter - і як вони ним користуються - вас одразу хвилює питання, що насправді означають такі дані. Наприклад, користувачі Twitter набагато молодші за загальну популяцію, а люди похилого віку значно слабше представлені. Якщо ви керуєте компанією, яка вивчає тенденції здоров’я у Twitter, ви побачите щось зовсім інше, ніж якби провели рандомізоване телефонне опитування.

Іншими словами, які тенденції у Twitter можуть чи не матимуть значення для 80+ відсотків американців, які не користуються Twitter.

Програми не кращі

Додатки часто люблять збирати дані своїх користувачів, анонімізувати їх, а потім використовувати для порівняння вашої ефективності з іншими, хто також використовує програму. Це має призвести до того, що ви відчуваєте себе частиною соціальної мережі, яка має спільний додаток. Це чудова ідея.

Бо що, якщо лише певний тип людини користується цим додатком? Що робити, якщо лише депресивні люди використовують додаток для відстеження настрою, призначений для того, щоб допомогти людям вийти з депресії, допомагаючи їм відстежувати їхній настрій, порівнюючи свій прогрес з іншими, хто також користується додатком? Такі результати можуть самі по собі ненавмисно пригнічувати.

Чи можете ви позитивно мотивувати когось через соціальне порівняння? Можна, але занадто часто дослідження також показує, що такі соціальні порівняння призводять до того, що люди почуваються гірше, ніж раніше. Це потрібно робити надзвичайно обережно - щось, що не розуміє більшість типових розробників додатків.

Залишаючи важливі речі для вимірювання

Будь-яка програма чи послуга настільки хороші, як ті речі, які вона вибирає для вимірювання. Ви можете внести упередженість - навмисно чи ненавмисно - у свої результати тим, що ви вирішили виміряти - а не вимірювати.

Подумайте про це так: ви думаєте переїхати до нового міста з меншою кількістю опадів, тож ви дивитесь лише на середньорічну кількість дощів для різних міст. Ви подивитесь на таке місто, як Маямі, і подумаєте: «Знаєте, я не переїжджаю до Маямі - у них дощ випадає майже 62 дюйми на рік! Порівняйте це з мізерними 37 дюймами дощу, який отримує Сіетл. Сіетл повинен бути сонячнішим, менш дощовим місцем ". Оскільки ви не врахували інших важливих показників у своєму вимірі, ви зробите неправильний вибір, виходячи із занадто обмеженої інформації.

Те, що розробник програми або веб-сайту вважає важливим для вимірювання чогось, насправді може бути не таким важливим, як те, що вони залишили поза увагою. Уявіть собі програму, яка вимірювала лише вашу реакцію на ліки, але не враховувала всі інші важливі фактори, що впливають на ваш настрій та лікування.

Лікування не проводиться у вакуумі разом із одним препаратом. Це відбувається в багатій складній екосистемі, яка може включати ліки, але також включає багато інших важливих речей, які ви робите, щоб допомогти собі відновитись. Це може бути скільки ви тренуєтесь, або не роздумуєте, або дні, в які ви проходите, не маючи нападу паніки, або стреси з приводу члена сім’ї чи роботи.

Коротше кажучи, існує незліченна кількість речей, які слід відстежувати за допомогою програм та інших добросовісних служб, але такими не є. І це дає спотворену перспективу того, як те, що вимірюється, пов’язане з настроєм чи прогресом відновлення. Ліки дійсно важливі в лікуванні багатьох людей, але це може бути і не часто - найголовніше.

!-- GDPR -->