Великі дані: чи можна передбачити тенденції населення (як-от щастя) за допомогою програм охорони здоров’я?

Більше п’яти років тому я написав статтю під назвою Надійність та дійсність у світі Web 2.0. У ньому говорилося про загрозу збору даних з упереджених зразків - без попереднього розуміння, якими саме способами ці зразки можуть бути упередженими.

Зараз, коли повсюдно діють програми - програми, що завантажуються для смартфонів людей, - я бачу, що виникає та сама проблема. Розробники та підприємці шукають дані цих додатків, не розуміючи основ належного, надійного, наукового збору даних. І чому це важливо - особливо коли ви починаєте бажати проаналізувати всі ці «великі дані» (дещо безглуздий термін… наприклад, в епідеміології, вчені просто називають це «даними»).

Чи можуть ці програми збирати особисті дані про здоров’я без упереджень і якось трансформуватись у вимірювання чогось більшого?

Коротка відповідь: ні, непросто.

Звичайно, є люди, які є частиною руху «кількісно визначеного Я» - які хочуть відстежувати та вимірювати всі аспекти свого особистого здоров'я (і, як передбачається, психічного здоров'я). Але ці люди в даний час є 1 перевищувачем, і жодним чином не є представником населення в цілому.

Такі меншини можуть швидко зробити більшість зусиль для збору більших наборів даних, щоб проаналізувати тенденції здоров’я чи добробуту. Хоча отримані в результаті аналізи можуть сказати вам щось про цю групу людей, було б недоречним вважати, що це узагальнення для решти населення (яке, демографічно та поведінково, може виглядати і діяти зовсім інакше).

Це скоро не зміниться, оскільки більшість програм для здоров’я завантажуються людьми, використовуються один-два рази, а потім відмовляються. Є причина, по якій більшість людей припиняють користуватися програмами для охорони здоров’я - особливо тими, що мають на меті діяти як щоденник даних. Вони нудні! Збір даних про себе - це просто дуже нудне завдання для більшості з нас взяти на себе зобов’язання активно робити кожен день (або навіть щотижня).

Складна відповідь: програми повинні бути розумнішими, зв’язаними

Програми охорони здоров’я, призначені для збору даних, в кінцевому підсумку не вдаються, оскільки вони потребують активного введення користувачем. Ось чому особисті медичні записи в основному ніколи не знімались у будь-який значущий спосіб.2 Люди занадто зайняті життям, щоб їх турбували, розповідаючи додатку3, які їхні щоденні показники.

Щоб програми для здоров’я в кінцевому підсумку досягли успіху там, де більшість інших спроб особистого програмного забезпечення для відстеження здоров’я не вдалося, це пасивний збір своїх даних. Це означає, що не потрібно вводити дані від користувача.

Звичайно, ми ще далеко від таких показників, що забезпечують значущі дані.Звичайно, є запущені пристрої, які відстежують, скільки ви працюєте (звичайно, від Nike). Але запущений додаток марний, якщо він не розмовляє ні з моїм дієтичним, ні з моїм харчуванням, ні з моїм тренувальним додатком. Або додаток моєї уважності. Це один додаток, що вимірює одну метрику в тій суттєвій істоті, що є я. Це просто не так вже й багато.

Довіра є ключовим каменем

Прийняття таких мережевих додатків, які обмінюються усіма вашими даними про здоров'я, має ще одну, менш технічну, перешкоду - довіру. Такі компанії, як Facebook та Nike, зрештою відповідають лише одній групі людей - їх акціонерам. Це означає, що якщо в їхніх інтересах проаналізувати ваші дані на предмет, на якому вони можуть заробити гроші, вони це зроблять.

Стартапи нічим не кращі, оскільки замість акціонерів вони відповідають лише венчурним капіталістам - кредиторам, які шукають лише найкращу та найшвидшу віддачу від своїх інвестицій.

Чому я хотів би довіряти свою інформацію про здоров’я - дані, які можуть бути використані проти мене для майбутньої відмови у страхуванні чи встановлення страхових ставок - компаніям, які мало зацікавлені в захисті моєї приватності?

Що знову повертається до першого пункту - упередженої вибірки. Люди, які із задоволенням передають всю свою інформацію про стан здоров’я комерційним компаніям для аналізу, зіставлення та врешті-решт зв’язування з вами (навіть якщо такі дані спочатку анонімні), не схожі на більшість людей. Більшість з нас досі піклується про те, щоб зберегти інформацію про своє здоров’я в собі, як і більшість із нас все ще хоче зберегти свою фінансову інформацію в собі.

Куди ми йдемо звідси

Спроба зібрати дані, що базуються на популяції (наприклад, проведення епідеміологічних досліджень) із програм охорони здоров’я, має деякі проблеми та можливості, які я визначив:

  • Упереджена вибірка через незначну меншість людей, які активно та постійно користуються програмами для охорони здоров’я
  • Вибірка та подальше використання може бути покращена за допомогою пасивний проти активний збір даних
  • Вибірка та використання може бути вдосконалено за допомогою надійного органу для збору та зберігання даних (а не для некомерційної компанії чи стартапу)
  • Програми, які знають одне про одного та обмінюються відповідними даними про стан здоров’я, є наступним поколінням - замість поточного багатства безвісних (нерозумних?) Програм

Я думаю, чудово, що розробники розглядають проблему зі здоров’ям, розробляють для неї програму та випускають її у світ. Але надто часто ці програми нікуди не діються, без аудиторії. Або вони залишаються сиротами оригінальних розробників через відсутність інтересу. Кілька популярних програм для охорони здоров’я, які отримують надійну аудиторію, є винятком, а не правилом. Навіть коли вони отримують широке визнання, як і електронні системи медичної документації нашої країни, вони не спілкуються між собою.

Якщо ви хочете мати можливість сказати щось авторитетне або значуще щодо даних, зібраних із програми, вам слід показати, що дані надходять із репрезентативної вибірки сукупності. За відсутності цього, ваші дані говорять нам лише про одну крихітну групу населення - таку, яка не схожа на більшість із нас.

Виноски:

  1. І буде в найближчому майбутньому [↩]
  2. І чому Google нарешті завтра закриє власну особисту медичну книжку. [↩]
  3. Або ще гірше - і частіше - а цілий набір програм які не знають іншого та не можуть обмінюватися даними між собою [↩]

!-- GDPR -->