Погані дослідження: Популярні умови пошуку сексу
Люди люблять секс. Їм так подобається секс, вони витрачають багато часу на його пошук в Інтернеті. Піди розберися. (Ви можете сказати, що я збираюся заглибитися у справді високорослі, п’янкі речі тут ...)Нещодавно дослідники Огі Огас та Сай Гаддам опублікували книгу, Мільярд злих думок, детально аналізуючи 400 мільйонів пошуків, зібраних ними з пошукової системи Dogpile. З цих 400 мільйонів пошуків 13 відсотків (55 мільйонів) стосувались еротичного вмісту.
Як ці 55 мільйонів пошуків вийшли з ладу? Давайте з’ясуємо ... але давайте також подивимось на методологію цих дослідників, щоб побачити, чи варті їхні висновки того паперу, на якому вони надруковані. (Якщо ви вважаєте, що ні, ви, мабуть, маєте рацію.)
Отже, ось що шукають люди на Dogpile, коли йдеться про сексуальні інтереси. Зауважте, що наведені нижче терміни є загальною категорією пошуку цього інтересу, яка включає всілякі перестановки термінів. Ці перестановки (наприклад, "сиськи" для грудей) не перелічені нижче; використовуйте свою уяву.
- Молодь - 13,5 відсотка
- Гей - 4,7 відсотка
- MILFs (Mother’s I like like to F ***) - 4,3 відсотка
- Груди - 4,0 відсотка
- Обман дружин - 3,4 відсотка
- Вагіни - 2,8 відсотка
- Пеніси - 2,4 відсотка
Сміття всередину, сміття виведене
У комп’ютерному програмуванні є стара приказка - GIGO: Garbage In, Garbage Out. Це однаково добре застосовується до будь-якої наукової діяльності, яка настільки ж хороша, як і дані, які ви вибрали для аналізу. Якщо ви почнете з набору даних сумнівної узагальненості чи цінності, ви можете виявити, що робите висновки, які мало пов’язані з реальністю.
У цьому випадку існує величезна проблема зі зведеними даними дослідників. Вони не від Google чи навіть від Bing. Вони походять від маловідомої пошукової системи під назвою „Dogpile”, яка навіть не є пошуковою системою. Що таке Dogpile - це просто механізм агрегування результатів пошуку від Google, Yahoo та Bing (оскільки Bing тепер надає Yahoo свої дані пошуку, я не впевнений, чому все ще існує така диференціація).
Це не те саме, що пошук, проведений в Google через Google.com, або пошук, проведений на Bing через Bing.com. Насправді вам потрібно зайти на веб-сайт Dogpile, щоб отримати ці результати - результати, які сформували набір даних для сучасних дослідників. Якщо ви виконуєте пошук на Google.com, ці пошуки не були б проаналізовані цими дослідниками (що має сенс, оскільки Google і Bing не роблять дані, які вони збирають при пошуку, доступними для дослідників).
Напевно, Dogpile мало використовується, це той факт, що він змішує спонсоровані пошукові оголошення з результатами звичайного пошуку, практично не маючи візуальної підказки. Крихітний друк у кінці кожного результату пошуку дає змогу дізнатись, є це «спонсорованим» результатом чи ні - наприклад, оголошенням. У пошуках "депресії" на Dogpile 14 з перших 20 результатів пошуку були оголошеннями - не зовсім тим, з чим більшість звичайних людей терпіли б дуже довго.
Люди, які шукають вміст в Інтернеті, давно вирішили відмовитись від використання пошукових систем, які намагаються змішати рекламу з реальними результатами. Причина проста - люди натискають рекламу, коли їх цікавить пропонований товар чи послуга. Вони не люблять, коли їх обдурюють, натискаючи на те, що, на їхню думку, було результатом пошуку, лише щоб з’ясувати, що це було замасковане оголошення.
То хто використовує Dogpile? Хто знає, але це, звичайно, навряд чи буде звичайним користувачем Інтернету. У той час як понад 150 мільйонів людей користуються Google, а 90 мільйонів використовують Bing.com, Dogpile вбогих 2-3 мільйонів людей на місяць бліднуть порівняно і становить набагато менше 0,05 відсотка від загального ринку пошукових систем.
Чи можете ви провести опитування на такому крихітному наборі даних і спробувати використовувати дим і дзеркала, щоб склалося враження, що ви насправді провели те саме новаторське дослідження, яке проводив Інститут Кінсі в 1950-х і 1960-х? Ви впевнені, що можете.
Наприклад, Огі Огас та Сай Гаддам сказали, що проаналізували 400 мільйонів пошуків в Інтернеті. Але порівняйте це число з 3 мільярдами пошукових запитів, що проводяться щодня, за даними компанії Hitwise, інтернет-аналітичної компанії. Раптом 400 мільйонів - хоча, здавалося б, вражаюче число у вакуумі - виглядає набагато менш вражаючим, якщо помістити його в якийсь контекст даних. 400 мільйонів пошуків - це еквівалент того, що було проведено приблизно за 3 години. За один день.
Звичайно, контекст - це все, що стосується наборів даних, особливо коли ці набори даних, ймовірно, будуть упередженими, так, як ви ніколи не турбувались для дослідження. У цьому випадку набір даних упереджений використанням пошукової системи Dogpile - крихітної, нішевої пошукової машини, яка, швидше за все, використовується певною підгрупою сукупності, яка відрізняється від решти популяції.
Тож візьміть цей список з достатньою кількістю солі. Це цікаво, але я не впевнений, що це відображає загальну сукупність. І, звичайно, не варто купувати цілу книгу, яка заглиблюється в цей недосконалий набір даних.