Доктор Епштейн, політичне упередження та результати пошуку Google

Мене трохи бентежать твердження доктора Роберта Епштейна та його твердження, засноване на одному дослідженні 95 учасників, що Google якось навмисно упереджує результати, показані перед президентськими виборами у США 2016 року. І тому, ймовірно, це вплинуло на самі результати виборів.

Це величезний твердження зробити. Можна було б сподіватися, що такий шановний дослідник, як доктор Епштейн, матиме наукові дані для їх резервного копіювання. На жаль, я цього не бачу.

Наука є об'єктивною лише до того моменту, коли вчений визнає і пояснює свої або свої упередження. Наука не ґрунтується на заздалегідь визначеному порядку денному або спробі встановити рахунок. Я не впевнений, що доктор Епштейн стримував власні упередження у своєму очевидному полюванні на відьом, щоб усунути Google за пропозиції "упереджених" результатів пошуку.

Пошукові системи завжди були упередженими

Google завжди пропонував необ’єктивні результати пошуку. Якщо ви цього не розумієте має як у випадку з будь-якою пошуковою системою, вам може знадобитися короткий курс підвищення кваліфікації щодо роботи пошукових систем.

Не існує такого поняття, як неупереджені результати пошуку. Усі пошукові системи використовують власні алгоритми з комерційною таємницею, щоб переконатися, що ви бачите, що компанія, що вважає пошуковою системою, забезпечує найкращі результати. "Найкраще" - з початку пошуку в Інтернеті на початку 1990-х років - завжди було суб'єктивним терміном. Не існує єдиного об'єктивного рейтингу веб-сайтів, який би сказав: "Завжди показуй цей веб-сайт першим для цього пошукового запиту, оскільки це, безумовно, найкращий результат".

І вгадайте - люди це люблять! Ось чому Google стоїть на першому місці серед пошукових систем, оскільки насправді пропонує результати, які, мабуть, є найбільш актуальними для більшості людей. Щохвилини, коли Google припиняє пропонувати такі відповідні результати, нова пошукова система може і займе своє місце. (Хтось пам’ятає Alta Vista, Excite чи навіть Yahoo? [І ні, Yahoo більше не займається пошуком - його результати надає Bing.])

Як виглядає упередженість результатів пошуку?

Як не відомо багатьом, пошукові системи не показують однакові результати за одним запитом, заданим двома різними людьми. Більшість пошукових систем, включаючи Google, використовують складні фактори персоналізації, а також психографічний профіль для подальшого сортування та представлення результатів, які, на його думку, є найбільш актуальні для вас.

На практиці це означає, що мій пошук “симптомів депресії” може повернути інший набір результатів, ніж ваш пошук на тих самих умовах. Якщо ви не будете ретельно контролювати це у своїй методології, ваші результати будуть безглуздими та забрудненими.

Epstein & Robertson (2015) виявили в серії лабораторних (не реальних) експериментів, коли вони штучно маніпулювали сторінками результатів пошуку, вони могли впливати на переваги виборців суб'єктів протягом короткого періоду часу. Він не досліджував жодної фактичної сторінки пошукової системи. І це проігнорувало макет та макет сучасних сторінок результатів пошуку. На реальних сторінках результатів пошуку є кілька рекламних оголошень (які кожен може придбати) у верхній частині сторінки перед будь-якими звичайними результатами.

Результати цих дослідників не дивно, оскільки вони повторюють те, що скаже вам будь-який експерт з оптимізації пошукових систем - розміщення питань на сторінці результатів пошуку. Веб-сайти отримують на тонни більше трафіку, якщо вони є №1, №2 чи №3 проти №9 - або ще гірше, на другій сторінці результатів.

У другому лабораторному експерименті той самий дослідник продемонстрував методи (знову ж таки, використовуючи повністю фальшиву пошукову систему - не Google), за допомогою якої ефект, який вони створили - Ефект маніпуляції пошуковою системою (SEME) - може бути придушений (за допомогою своєчасних попереджень, що відображаються користувачам ).

Google допоміг Хіларі перемогти?

У 2017 році Epstein & Robertson не хотіли демонструвати очевидне - те, що рейтингові позиції мають значення на сторінках результатів пошуку. Вони зробили крок далі і провели дослідження 95 американців (лише 21 з яких визнано «невизначеними» на майбутніх президентських виборах) у 2016 році та їх пошукові звички.

У доповіді, опублікованій лише на їх власному веб-сайті, Epstein & Robertson висувають надзвичайні вимоги:

[… В] Ми виявили, що в період з травня по листопад 2016 року результати пошуку, що відображались у відповідь на широкий спектр пошукових термінів, пов’язаних з виборами, були в середньому упередженими на користь місіс Клінтон на всіх 10 позиціях результатів пошуку.

Опублікований як "довідковий документ", а не як рецензований журнал, це підняло купу червоних прапорів.1

У дослідженні мало пояснювалося методології. Сюди не входить ні інформація про те, що було зроблено для обмеження персоналізації результатів пошуку (оскільки ви хочете контролювати для цієї незалежної змінної), ні про те, які пошукові терміни вони насправді використовували.Насправді, читаючи два попередні дослідження, опубліковані цими дослідниками, навіть не зрозуміло, що вони усвідомлюють, як працюють пошукові системи з точки зору їх стратегій монетизації, щотижневих змін алгоритмів, які вони використовують, та персоналізації результатів пошуку.

На мій погляд, у зусиллях дослідника також є очевидна неохайність. Немає обгрунтування конкретного 25-денного періоду часу, який вони використовували для дослідження в дослідженні, порівняно з будь-яким іншим періодом часу. І насправді вони визнають, що насправді не так пильно дивились на більшість точок даних, які вони зібрали. Дослідники проігнорували 7 місяців дослідницьких даних, щоб зосередитись лише на 3 тижнях до виборів

Вони також прийняли рішення, post-hoc, відкинути всі дані на основі Gmail.com через аномалії в цих даних. Ці аномалії випадково не виявляли такої упередженості, яку вони приписували або набору "ботів", або - чекайте цього - навмисному саботажу з боку Google.

Оскільки значна кількість законних користувачів, які використовують Gmail, ці обґрунтування викидання всіх даних, отриманих з Gmail.com, у кращому випадку здаються сумнівними. На мою думку, це було жахливе рішення, яке було прийнято під час дослідження, але таке, яке випадково також забезпечило знаходження дослідників значення в їх даних.

Але ось справжній удар:

Екстраполюючи математику, представлену в цьому звіті, у статтях, опублікованих у лютому 2016 року, а потім, провідний автор дослідження PNAS передбачив, що упередженість Клінтона в результатах пошуку Google з часом перенесе на Клінтон щонайменше 2,6 мільйона голосів.

У їхній технічній книзі немає нульової математики. Там є купа описових статистичних даних, але ці статистичні дані ледь говорять про те, які процедури або моделювання дослідники насправді використовували, щоб дійти висновків, які вони зробили.

"Докази систематичної упередженості на президентських виборах 2016 року?" Невелика вибірка даних моделювання на основі 95 американців (за винятком користувачів Gmail.com, дані яких вони передавали пост-хок).

Коротше кажучи, на мій погляд, це саме те неякісне, тіньове, жахливо спроектоване дослідження, яке сьогодні є «доказом». Чому дослідники проводять таке, здавалося б, політично упереджене дослідження, а також роблять висновки, яких фактично не мають прямого підтвердження? 3

Можливо, є сокира, щоб точити?

Дослідники - люди. А люди іноді мають сокиру, щоб точити. Вам не потрібно далеко ходити, щоб знайти одну з можливих конкретних осей Епштейна.

До 2012 року Епштейн мало цікавився пошуковими системами або тим, як вони працюють. Він публікував найрізноманітніші теми щодо психології, стосунків та психічного здоров'я та писав про них для основних веб-сайтів.

Тоді на початку 2012 року особистий веб-сайт Епштейна отримав попередження про зловмисне програмне забезпечення, яке з’явилося, коли користувачі намагалися отримати доступ до його сайту з Google. Google відображає ці сповіщення, щоб відвернути користувачів від потенційно шкідливих веб-сайтів.

Але цей інцидент певним чином потрапив під шкіру Епштейна, оскільки раптом восени 2012 року він пише кілька статей про необхідність регулювання Google. Це від дослідника, який ніколи раніше не написав жодного слова про пошукові системи. Мені цікаві терміни.

Коротше кажучи, Епштейн виступає за регулювання Google федеральним урядом протягом останніх семи років. Було б не надто складно уявити собі гіпотетичного дослідника, який розробляє дослідження, щоб підтримати свої переконання.

Підсумок упередженості пошукової системи

Пошукові системи завжди були упередженими, і завжди будуть такими, оскільки вони є суб’єктивними інструментами, покликаними допомогти привернути користувачів до інформації чи розваг. Щохвилини, коли великий уряд хоче розпочати нагляд за результатами мого пошуку, це хвилина, коли я звертаюся до пошукової системи, де така урядова фільтрація не проводиться.

Це також допомагає мати на увазі гіпотетичне втручання проти реального втручання в політику США. Хоча Епштейн натякає на те, що Google маніпулює результатами політичного пошуку, щоб надавати перевагу кандидатам, яких вона бажає обрати на посаду, ми маємо фактичні докази того, що Facebook маніпулює президентськими виборами 2016 року через організації, що фінансуються Росією, купуючи мільйони доларів фальшивої реклами на своїй платформі.

Цікаво, що Епштейн, здається, не дуже зацікавлений у цьому. Можливо, це тому, що Facebook ніколи не ображав його, як колись Google.

Для подальшої інформації

Політифакт: Дональд Трамп помиляється в Google, маніпулюючи результатами виборів

Список літератури

Епштейн і Робертсон. (2017). Придушення ефекту маніпуляції пошуковою системою (SEME). Proc. ACM Hum.-Comput. Взаємодійте., 1 (2), 42.

Епштейн і Робертсон. (2017). Метод виявлення упередженості в рейтингах пошуку, що свідчить про систематичне упередження, пов’язане з президентськими виборами 2016 року. Біла книга, опублікована AIBRT, організацією Епштейна.

Епштейн і Робертсон. (2015). Ефект маніпуляції пошуковою системою (SEME) та його можливий вплив на результати виборів. PNAS, 10.1073 / ст. 1419828112

Виноски:

  1. Коли його запитали про відсутність рецензованих досліджень, Епштейн відповів мені: “У мене також є проблеми як термінові, так і кількісні: я провів чи провів стільки різних досліджень нових форм впливу в Інтернеті (я навчаюся сім різних типів впливу на даний момент - SEME та шість інших), що я вирішив узагальнити свої висновки у доповідях конференцій, доповідях і, в якийсь момент, у формі книги, а не витрачати те, що мало часу мені залишається на болісно повільний процес академічних публікацій. Коли я натрапляю на іншу нову форму впливу в Інтернеті, мені потрібно, принаймні, рік чи два, щоб зрозуміти та оцінити її кількісно. (Я навіть не дійшов до початку експериментів з півдюжини нових форм впливу, про які я знаю.) Додавання ще року-двох до цього процесу для публікації в журналі видається необачним, враховуючи мій вік і враховуючи, наскільки потенційно важливі ці відкриття для людства ". [↩]
  2. Дослідники стверджували, що це пов’язано з тим, що, за їхніми словами, були питання щодо вербування та вдосконалення процедур. Що породжує питання - чи не слід було спочатку вдосконалювати їх процедури в пілотному дослідженні, як це робили б більшість дослідників? [↩]
  3. Або, якщо ви хочете бути педантичним, отримайте мінімальний доказ, базуючись на крихітній вибірці всього 95 пошукових запитів користувачів - мінус деяка кількість тем Gmail.com - протягом 25 днів. [↩]

!-- GDPR -->