Великі дані можуть допомогти комп’ютерам ідентифікувати емоції, пов’язані із зображеннями

Популярні сайти, такі як Twitter, Facebook та інші канали, тепер наповнені картинками, які допомагають людині краще висловлювати думки та почуття. Нові дослідження показують, що "великі дані" - будь-яка колекція наборів даних настільки велика або складна, що її важко обробити за допомогою традиційних програм обробки даних - може бути використана для навчання комп'ютерів інтерпретувати вміст та почуття, пов'язані з зображеннями.

Доктор Jiebo Luo, професор комп'ютерних наук з Рочестерського університету, у співпраці з дослідниками Adobe Research нещодавно представив документ на конференції Американської асоціації штучного інтелекту (AAAI), в якому описується прогресивне навчання глибоких згорткових нейронних мереж (CNN) .

Потім навчений комп'ютер можна використовувати для визначення, які настрої ці зображення можуть викликати. Лоо каже, що ця інформація може бути корисною для таких різноманітних питань, як вимірювання економічних показників або прогнозування виборів.

Однак завдання складне. Аналіз настрою тексту за допомогою комп'ютерів сам по собі є складним завданням. А в соціальних мережах аналіз настроїв є більш складним, оскільки багато людей висловлюються, використовуючи зображення та відео, які комп’ютеру важче зрозуміти.

Наприклад, під час політичної кампанії виборці часто діляться своїми думками за допомогою фотографій.

На двох різних фотографіях може бути зображений один і той же кандидат, але вони можуть робити дуже різні політичні заяви. Людина може розпізнати один як позитивний портрет кандидата (наприклад, кандидат посміхається і піднімає руки), а інший - негативний (наприклад, зображення кандидата, який виглядає переможеним).

Але жодна людина не могла подивитися на кожну картинку, яку передають у соціальних мережах - це справді "великі дані". Щоб мати змогу робити обгрунтовані здогади про популярність кандидата, комп'ютери повинні бути навчені перетравлювати ці дані, і це те, що підхід Ло та його співавторів може робити більш точно, ніж це було можливо до цього часу.

Завдання вилучення настроїв із зображень дослідники розглядають як проблему класифікації зображень. Це означає, що якимось чином кожну картинку потрібно аналізувати та наносити на неї ярлики.

Для початку навчального процесу Луо та його співробітники використали величезну кількість зображень Flickr, які були вільно позначені машинним алгоритмом із певними настроями, в існуючій базі даних, відомій як SentiBank (розроблена групою доктора Ши-Фу Чанг у Колумбії Університет).

Це дає комп’ютеру вихідну точку, щоб почати розуміти, що можуть передавати деякі зображення.

Але створені машиною мітки також включають ймовірність того, що ця мітка відповідає дійсності, тобто наскільки впевнений комп'ютер у правильності мітки?

Ключовим етапом навчального процесу стає наступний, коли вони відкидають будь-які образи, для яких настрої чи настрої, з якими вони були позначені, можуть бути неправдивими. Отже, вони використовують лише «краще» позначені зображення для подальшого навчання в процесі поступового вдосконалення в рамках потужної згорткової нейронної мережі.

Resaercher виявив, що цей додатковий крок значно покращив точність настроїв, якими позначена кожна картинка.

Вони також адаптували цей механізм аналізу настроїв з деякими зображеннями, витягнутими з Twitter. У цьому випадку вони використовували "розвідний натовп", причому кілька людей допомагали класифікувати зображення за допомогою платформи Amazon Mechanical Turk.

Вони використовували лише невелику кількість зображень для точної настройки комп’ютера, і все ж, застосовуючи цей процес адаптації домену, вони показали, що можуть покращити сучасні сучасні методи аналізу настроїв зображень у Twitter.

Один дивовижний висновок полягає в тому, що точність класифікації настроїв зображення перевищила точність класифікації настроїв у тих же повідомленнях Twitter.

Джерело: Рочестерський університет

!-- GDPR -->