Чи може комп’ютер навчити себе здоровому глузду?
У не надто далекому минулому припущення, що комп’ютер може продемонструвати «здоровий глузд», вважалося б оксимороном. Але такі суперкомп'ютери, як IBM Watson, можуть предвіщати нові ролі для комп'ютерів.В даний час дослідники з Університету Карнегі-Меллона запускають комп'ютерну програму цілодобово та без вихідних, намагаючись захоплювати дані та масово навчати себе здоровому глузду.
Програма називається Never Ending Image Learner (NEIL), оскільки програмне забезпечення шукає зображення в Інтернеті, роблячи все можливе, щоб зрозуміти їх самостійно, і, будуючи зростаючу візуальну базу даних, масово збираючи здоровий глузд.
NEIL використовує останні досягнення в галузі комп'ютерного зору, які дозволяють комп'ютерним програмам ідентифікувати та мітити об'єкти на зображеннях, характеризувати сцени та розпізнавати такі атрибути, як кольори, освітлення та матеріали, все з мінімальним наглядом людини.
У свою чергу, дані, які вони генерують, ще більше посилять здатність комп’ютерів розуміти візуальний світ.
NEIL має значний прогрес у порівнянні з попередніми робототехнічними пристроями, оскільки може створювати асоціації між речами, щоб отримати інформацію про здоровий глузд. Інформація, яку люди знають майже інтуїтивно - про те, що машини часто зустрічаються на дорогах, що будівлі, як правило, вертикальні, а качки схожі на гусей.
Виходячи з посилань на текст, може здатися, що колір овець пов’язаний з чорним, але люди - і тепер НІЛ - тим не менше знають, що вівці, як правило, білі.
"Зображення - найкращий спосіб дізнатися візуальні властивості", - сказав доктор філософії Абхінав Гупта, асистент-дослідник Інституту робототехніки Карнегі Меллона.
«Зображення також містять багато здорового глузду інформації про світ. Люди навчаються цього самі, і разом із NEIL ми сподіваємось, що це зроблять і комп’ютери ".
Комп’ютерний кластер запускає програму NEIL з кінця липня і вже проаналізував три мільйони зображень, визначивши 1500 типів об’єктів у півмільйона зображень та 1200 типів сцен у сотнях тисяч зображень.
Він поєднав точки, щоб вивчити 2500 асоціацій з тисяч випадків.
Однією з мотивацій проекту NEIL є створення найбільшої у світі візуально структурованої бази знань, де об’єкти, сцени, дії, атрибути та контекстні відносини маркуються та каталогізуються.
"Те, що ми дізналися за останні 5-10 років досліджень комп'ютерного зору, полягає в тому, що чим більше у вас даних, тим кращим стає комп'ютерний зір", - сказав Гупта.
Деякі проекти, такі як ImageNet та Visipedia, намагалися зібрати ці структуровані дані за допомогою людини.
Але масштаби Інтернету настільки великі - лише у Facebook зберігається понад 200 мільярдів зображень - що єдина надія проаналізувати все це - навчити комп’ютери робити це здебільшого самостійно.
Люди також повідомляють НІЛУ, які категорії об’єктів, сцен тощо для пошуку та аналізу. Але іноді те, що знаходить NEIL, може здивувати навіть дослідників.
Можна передбачити, наприклад, що пошук за “яблуком” може повернути зображення фруктів, а також портативних комп’ютерів. Але Гупта та його команда, усі земляки, навіть не підозрювали, що пошук F-18 дозволить виявити не тільки зображення винищувача, але й катамарани класу F18.
Під час пошуку NEIL розробляє підкатегорії об’єктів - триколісні велосипеди можуть бути як для дітей, так і для дорослих, а також можуть бути моторизованими, або автомобілі випускаються в різних марках та моделях.
І він починає помічати асоціації - що зебри, як правило, зустрічаються в саванах, і що торгові майданчики, як правило, переповнені.
Перш ніж NEIL може стати іменем дому, масштаб потрібно буде зменшити, оскільки NEIL є обчислювально інтенсивним, оскільки програма працює на двох кластерах комп'ютерів, що включають 200 ядер обробки.
Джерело: Університет Карнегі Меллона