Форма сзв м за июль 2018: СЗВ-М за июль 2018 года: образец заполнения

R-CNN, Fast R-CNN, Faster R-CNN, YOLO — Алгоритмы обнаружения объектов | Рохит Ганди

Понимание алгоритмов обнаружения объектов

Компьютерное зрение — это междисциплинарная область, которая в последние годы (со времен CNN) набирает огромную популярность, и беспилотные автомобили заняли центральное место. Еще одной неотъемлемой частью компьютерного зрения является обнаружение объектов. Обнаружение объектов помогает в оценке позы, обнаружении транспортных средств, наблюдении и т. д. Разница между алгоритмами обнаружения объектов и алгоритмами классификации заключается в том, что в алгоритмах обнаружения мы пытаемся нарисовать ограничивающую рамку вокруг интересующего объекта, чтобы найти его на изображении. Кроме того, вы можете не обязательно рисовать только одну ограничивающую рамку в случае обнаружения объекта, может быть много ограничивающих рамок, представляющих различные интересующие вас объекты на изображении, и вы не будете знать, сколько их заранее.

Основная причина, по которой вы не можете приступить к решению этой задачи путем построения стандартной сверточной сети, за которой следует полносвязный слой, заключается в том, что длина выходного слоя является переменной, а не постоянной, это связано с тем, что количество вхождений объектов проценты не фиксированы. Наивным подходом к решению этой проблемы было бы выделение различных областей интереса из изображения и использование CNN для классификации присутствия объекта в этой области. Проблема с этим подходом заключается в том, что интересующие объекты могут иметь разное пространственное положение на изображении и разные соотношения сторон. Следовательно, вам придется выбрать огромное количество регионов, и это может привести к взрыву в вычислительном отношении. Поэтому были разработаны такие алгоритмы, как R-CNN, YOLO и т. д., чтобы найти эти события и найти их быстро.

Чтобы обойти проблему выбора огромного количества регионов, Ross Girshick et al. предложил метод, в котором мы используем выборочный поиск для извлечения всего 2000 регионов из изображения, и он назвал их предложениями регионов. Поэтому теперь вместо того, чтобы пытаться классифицировать огромное количество регионов, можно просто работать с 2000 регионами. Эти предложения по 2000 регионам генерируются с использованием алгоритма выборочного поиска, описанного ниже.

 Выборочный поиск: 
1. Генерируем начальную подсегментацию, мы генерируем множество регионов-кандидатов
2. Используйте жадный алгоритм для рекурсивного объединения похожих регионов в более крупные
3. Используйте сгенерированные регионы для создания окончательных предложений регионов-кандидатов

R-CNN

Чтобы узнать больше об алгоритме выборочного поиска, перейдите по этой ссылке. Эти 2000 предложений регионов-кандидатов преобразуются в квадрат и передаются в сверточную нейронную сеть, которая на выходе создает 4096-мерный вектор признаков. CNN действует как экстрактор признаков, а выходной плотный слой состоит из признаков, извлеченных из изображения, и извлеченные признаки передаются в SVM для классификации присутствия объекта в этом предложении региона-кандидата. В дополнение к предсказанию наличия объекта в предложениях области алгоритм также предсказывает четыре значения, которые являются значениями смещения, чтобы повысить точность ограничивающей рамки. Например, учитывая предложение региона, алгоритм предсказал бы присутствие человека, но лицо этого человека в этом предложении региона могло бы быть сокращено вдвое. Таким образом, значения смещения помогают настроить ограничивающую рамку предложения региона.

R-CNN

Проблемы с R-CNN

  • Обучение сети по-прежнему занимает огромное количество времени, так как вам придется классифицировать 2000 предложений регионов на изображение.
  • Невозможно реализовать в режиме реального времени, так как для каждого тестового изображения требуется около 47 секунд.
  • Алгоритм выборочного поиска является фиксированным алгоритмом. Поэтому на этом этапе обучения не происходит. Это может привести к созданию плохих предложений регионов-кандидатов.

Fast R-CNN

Тот же автор предыдущей статьи (R-CNN) решил некоторые недостатки R-CNN, чтобы построить более быстрый алгоритм обнаружения объектов, и он был назван Fast R-CNN. Подход аналогичен алгоритму R-CNN. Но вместо того, чтобы передавать предложения региона в CNN, мы передаем входное изображение в CNN для создания сверточной карты признаков. На сверточной карте признаков мы идентифицируем область предложений и деформируем их в квадраты, а с помощью слоя объединения RoI мы изменяем их форму до фиксированного размера, чтобы его можно было передать в полностью связанный слой. Из вектора объектов области интереса мы используем слой softmax для прогнозирования класса предлагаемой области, а также значений смещения для ограничивающей рамки.

Причина, по которой «Fast R-CNN» быстрее, чем R-CNN, заключается в том, что вам не нужно каждый раз передавать 2000 предложений регионов в сверточную нейронную сеть. Вместо этого операция свертки выполняется только один раз для каждого изображения, и из него создается карта объектов.

Сравнение алгоритмов обнаружения объектов

Из приведенных выше графиков можно сделать вывод, что Fast R-CNN значительно быстрее в сеансах обучения и тестирования по сравнению с R-CNN. Когда вы смотрите на производительность Fast R-CNN во время тестирования, включение предложений по регионам значительно замедляет алгоритм по сравнению с тем, чтобы не использовать предложения по регионам. Таким образом, предложения регионов становятся узким местом в алгоритме Fast R-CNN, влияющим на его производительность.

Faster R-CNN

Оба вышеперечисленных алгоритма (R-CNN и Fast R-CNN) используют выборочный поиск для определения предложений региона. Выборочный поиск — это медленный и трудоемкий процесс, влияющий на производительность сети. Таким образом, Shaoqing Ren et al. придумал алгоритм обнаружения объектов, который устраняет алгоритм выборочного поиска и позволяет сети изучать предложения регионов.

Подобно Fast R-CNN, изображение предоставляется в качестве входных данных для сверточной сети, которая обеспечивает карту сверточных признаков. Вместо использования алгоритма выборочного поиска на карте объектов для определения предложений регионов для прогнозирования предложений регионов используется отдельная сеть. Предложения прогнозируемой области затем изменяются с использованием слоя объединения областей интереса, который затем используется для классификации изображения в пределах предполагаемой области и прогнозирования значений смещения для ограничивающих рамок.

Сравнение скорости тестирования алгоритмов обнаружения объектов

Из приведенного выше графика видно, что Faster R-CNN намного быстрее, чем его предшественники. Поэтому его можно использовать даже для обнаружения объектов в реальном времени.

Все предыдущие алгоритмы обнаружения объектов используют области для локализации объекта на изображении. В сети не смотрит полный образ. Вместо этого части изображения с высокой вероятностью содержат объект. YOLO или You Only Look Once — это алгоритм обнаружения объектов, сильно отличающийся от алгоритмов, основанных на области, показанных выше. В YOLO единственная сверточная сеть предсказывает ограничивающие рамки и вероятности классов для этих рамок.

YOLO

Принцип работы YOLO заключается в том, что мы берем изображение и разбиваем его на сетку SxS, в каждой сетке мы берем m ограничивающих прямоугольников. Для каждой ограничивающей рамки сеть выводит вероятность класса и значения смещения для ограничивающей рамки. Ограничивающие рамки, имеющие вероятность класса выше порогового значения, выбираются и используются для определения местоположения объекта на изображении.

YOLO на несколько порядков быстрее (45 кадров в секунду), чем другие алгоритмы обнаружения объектов. Ограничение алгоритма YOLO заключается в том, что он борется с мелкими объектами на изображении, например, у него могут возникнуть трудности с обнаружением стаи птиц. Это связано с пространственными ограничениями алгоритма.

Ежегодно на конференциях по компьютерному зрению обсуждаются новые радикальные концепции, и я думаю, что шаг за шагом мы движемся к потрясающим возможностям ИИ (если еще не уже!). Становится только лучше. Я надеюсь, что концепции были ясны в этой статье, спасибо 🙂 //arxiv.org/pdf/1506.01497.pdf

  • https://arxiv.org/pdf/1506.02640v5.pdf
  • http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11. pdf
  • Barcode Recognition Using Principal Component Analysis and Support Vector Machine

    Series:Advances in Intelligent Systems Research

    Authors

    Clarin Mulyaningtyas, Elly Matul Imah

    Corresponding Author

    Clarin Mulyaningtyas

    Available Online July 2018.

    DOI
    https://doi.org/10.2991/miseic-18.2018.26Как использовать DOI?
    Ключевые слова
    Штрих-код, Анализ главных компонент (PCA), Метод опорных векторов (SVM)
    Abstract

    Штрих-код представляет собой визуальный код для идентификации символов данных в виде одно- или двухмерного изображения, содержащего линии и пробелы, на основе обнаружения краев. Использование штрих-кода значительно повлияло на склады и розничную торговлю. В настоящее время исследования штрих-кода по-прежнему остаются интересной темой, особенно из-за размытости, низкой контрастности, низкого разрешения, повернутого штрих-кода и объективов с фиксированным фокусом. Наборы данных штрих-кода взяты из базы данных WWU Muenster Barcode University of Muenster Germany в количестве 142 изображений, состоящих из 13 типов штрих-кода EAN-13. Это исследование направлено на изучение возможностей распознавания одномерного штрих-кода в области изображения с использованием многоклассовой машины опорных векторов (SVM) один против всех с выделением признаков с использованием анализа основных компонентов (PCA), варианты основного компонента: 8, 12, 17, 25, 38 и 70 функций. Набор данных был случайным образом разделен на набор данных, и тест данных с использованием перекрестной проверки повторялся пять раз с соотношением 2: 1 из 9.Последовательность данных из 5 изображений и тест данных из 47 изображений. Основываясь на наилучшем результате производительности, SVM был способен точно классифицировать штрих-код с точностью 0,92 ± 0,02. Исходя из времени вычислений, среднее время обучения составляет около 3,21 секунды, а время тестирования — около 0,66 секунды.

    Copyright
    © 2018, Авторы. Опубликовано Атлантис Пресс.
    Открытый доступ
    Это статья в открытом доступе, распространяемая по лицензии CC BY-NC (http://creativecommons.org/licenses/by-nc/4.0/).

    Скачать статью (PDF)

    ТОМ НАЗВАНИЕ
    Слушания по математике, информатике, науке и образованию международной конференции (MISEIC 2018)
    Серия
    Продюсь в области интеллектуальных систем
    Publication Дата

    7777 70078 Advance In Intelligent Systems Research

    Publication Дата

    7777778 Advance In Intelligent Systems Research

    . 2018
    ISBN
    978-94-6252-601-3
    ISSN
    1951-6851
    DOI
    HTTPS://doi.org/10.2991/MISEIIC-18.20.2018.20.20118.20118.2018.2018.2018.
    Copyright
    © 2018, Авторы. Опубликовано Атлантис Пресс.
    Открытый доступ
    Это статья в открытом доступе, распространяемая по лицензии CC BY-NC (http://creativecommons.