Куда отправлять сзв м в 2018 году: СЗВ-М на бумажном носителе — когда и куда подавать отчёт — «Мое Дело»

Использование машин опорных векторов для исследований в области опросов

Машины опорных векторов (SVM) обычно используются для задач классификации, таких как предсказание того, решит ли человек голосовать или решит ли человек участвовать в опросе. Первые алгоритмы SVM были разработаны в середине 1990-х годов и были ориентированы на прогнозирование бинарных результатов с использованием теории машинного обучения для максимальной точности прогнозирования (например, Boser, Guyon, and Vapnik, 1992; Vapnik, 1995). С тех пор они были расширены для решения задач категориальной классификации и регрессии (Attewell, Monaghan, and Kwong, 2015; James et al., 2013). В качестве введения в SVM в опросных исследованиях мы сосредоточимся на SVM для бинарной классификации.

Как и многие методы классификации и прогнозирования, SVM классифицируют бинарные результаты (например, ответ на опрос или отсутствие ответа) путем оценки границы разделения в пространстве, определяемом набором переменных-предикторов. Данное наблюдение, определяемое значениями переменных-предикторов, т. е. тем, где оно находится в этом пространстве предикторов, классифицируется в зависимости от того, на какую сторону границы оно попадает. Теоретически существует бесконечное количество способов создания такой границы. В простейшем случае SVM создают «максимальный запас» в пространстве предикторов — самый большой буфер, отделяющий наблюдения для одного результата от наблюдений для другого результата. Случаи, попадающие точно на границу, называются опорными векторами, потому что только эти конкретные случаи определяют уникальное граничное решение. Если есть только две переменные-предикторы, разделяющей границей является линия; с тремя предикторами граница представляет собой плоскость; и с более чем тремя предикторами граница обычно называется разделяющей гиперплоскостью. Прогнозы получаются из SVM с использованием соответствующей решающей функции, которая представляет собой математическое описание границы.

В качестве примера предположим, что исследователь хочет предсказать участие в опросе на основе возраста (X 1 ) и дохода (X 2 ). Используя эти два предиктора, SVM пытается классифицировать случаи либо как респондентов опроса (красные треугольники), либо как нереспондентов опроса (синие кружки), как показано на левой панели рисунка 1. Оптимальная гиперплоскость (т. е. граница), отделяющая респондентов от нереспондентов, равна линия, обозначенная H. Граница классификации является «оптимальной» в том смысле, что она минимизирует ошибку классификации в наборе обучающих данных. В самом простом случае, таком как показанный на левой панели рисунка 1, ответ на опрос в обучающих данных линейно разделим на X 1 и X 2 , а предполагаемая граница H не дает ошибки классификации в выборке. На рис. 1 (слева) легко увидеть, что можно провести бесконечное количество линий, которые идеально классифицируют респондентов и нереспондентов. Именно здесь появляется максимальное поле. Линии максимального поля изображаются пунктирными линиями, помеченными буквой M. По определению, разделяющая граница H делит пополам область, определяемую линиями поля. Классификатор максимальных отступов находит максимальные отступы, так что результирующая разделяющая гиперплоскость H находится дальше всего от тренировочных наблюдений среди всех таких гиперплоскостей (Джеймс и др., 2013). Наблюдения, лежащие вдоль границы, называются опорными векторами. На рис. 1 (слева) они обозначены незаштрихованными треугольниками и незаштрихованными кружками. Лишь незначительное перемещение наблюдений опорного вектора изменит границу и результирующее положение разделяющей гиперплоскости H. Как только граница H будет оценена, ее можно применить к данным в выборке (т. Е. Обучающим), к тестовым данным или к новые данные для прогнозирования. На рис. 1 (слева) наблюдения, попадающие ниже оценочной границы H, будут классифицированы как респонденты опроса, а наблюдения выше H будут классифицированы как нереспонденты опроса.

Рисунок 1

Среди различий в различных SVM-классификаторах здесь мы выделяем два: (1) как они работают с ошибками классификации и (2) является ли граница решения H линейной или нелинейной функцией предикторов. Как показывает предыдущий пример, в простейшем сценарии мы предполагаем, что граница решения является линейной и идеально разделяет два результата в пространстве предикторов. Это допущение — например, что ответ на опрос по сравнению с отсутствием ответа может быть точно предсказан линейной функцией X 1 и X 2 — на практике обычно не выполняется. Пример границы решения, которая не является линейно разделимой, приведен на правой панели рисунка 1. Как видно здесь, не существует (прямой) линии, которая идеально отделяла бы респондентов опроса (красные треугольники) от нереспондентов (синие кружки). ).

Одним из способов решения этой проблемы является использование классификатора «мягкой маржи» (James et al. 2013). В отличие от классификатора с «жесткими границами», классификатор с мягкими границами допускает (1) наблюдения, которые правильно классифицированы, но лежат между M и H, и (2) неправильно классифицированные наблюдения, т. е. те, которые попадают на «неправильную» сторону H. В этом методе используются резервные переменные, которые отслеживают предельную ошибку для каждого наблюдения. Поиск оптимальной границы H теперь включает не только максимизацию запаса, но и указание ограничения на общую ошибку T будет разрешено. Иногда задача оптимизации SVM с мягкой маржой преобразуется в задачу, в которой вместо использования T для взвешивания ошибки используется штраф C , что представляет собой компромисс между увеличением маржи и уменьшением ошибочной классификации в обучающих данных. Суммарная ошибка T и параметр штрафа C обратно пропорциональны оптимальному запасу. Большие штрафы C (маленькие надбавки T ) приводят к меньшей марже. Меньшие штрафы C (большие допуски T ) приводят к большим полям, но также и к большему количеству неправильных классификаций в обучающих данных. На практике штраф C (или надбавка T) обычно устанавливается через k-кратную перекрестную проверку. [1]

На рис. 1 (справа) показан пример, точно такой же, как на рис. 1 (слева), но с двумя наблюдениями (ближе к середине графика), которые не допускают линейной разделимости. Модель SVM с C =1 (не показана) дает те же поля M и разделяющую плоскость H, что и на левой панели. На рис. 1 (справа) показаны поля и разделяющая плоскость при С = .01. В этом случае штраф за нарушение полей меньше, поэтому поля шире, чем на левой панели. В дополнение к наблюдениям, которые лежат на границе, те, которые попадают на неправильную сторону их границы, считаются опорными векторами, поскольку изменение любого из них изменит границу и результирующую граничную гиперплоскость.

Рисунок 2

Второй вопрос, возникающий при классификации SVM, касается того, является ли граница классификации линейной функцией переменных-предикторов. На рисунке 1 кажется разумным предположить линейную граничную линию H. Однако линейное допущение является ограничительным и может не подходить для каждого приложения. Рисунок 2 иллюстрирует случай, когда ответы опроса нелинейно связаны с предикторами X 1 и Х 2 . Здесь ясно, что невозможно провести (прямую) линию, которая разумно отделяла бы респондентов от нереспондентов, даже если мы допускаем неправильные классификации. Большинство подпрограмм SVM теперь допускают нелинейные преобразования переменных-предикторов. Как правило, среди прочего можно выбирать из линейных, полиномиальных, сплайновых и радиальных базисных функций предикторов. На рисунке 2 мы оценили SVM с радиальным ядром и допускаем мягкие поля. Хотя данные не являются идеально разделимыми даже с нелинейным ядром, мы можем видеть, что граница классификации H хорошо справляется с классификацией обучающих данных. Любые точки внутри эллипсоида H классифицируются как не ответившие. Внешние классифицируются как респонденты. Опорные векторы снова обозначены незаштрихованными кружками и незаштрихованными треугольниками.

Это всего лишь несколько простых примеров классификаторов/машин опорных векторов. На рис. 3 представлены более подробные сведения о том, как работают SVM, в том числе о том, как они оценивают гиперплоскости и функции принятия решений, а также о том, как их можно использовать для создания прогнозов. Большая часть обозначений основана на очень доступных введениях в SVM, которые можно найти у Bennet and Campbell (2000) и у James et al. (2013). Обзор программного обеспечения, которое можно использовать для оценки SVM, можно найти на http://www.svms.org/ и http://www.kernel-machines.org/software. Список пакетов R, которые можно использовать для оценки SVM, можно найти на http://www.rdatamining.com/. В таблице 1 мы выделяем несколько наиболее популярных пакетов R, которые можно использовать для оценки SVM.0003

Рисунок 3

Таблица 1

Пакет R Краткое описание
е1071 Этот пакет предоставляет пользователям R доступ к очень популярной библиотеке инструментов и функций SVM, libsvm, написанной Чангом и Лимом (2016). Общие доступные ядра включают линейное, радиальное, полиномиальное и сигмовидное, а функции SVM поддерживают приложения как бинарной классификации, так и регрессии. Можно использовать результаты с несколькими категориями, но только с помощью подхода «один против одного», при котором SVM вычисляются для каждой из возможных пар категорий в результате. Пакет также включает функции для настройки машин опорных векторов с помощью перекрестной проверки. https://cran.r-project.org/package=e1071
кернлаб Этот пакет предлагает широкий набор функций ядра, многие из которых недоступны в пакете e1071, в том числе гиперболический тангенс и Лапласиан. Функции SVM поддерживают классификацию (бинарные и многокатегориальные классы) и параметры регрессии. https://cran.r-project.org/package=kernlab
каре Пакет Caret обеспечивает согласованную основу для калибровки модели, перекрестной проверки и настройки параметров для SVM и многих других методов машинного обучения. Фактические SVM создаются функциями из пакета e1071 для линейных ядер и пакета kernlab для всех остальных. У него также есть приятная функция: он автоматически определяет, была ли инициализирована параллельная среда, а затем разделяет перекрестную проверку между доступными вычислительными потоками, потенциально значительно сокращая время вычислений. https://cran.r-project.org/package=caret

Одним из наиболее привлекательных аспектов SVM является их универсальность. Конечно, SVM успешно применялись для решения широкого круга задач, включая распознавание символов и классификацию текста, проверку речи и говорящего, обнаружение, проверку и распознавание лиц, классификацию нежелательной почты, анализ кредитоспособности, классификацию рака и диабета, среди прочего ( Аттевелл, Монаган и Квонг, 2015 г.; Бьюн и Ли, 2002 г.). Однако универсальность SVM не предоставляется бесплатно, поскольку для запуска этих моделей может потребоваться значительное время, в зависимости от (1) количества наблюдений в наборе данных и (2) степени детализации перекрестной проверки параметров настройки. SVM традиционно использовались для бинарной классификации, но недавние достижения расширили классификацию до категориальных результатов с более чем двумя классами, используя подход «один против одного» или «один против всех» (более подробную информацию см. в James et al. 2013). Несмотря на расширение полиномиальных результатов, SVM, применяемые к результатам с более чем двумя классами, могут требовать больших вычислительных ресурсов в зависимости от количества интересующих категорий и размера наборов данных. Мы выделяем другие основные преимущества и недостатки SVM в таблице 2.

Таблица 2

Основные преимущества машин опорных векторов Основные недостатки машин опорных векторов
SVM устойчивы к наблюдениям, которые находятся далеко от гиперплоскости, и эффективны, поскольку они основаны только на опорных векторах внутри гиперплоскости. SVM могут потребовать больших вычислительных ресурсов и большого объема памяти для выполнения оценки, особенно если наборы данных велики (Horváth 2003).
SVM хорошо работают в сценарии «большие p , маленькие n » — другими словами, SVM могут успешно генерировать классификации при наличии большого количества предикторов даже при небольшом количестве случаев в наборе данных. Для нелинейных приложений пользователь должен выбрать ядро, которое будет использоваться SVM. Выбор ядра и любых связанных с ним гиперпараметров, требуемых ядром, должен быть тщательно продуман, и, в частности, неправильный выбор ядра может отрицательно сказаться на производительности SVM (Horváth 2003).
SVM могут адаптироваться к нелинейным границам решений/классификаций, используя различные функции ядра, и предоставлять решения, даже если данные не являются линейно разделимыми. SVM могут показаться черными ящиками в том смысле, что окончательная функциональная форма или таблица коэффициентов для различных предикторов не предоставляется как часть оценки.
SVM предоставляют уникальное решение, в отличие от других методов машинного обучения, которые полагаются на локальные минимумы, такие как нейронные сети.
Поскольку SVM построены с использованием только опорных векторов, они могут иметь лучшую эффективность классификации при применении к данным, несбалансированным по отношению к бинарному результату (Attewell, Monaghan, and Kwong, 2015).

В то время как SVM приобрели популярность, эмпирические применения в опросах или исследованиях общественного мнения немногочисленны. В дополнение к приложениям в других дисциплинах, упомянутых выше, примеры включают исследование, проведенное Cui and Curry (2005), в котором исследуется использование SVM для «надежной точности» в маркетинге, где основной целью является точность прогнозирования, а не структурное понимание содержания. модели. Более актуальным для исследования общественного мнения является то, что Malyscheff and Trafalis (2003) используют SVM для предметного анализа для изучения процессов принятия решений в Коллегии выборщиков, в то время как Olson, Delen, and Meng (2012) исследуют банкротство с использованием SVM. Лу, Ли и Пан (2007) использовали SVM для вменения, применяемого к оценкам учащихся, а Christen (2008, 2012) — для увязки записей.

Используя пример набора обучающих данных National Health Interview Survey (NHIS), мы оценили две модели ответа на опрос: «типичную» модель логистической регрессии, т. е. без взаимодействий или нелинейных функций регрессоров, и модель SVM. Каждая включала демографические ковариаты, такие как возраст , пол , раса , регион страны , доход, отношение дохода семьи к порогу бедности, статус телефона, образование уровень и вид занятости . Мы использовали SVM с мягкими границами и радиальным ядром. Чтобы определить параметр настройки SVM C и параметр настройки радиального ядра γ, мы провели 10-кратную перекрестную проверку, примененную к обучающим данным. Полученные перекрестно проверенные значения для этих параметров были γ = 0,0189 и C = 32. Предикторы также были предварительно обработаны путем их центрирования и масштабирования, как показано в примере R-кода, показанном в дополнительных материалах.

В таблице 3 представлена ​​матрица путаницы для прогнозирования статуса ответа, рассчитанная путем применения моделей логистической регрессии и SVM к тестовым данным. Правильно классифицированные случаи попадают на главную диагональ матрицы путаницы, а неправильно классифицированные — на недиагональную. Как видно из таблицы 3, обе модели правильно предсказывали статус ответа в большинстве случаев.

Таблица 3

Модель логистической регрессии
Предсказание
Модель SVM
Прогноз
Фактический Не ответил Респондент Всего Не ответил Респондент Всего
Не ответил 2 144 433 2 577 2 275 302 2 577
Респондент 860 848 1 708 634 1 074 1 708
Итого 3 004 1 281 4 285 2 909 1 376 4 285

Как показывают различные статистические данные о производительности, представленные в таблице 4, модель SVM значительно превосходит модель логистической регрессии основных эффектов. В частности, модель SVM правильно классифицирует 78% всех случаев по сравнению только с 70% для модели логистической регрессии. Таблица 4 также показывает, что доля истинно положительных результатов значительно выше для модели SVM (62,9).%) по сравнению с моделью логистической регрессии (49,6%). Между двумя моделями были отмечены меньшие различия между истинным отрицательным показателем, при этом модель SVM правильно классифицировала 88% нереспондентов по сравнению с 83% для модели логистической регрессии. Общая площадь под кривой ROC была на целых 10 процентных пунктов выше для модели SVM по сравнению с моделью логистической регрессии.

Таблица 4: Различные статистические данные о точности моделей для прогнозирования реакции путем применения соответствующих моделей, построенных на обучающей выборке, к тестовой выборке

Статистические данные (оценка с использованием 16% контрольной выборки) Модель логистической регрессии основных эффектов Окончательная модель SVM
Точность (т. е. правильно классифицированный процент) 69,8% 78,2%
Чувствительность (т.е. доля истинно положительных результатов) 49,6% 62,9%
Специфичность (т.е. истинно отрицательный показатель) 83,2% 88,3%
Сбалансированная точность (среднее значение чувствительности и специфичности) 66,4% 75,6%
Площадь под ROC-кривой 74,2% 83,6%

  1. Читатели должны знать, что буква « C » часто используется в различных статьях, книгах, руководствах и статистических пакетах SVM для представления обоих параметров настройки T и C , упомянутые выше. Это может сбивать с толку, потому что общая ошибка T и штраф C обратно пропорциональны по своему влиянию на предполагаемую маржу. Например, Джеймс и др. (2013, 112:346) используют C для представления общего «бюджета» ошибок (который мы обозначаем как T ). С другой стороны, пакет R kernlab, который мы используем для нашего анализа и выделения в таблице 1, использует C для представления штрафа за ошибки. Поскольку задача оптимизации SVM может быть представлена ​​двумя эквивалентными способами, но с обратно связанными параметрами настройки, исследователи, применяющие (или читающие) SVM, должны быть особенно осторожны в определении того, какая спецификация использовалась и как интерпретировать параметр настройки в этом контексте.

Аттуэлл, П., Д.Б. Монаган и Д. Квонг. 2015. Интеллектуальный анализ данных для социальных наук: введение . Окленд, Калифорния: Издательство Калифорнийского университета.

Академия Google

Беннет, К.П. и К. Кэмпбелл. 2000. «Машины опорных векторов: шумиха или аллилуйя?» Информационный бюллетень исследований ACM SIGKDD 2 (2): 1–13. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.605.1310&rep=rep1&type=pdf.

Академия Google

Бозер, Б.Е., И.М. Гийон, В.Н. Вапник. 1992. «Алгоритм обучения для классификаторов оптимальной маржи». В материалах 5-го ежегодного семинара ACM по вычислительной теории обучения , , под редакцией Д. Хаусслера, 144-152. Нью-Йорк, штат Нью-Йорк: ACM Press.

Академия Google

Бьюн, Х. и С.В. Ли. 2002. «Применение машин опорных векторов для распознавания образов: обзор». In SVM ’02 Материалы первого международного семинара по распознаванию образов с помощью машин опорных векторов , 213–36. Лондон, Великобритания: Спрингер.

Академия Google

Chang, C.C., and C.J. Lim. 2016. «LIBSVM — библиотека для машин опорных векторов». 2016. https://www.csie.ntu.edu.tw/~cjlin/libsvm/.

Christen, P. 2008. «Автоматическое связывание записей с использованием засеянного ближайшего соседа и машинной классификации опорных векторов». В Трудах 14-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных , 151–59. Нью-Йорк, штат Нью-Йорк: ACM Press.

Академия Google

Christen, P. 2012. Сопоставление данных: концепции и методы связывания записей, разрешения сущностей и обнаружения дубликатов . Берлин/Гейдельберг, Германия: Springer.

Академия Google

Цуй Д. и Д. Карри. 2005. «Прогнозирование в маркетинге с использованием машины опорных векторов». Маркетинговые науки 24 (4): 595–615.

Академия Google

Horváth, G. 2003. «Нейронные сети в измерительных системах (технический взгляд». В Достижения в теории обучения: методы, модели и приложения , под редакцией Дж. А. К. Сайкенса, Г. Хорвата, С. Басу, К. Миккелли и Дж. Вандевалле, 190: 375-396. Научная серия НАТО III: Компьютерные и системные науки. Амстердам, Нидерланды: IOS Press.

Академия Google

Джеймс Г., Д. Виттен, Т. Хасти и Р. Тибширани. 2013. Введение в статистическое обучение с приложениями в R . Том. 112. Нью-Йорк, штат Нью-Йорк: Спрингер.

Академия Google

Лу, К., С. Ли и Х. Пан. 2007. «Применение SVM и теории нечетких множеств для классификации с неполными данными обследования». В материалах Международной конференции IEEE по системам обслуживания и управлению услугами , 1–4.

Академия Google

Малышев А. и Т. Трафалис. 2003. «Машины опорных векторов и коллегия выборщиков». В материалах Международной объединенной конференции по нейронным сетям Portland, OR , 2344–48. Нью-Йорк, штат Нью-Йорк: IEEE Press.

Академия Google

Олсон Д.А., Д. Делен и Ю. Менг. 2012. «Сравнительный анализ методов интеллектуального анализа данных для прогнозирования банкротства». Системы поддержки принятия решений 52 (2): 464–73.

Академия Google

Вапник, В. 1995. Природа статистической теории обучения . Нью-Йорк, штат Нью-Йорк: Спрингер.

Академия Google

Применение машины опорных векторов (SVM) Обучение геномике рака

1. Круз Дж.А., Уишарт Д.С. Применение машинного обучения в прогнозировании и прогнозировании рака. Рак информ. 2006;2:59–77. [Бесплатная статья PMC] [PubMed] [Google Scholar]

2. Чиккетти Д. Нейронные сети и диагностика в клинической лаборатории: состояние дел. Клин Хим. 1992;38(1):9–10. [PubMed] [Google Scholar]

3. Саймс Р.Дж. Выбор лечения для больных раком: применение статистической теории принятия решений к лечению распространенного рака яичников. J хронический дис. 1985;38(2):171–186. [PubMed] [Google Scholar]

4. Аруна С., Раджагопалан С.П. Новый алгоритм выбора признаков CSSFFS на основе SVM для обнаружения рака молочной железы. Приложение Int J Comput. 2011;31(8):14–20. [Академия Google]

5. Ноубл В. Применение машины опорных векторов в вычислительной биологии. В: Методы ядра в вычислительной биологии. Шёлькопф
Б., Цуда К. и Верт Дж. П. (ред.) Кембридж, Массачусетс, MIT Press. 2004; В: 71–92. [Google Scholar]

6. Благородный В.С. Что такое машина опорных векторов. Нац биотехнолог. 2006;24(12):1565–1557. [PubMed] [Google Scholar]

7. Вапник В. Распознавание образов методом обобщенного портрета. Автом дистанционного управления. 1963; 24: 774–780. [Google Scholar]

8. Айзерман М.А., Браверман Э.М., Розонер Л.И. Теоретические основы метода потенциальных функций в обучении распознаванию образов. Автом дистанционного управления. 1964;25:821–837. [Google Scholar]

9. Голуб Т.Р., Слоним Д.К., Тамайо П., Хуард С., Гаасенбек М., Месиров Д.П., Коллер Х., Ло М.Л., Даунинг Д.Р., Калиджури М.А. Молекулярная классификация рака: открытие класса и предсказание класса путем мониторинга экспрессии генов. Наука. 1999;286(5439):531–537. [PubMed] [Google Scholar]

10. Вапник В., Мукерджи С. Поддержка VectorMachine для достижений многомерной оценки плотности в нейронных системах обработки информации. Лин Т., Солла С. и Мюллер К.Р. (ред.) Кембридж, Массачусетс, MIT Press. 2000:659–665. [Google Scholar]

11. Moler E, Chow M, Mian I. Анализ данных молекулярного профиля с использованием генеративных и дискриминационных методов. Физиол Геномика. 2000;4(2):109–126. [PubMed] [Google Scholar]

12. Фьюри Т.С., Кристианини Н., Даффи Н., Беднарски Д.В., Шуммер М., Хаусслер Д. Машинная классификация вспомогательных векторов и проверка образцов раковой ткани с использованием данных экспрессии микрочипов. Биоинформатика. 2000;16(10):906–914. [PubMed] [Google Scholar]

13. Сегал Н.Х., Павлидис П., Ноубл В.С., Антонеску Ч.Р., Виале А., Уэсли У.В., Бусам К., Галлардо Х., ДеСантис Д., Бреннан М.Ф. Классификация светлоклеточной саркомы как меланомы мягких тканей с помощью геномного профилирования. Дж. Клин Онкол. 2003; 21: 1775–1781. [PubMed] [Академия Google]

14. Сегал Н.Х., Павлидис П., Антонеску К.Р., Маки Р.Г., Ноубл В.С., ДеСантис Д., Вудрафф Дж.М., Льюис Дж.Дж., Бреннан М.Ф., Хоутон А.Н. Классификация и предсказание подтипа саркомы мягких тканей у взрослых с помощью функциональной геномики. Ам Джей Патол. 2003;163(2):691–700. [Бесплатная статья PMC] [PubMed] [Google Scholar]

15. Тан Ю. Глубокое обучение с использованием линейных машин опорных векторов. Препринт arXiv 1306.0239. 2013 [Google Scholar]

16. Li T, Zhang C, Ogihara M. Сравнительное исследование выбора признаков и методов многоклассовой классификации для классификации тканей на основе экспрессии генов. Биоинформатика. 2004;20(15):2429–2437. [PubMed] [Google Scholar]

17. Модель Ф., Адорьян П., Олек А., Пипенброк С. Выбор признаков для классификации рака на основе метилирования ДНК. Биоинформатика. 2001; 17 (прил. 1): S157–164. [PubMed] [Google Scholar]

18. Ким С. Взвешенная машина опорных векторов K-средних для предсказания рака. Спрингерплюс. 2016;5(1):1162. [Бесплатная статья PMC] [PubMed] [Google Scholar]

19. Yang Z, Jin M, Zhang Z, Lu J, Hao K. Классификация на основе выделения признаков для диагностики гепатоцеллюлярной карциномы с использованием данных высокопроизводительного секвенирования метилирования ДНК. Procedia Comput Sci. 2017; 107: 412–417. [Академия Google]

20. Алкухлани А., Нассеф М., Фараг И. Многоэтапный подход к выбору признаков для многомерных данных о раке. Мягкий компьютер. 2017;21:6895–6906. [Google Scholar]

21. Guo S, Yan F, Xu J, Bao Y, Zhu J, Wang X, Wu J, Li Y, Pu W, Liu Y, Jiang Z, Ma Y, Chen X, Xiong M, Джин Л., Ван Дж. Идентификация и проверка биомаркеров метилирования немелкоклеточного рака легкого (НМРЛ) Clin Epigenetics. 2015;7:3. [Бесплатная статья PMC] [PubMed] [Google Scholar]

22. Sun Z, Fu X, Zhang L, Yang X, Liu F, Hu G. Система белковых чипов для параллельного анализа мультиопухолевых маркеров и ее применение в выявление рака. Противораковый Рез. 2004;24:1159–1165. [PubMed] [Google Scholar]

23. Тьянова С., Альбрехтсен Р., Кронквист П., Кокс Дж., Манн М., Гейгер Т. Протеомные карты подтипов рака молочной железы. Нац коммун. 2016;7:10259. [Бесплатная статья PMC] [PubMed] [Google Scholar]

24. Rapaport F, Barillot E, Vert JP. Классификация данных arrayCGH с использованием объединенного SVM. Биоинформатика. 2008;24(13):i375–i382. [Бесплатная статья PMC] [PubMed] [Google Scholar]

25. Vura S, Wang X, Guda C. Классификация пациентов с раком молочной железы с использованием профилей соматических мутаций и подходов машинного обучения. BMC Сист Биол. 2016;10(доп.3):62. [Бесплатная статья PMC] [PubMed] [Google Scholar]

26. Wu T, Wang Y, Jiang R, Lu X, Tian J. Модель прогнозирования на основе путей для классификации подтипов рака молочной железы. Онкотаргет. 2017;8(35):58809–58822. [Бесплатная статья PMC] [PubMed] [Google Scholar]

27. Lin E, Lane HY. Подходы машинного обучения и системной геномики для мультиомных данных. Биомарк Рез. 2017;5(1):2. [Бесплатная статья PMC] [PubMed] [Google Scholar]

28. Kim S, Jhong JH, Lee J, Koo JY. Метааналитическая машина опорных векторов для интеграции нескольких данных omics. Биоданные Мин. 2017;10(1):2. [Бесплатная статья PMC] [PubMed] [Google Scholar]

29. Ю А.Дж., Ю. С.Ю. Биомаркеры колоректального рака. Противораковый Рез. 2016;36(3):1093–1102. [PubMed] [Google Scholar]

30. He W. Подход с использованием сплайн-функции для обнаружения дифференциально экспрессируемых генов в анализе данных микрочипов. Биоинформатика. 2004;20(17):2954–2963. [PubMed] [Google Scholar]

31. Томас Дж. Г., Олсон Дж. М., Тапскотт С. Дж., Чжао Л. П. Эффективный и надежный подход к статистическому моделированию для обнаружения дифференциально экспрессируемых генов с использованием профилей геномной экспрессии. Геном Res. 2001;11(7):1227–1236. [Бесплатная статья PMC] [PubMed] [Google Scholar]

32. Pan W. Сравнительный обзор статистических методов обнаружения дифференциально экспрессируемых генов в экспериментах с повторными микрочипами. Биоинформатика. 2002;18(4):546–554. [PubMed] [Google Scholar]

33. Троянская О.Г., Гарбер М.Е., Браун П.О., Ботштейн Д., Альтман Р.Б. Непараметрические методы идентификации дифференциально экспрессируемых генов в данных микрочипов. Биоинформатика. 2002;18(11):1454–1461. [PubMed] [Google Scholar]

34. Xu G, Zhang M, Zhu H, Xu J. 15-генная сигнатура для предсказания рецидива рака толстой кишки и прогноза на основе SVM. Ген. 2017; 604:33–40. [PubMed] [Академия Google]

35. Hu Y, Hase T, Li HP, Prabhakar S, Kitano H, Ng SK, Ghosh S, Wee LJ. Подход машинного обучения для идентификации ключевых маркеров, участвующих в развитии мозга, по данным транскриптомии отдельных клеток. Геномика БМС. 2016;17(доп.13):1025. [Бесплатная статья PMC] [PubMed] [Google Scholar]

36. Henneges C, Bullinger D, Fux R, Friese N, Seeger H, Neubauer H, Laufer S, Gleiter CH, Schwab M, Zell A, Kammerer B. Prediction рака молочной железы путем профилирования метаболитов РНК в моче с использованием выбора признаков на основе машины опорных векторов. БМК Рак. 2009 г.;9:104. [Бесплатная статья PMC] [PubMed] [Google Scholar]

37. Han M, Dai J, Zhang Y, Lin Q, Jiang M, Xu X, Liu Q, Jia J. Машины опорных векторов в сочетании с протеомными подходами для обнаружения биомаркеров прогнозирование резистентности к химиотерапии при мелкоклеточном раке легкого. Oncol Rep. 2012;28(6):2233–2238. [PubMed] [Google Scholar]

38. Abeel T, Helleputte T, Van de Peer Y, Dupont P, Saeys Y. Надежная идентификация биомаркеров для диагностики рака с помощью методов выбора ансамблевых признаков. Биоинформатика. 2009 г.;26(3):392–398. [PubMed] [Google Scholar]

39. Guyon I, Elisseeeff A. Введение в выбор переменных и признаков. Дж. Мах Узнать Рез. 2003;3:1157–1182. [Google Scholar]

40. Guyon I, Weston J, Barnhill S, Vapnik V. Отбор генов для классификации рака с использованием машин опорных векторов. Мах Учиться. 2002;46(1):389–422. [Google Scholar]

41. Чен Л., Сюань Дж., Риггинс Р.Б., Кларк Р., Ван Ю. Идентификация биомаркеров рака с помощью машин опорных векторов, ограниченных сетью. BMC Сист Биол. 2011;5(1):161. [Бесплатная статья PMC] [PubMed] [Google Scholar]

42. Стагос Д., Караберис Э., Куретас Д. Оценка антиоксидантной/антиканцерогенной активности растительных экстрактов комбинацией молекулярных методов. В Виво. 2005;19(4):741–747. [PubMed] [Google Scholar]

43. Вармут М.К., Ляо Дж., Рач Г., Мэтисон М., Путта С., Леммен С. Активное обучение с использованием опорных векторов в процессе разработки лекарств. J Chem Inf Comput Sci. 2003;43(2):667–673. [PubMed] [Google Scholar]

44. Гупта С., Чаудхари К., Кумар Р., Гаутам Г., Нанда Дж. С., Дханда С. К., Брахмачари С. К., Рагхава ГПС. Приоритизация противоопухолевых препаратов против рака с использованием геномных особенностей раковых клеток: шаг к персонализированной медицине. Научный доклад 2016; 6: 23857. [Бесплатная статья PMC] [PubMed] [Google Scholar]

45. Бундела С., Шарма А., Бисен П.С. Потенциальные соединения для лечения рака полости рта: ресвератрол, нимболид, ловастатин, бортезомиб, вориностат, берберин, птеростильбен, дегелин, андрографолид и колхицин. ПЛОС Один. 2015;10(11):e0141719. [Бесплатная статья PMC] [PubMed] [Google Scholar]

46. Мацумото А., Аоки С., Овада Х. Сравнение случайного леса и SVM для необработанных данных при разработке лекарств: прогнозирование радиационной защиты и токсического исследования. Int J Mach Learn Comput. 2016;6(2):145–148. [Академия Google]

47. Morita A, Ariyasu S, Wang B, Asanuma T, Onoda T, Sawa A, Tanaka K, Takahashi I, Togami S, Nenoi M. AS-2, новый ингибитор p53-зависимого апоптоза, предотвращает апоптотические митохондриальные дисфункция независимым от транскрипции образом и защищает мышей от летальной дозы ионизирующего излучения. Biochem Biophys Res Commun. 2014;450(4):1498–1504. [PubMed] [Google Scholar]

48. Волкамер А., Кун Д., Громбахер Т., Риппманн Ф., Рэри М. Сочетание глобальных и локальных показателей для прогнозирования лекарственной способности на основе структуры. Модель J Chem Inf. 2012;52(2):360–372. [PubMed] [Академия Google]

49. Ли Л., Ван Б., Меруэ С. О. Поддержка оценки векторной регрессии комплексов рецептор-лиганд для ранжирования и виртуального скрининга химических библиотек. Модель J Chem Inf. 2011;51(9):2132–2138. [Бесплатная статья PMC] [PubMed] [Google Scholar]

50. Li GB, Yang LL, Wang WJ, Li LL, Yang SY. ID-Score: новая эмпирическая функция оценки, основанная на комплексном наборе дескрипторов, связанных с взаимодействием белок-лиганд. Модель J Chem Inf. 2013;53(3):592–600. [PubMed] [Академия Google]

51. Wang Q, Feng Y, Huang J, Wang T, Cheng G. Новая структура для идентификации белков-мишеней лекарственных препаратов: объединение сложенных автокодировщиков со смещенной машиной опорных векторов. PloS Один. 2017;12(4):e0176486. [Бесплатная статья PMC] [PubMed] [Google Scholar]

52. Чон Дж., Ним С., Тейра Дж., Датти А., Врана Дж.Л., Сидху С.С., Моффат Дж., Ким П.М. Системный подход к выявлению новых мишеней для противораковых препаратов с использованием машинного обучения, разработки ингибиторов и высокопроизводительного скрининга. Геном Мед. 2014;6(7):57. [Бесплатная статья PMC] [PubMed] [Google Scholar]

53. Сингх Х., Кумар Р., Сингх С., Чаудхари К., Гаутам А., Рагхава Г.П. Прогнозирование противоопухолевых молекул с использованием гибридной модели, разработанной на молекулах, проверенных на линии раковых клеток NCI-60. БМК Рак. 2016;16(1):77. [Бесплатная статья PMC] [PubMed] [Google Scholar]

54. Stetson LC, Pearl T, Chen Y, Barnholtz-Sloan JS. Компьютерная идентификация мультиомных коррелятов противоракового терапевтического ответа. Геномика BMC. 2014;15(7):S2. [Бесплатная статья PMC] [PubMed] [Google Scholar]

55. Hejase HA, Chan C. Улучшение прогнозирования чувствительности к лекарственным средствам с использованием различных типов данных. CPT Pharmacometrics Syst Pharmacol. 2015;4:98–105. [Бесплатная статья PMC] [PubMed] [Google Scholar]

56. Hazai E, Hazai I, Ragueneau-Majlessi I, Chung SP, Bikadi Z, Mao Q. Прогнозирование субстратов белка устойчивости к раку молочной железы человека с использованием машины опорных векторов метод. Биоинформатика BMC. 2013;14:130. [Бесплатная статья PMC] [PubMed] [Google Scholar]

57. Normanno N, Rachiglio AM, Roma C, Fenizia F, Esposito C, Pasquale R, La Porta ML, Iannaccone A, Micheli F, Santangelo M. Молекулярная диагностика и персонализированная медицина в онкологии: вызовы и возможности. Джей Селл Биохим. 2013;114(3):514–524. [PubMed] [Академия Google]

58. Vogelstein B, Papadopoulos N, Velculescu VE, Zhou S, Diaz LA, Kinzler KW. Ландшафты генома рака. Наука. 2013;339(6127):1546–1558. [Бесплатная статья PMC] [PubMed] [Google Scholar]

59. Джордан Э.Дж., Радхакришнан Р. Предсказания машинного обучения мутаций, вызывающих рак. Материалы 6-го Международного семинара перспективных исследований по онкологии и исследованию рака in silico 2014 года. 2014 г.: 10.1109/IARWISOCI.2014.7034632. [Google Scholar]

60. Capriotti E, Altman RB. Новый подход к машинному обучению для конкретных заболеваний для прогнозирования вариантов миссенс, вызывающих рак. Геномика. 2011;98(4):310–317. [Бесплатная статья PMC] [PubMed] [Google Scholar]

61. Izarzugaza JM, del Pozo A, Vazquez M, Valencia A. Приоритизация патогенных мутаций в суперсемействе протеинкиназ. Геномика BMC. 2012;13(4):S3. [Бесплатная статья PMC] [PubMed] [Google Scholar]

62. Tan H, Bao J, Zhou X. Новая схема извлечения признаков, связанных с миссенс-мутацией, для идентификации «драйверной» мутации. Биоинформатика. 2012;28(22):2948–2955. [Бесплатная статья PMC] [PubMed] [Google Scholar]

63. Каприотти Э., Альтман Р.Б. Новый подход к машинному обучению для конкретных заболеваний для прогнозирования вариантов миссенс, вызывающих рак. Геномика. 2011;98(4):310–317. [Бесплатная статья PMC] [PubMed] [Google Scholar]

64. Bari MG, Ung CY, Zhang C, Zhu S, Li H. Подход к сетевому выводу с помощью машинного обучения для определения нового класса генов, которые координируют функциональность раковые сети. Научный доклад 2017; 7: 6993. [Бесплатная статья PMC] [PubMed] [Google Scholar]

65. Listgarten J, Damaraju S, Poulin B, Cook L, Dufour J, Driga A, Mackey J, Wishart D, Greiner R, Zanke B. Прогностические модели груди предрасположенность к раку из-за множественных однонуклеотидных полиморфизмов. Клин Рак Рез. 2004;10(8):2725–2737. [PubMed] [Академия Google]

66. Schwender H, Zucknick M, Ickstadt K, Bolt HM, The GENICA network Пилотное исследование по применению процедур статистической классификации к молекулярным эпидемиологическим данным. Токсикол Летт. 2004;151(1):291–299. [PubMed] [Google Scholar]

67. Chen SH, Sun J, Dimitrov L, Turner AR, Adams TS, Meyers DA, Chang BL, Zheng SL, Grönberg H, Xu J. Метод опорных векторов для обнаружения генов. взаимодействие генов. Генетический эпидемиол. 2008;32(2):152–67. [PubMed] [Академия Google]

68. Guo Y, Yu L, Wen Z, Li M. Использование метода опорных векторов в сочетании с автоковариантностью для прогнозирования межбелковых взаимодействий на основе белковых последовательностей. Нуклеиновые Кислоты Res.