В более широком понимании машинное обучение — это сфера науки, которая нацелена на создание машин (алгоритмов), способных обучаться с помощью предоставляемой им информации, без необходимости их точного программирования.
Если же понимать под термином «машинное обучение» некий процесс, то это работа математического алгоритма, направленная на определение оптимального набора параметров окончательной модели, способной максимально точно предсказывать изучаемый исход.
Технологии машинного обучения умеют работать с большими объемами данных, в том числе с автоматически генерируемыми данными, имеющими сложную разветвленную структуру.
Алгоритмы машинного обучения умеют находить сложные взаимосвязи между большим количеством признаков, что позволяет разрабатывать более эффективные и точные модели, чем при использовании только классических статистических подходов.
Большой объем данных не является обязательной составляющей машинного обучения – алгоритмы можно запускать и на сравнительно небольших массивах данных. Между тем использование больших наборов данных, как правило, позволяет получить более эффективные и универсальные модели. В процессе машинного обучения обычно все данные разбиваются на три группы: «обучающая выборка», «валидационная выборка» и «тестовая выборка».
«Обучающая выборка» — это набор данных, который используется для разработки модели машинного обучения.
«Валидационная выборка» — это набор данных, который используется в процессе разработки модели машинного обучения для подбора оптимального набора гиперпараметров.
«Тестовая выборка» — это набор данных, который не используется непосредственно в процессе обучения модели или для подбора гиперпараметров, однако позволяет протестировать модель и является контрольным.
Современные технологии машинного обучения позволяют решать несколько типов медицинских задач. Наиболее распространенным типом задач являются задачи медицинской классификации, решение которых необходимо для создания новых диагностических методов и методов прогнозирования. Задачи классификации в свою очередь могут быть как бинарными, когда необходимо сделать выбор между двумя состояниями, так и полиномиальными, когда возможных состояний более двух. Например, диагностика различных клинических форм анемии.
Реже с помощью машинного обучения в медицине решаются задачи регресии, которые отличаются от задач классификации тем, что допустимым ответом является действительное число или числовой вектор, а не вероятность наличия или развития у пациента какого-либо из возможных состояний. Например, прогнозирование длительности лечения пациента (количество дней).