АЛЕКСАНДРИЯ ОКАСИО-КОРТЕЗ УТВЕРЖДАЕТ, ЧТО АЛГОРИТМЫ МОГУТ БЫТЬ РАСИСТСКИМИ ВОТ ПОЧЕМУ ОНА ПРАВА.

Send

На прошлой неделе новоизбранная американская респондентка Александрия Окасио-Кортез сделала заголовки, когда она сказала, как часть четвертого ежегодного события MLK Now, что технологии и алгоритмы распознавания лиц «всегда имеют эти расовые неравенства, которые переводятся, потому что алгоритмы все еще сделаны человеческими существами, и эти алгоритмы все еще привязаны к базовым человеческим предположениям. Они просто автоматизированы. И автоматизированные предположения - если вы не исправите смещение, то вы просто автоматизируете смещение ".

Означает ли это, что алгоритмы, которые теоретически основаны на объективных истинах математики, могут быть «расистскими»? И если так, что можно сделать, чтобы устранить это смещение?

Оказывается, что выходные данные алгоритмов действительно могут давать смещенные результаты. Исследователи данных говорят, что компьютерные программы, нейронные сети, алгоритмы машинного обучения и искусственный интеллект (ИИ) работают, потому что они учатся вести себя на основе данных, которые им дают. Программное обеспечение написано людьми, которые имеют предвзятость, и данные обучения также генерируются людьми, которые имеют предвзятость.

Два этапа машинного обучения показывают, как это смещение может перерасти в казалось бы автоматизированный процесс. На первом этапе, на этапе обучения, алгоритм обучается на основе набора данных или определенных правил или ограничений. Второй этап - это этап вывода, на котором алгоритм применяет то, чему он научился на практике. На втором этапе выявляются ошибки алгоритма. Например, если алгоритм тренируется с изображениями только женщин с длинными волосами, то он будет думать, что любой с короткими волосами - мужчина.

Google позорно попал под обстрел в 2015 году, когда Google Фото назвал чернокожих людей гориллами, вероятно потому, что это были единственные темнокожие существа в тренировочном наборе.

И предвзятость может проникнуть через многие пути. «Распространенной ошибкой является тренировка алгоритма для прогнозирования, основанного на прошлых решениях предвзятых людей», - сказала Софи Сирси, старший научный сотрудник учебного лагеря по обучению науке о данных Метис, в интервью Live Science. «Если я сделаю алгоритм для автоматизации решений, ранее принятых группой кредитных офицеров, я мог бы пойти по легкому пути и обучить алгоритм на прошлых решениях этих кредитных офицеров. Но тогда, конечно, если эти кредитные офицеры были предвзятыми, то алгоритм, который я создаю, будет продолжать эти уклоны ".

Сирси привел пример КОМПАС, инструмента прогнозирования, используемого в системе уголовного правосудия США для вынесения приговора, который пытается предсказать, где будет совершено преступление. ProPublica провела анализ COMPAS и обнаружила, что после учета других статистических объяснений инструмент переоценил риск рецидивизма для черных обвиняемых и последовательно недооценил риск для белых обвиняемых.

Чтобы помочь в борьбе с алгоритмическими искажениями, Сирси сказал Live Science, что инженеры и ученые, занимающиеся данными, должны создавать более разнообразные наборы данных для новых задач, а также пытаться понять и смягчить смещение, встроенное в существующие наборы данных.

В первую очередь, по словам Айры Коэн, ученого-аналитика из компании Anodot в области прогнозной аналитики, у инженеров должен быть учебный набор с относительно равномерным представлением всех типов населения, если они обучают алгоритму определения этнических или гендерных атрибутов. «Важно представлять достаточное количество примеров из каждой группы населения, даже если они составляют меньшинство в общей исследуемой группе населения», - сказал Коэн в интервью Live Science. Наконец, Коэн рекомендует проверять наличие ошибок в тестовом наборе, включающем людей из всех этих групп. «Если для определенной расы точность статистически значительно ниже, чем в других категориях, алгоритм может иметь смещение, и я оценил бы тренировочные данные, которые использовались для него», - сказал Коэн LiveScience. Например, если алгоритм может правильно идентифицировать 900 из 1000 белых лиц, но правильно обнаруживает только 600 из 1000 азиатских лиц, тогда алгоритм может иметь смещение «против» азиатов, добавил Коэн.

Удаление предвзятости может быть невероятно сложным для ИИ.

Даже Google, считающийся предшественником в области коммерческого ИИ, очевидно, не смог придумать комплексное решение проблемы горилл с 2015 года. Wired обнаружил, что вместо того, чтобы искать в своих алгоритмах различие между людьми цвета и гориллы, Google просто заблокировал его алгоритмы распознавания изображений от идентификации горилл вообще.

Пример Google - хорошее напоминание о том, что обучение программному обеспечению AI может быть трудным занятием, особенно когда программное обеспечение не тестируется или не обучается представительной и разнообразной группой людей.

Send