В машинном обучении входные данные отражают стереотипы и предубеждения общества в целом, а выходные данные алгоритма обучения также отражают эти стереотипы.

Здесь мы обсудим гендерные стереотипы при встраивании слов.

встраивание слов кодирует семантическую информацию, они также демонстрируют скрытые предубеждения, присущие набору данных, которые они обучают ассоциациям, таким как:

отец:доктор :: мать:медсестра

мужчина:программист :: женщина:домохозяйка

Предубеждения и стереотипы в этих встраиваниях отражают предубеждения, заложенные в данных, на которых они обучались. Встраивание слова обычно оптимизируется для предсказания одновременно встречающихся слов в корпусе.

Выявление стереотипов

Методы устранения предвзятости

- Определить, как слова, например, соответствующие профессиям, распределяются по направлению между вложениями «он» и «она».

- Алгоритм создания пар аналогий из вложения с двумя начальными словами, а затем мы используем краудворкеры для количественной оценки того, отражают ли эти встраивания аналогии стереотипы.

Простой подход к изучению того, как гендерные стереотипы проявляются при встраивании, состоит в том, чтобы количественно определить, какие слова ближе к «он», а какие к «она» в пространстве встраивания.

а. Составьте список распространенных названий профессий.

б. Удалите имена, связанные с одним полом по определению (например, официантка, официант).

Для каждого имени в списке (v) вычислите его проекцию на ось:

Несколько профессий ближе к вектору «он» или «она», и это согласуется во всем встраивании, предполагая, что встраивание кодирует гендерные стереотипы.

Слова (профессия), ближайшие к словам "он", "она" и "между двумя", окрашены в красный цвет и показаны на графике.

Теперь давайте автоматизируем процесс:

  1. Сгенерируйте аналогичные пары слов путем встраивания слов «он» и «она» и методом краудсорсинга оцените степень стереотипности каждой пары.
  2. Искомая аналогия (он:она :: w1:w2) обладает следующими свойствами:
    › направление (w1-w2) должно совпадать с направлением он-она.
    › (w1 и w2) должно быть семантически схожими.
  3. Исходя из этого, для данного вложения слова E оценка в аналогичные пары может быть получена по следующей формулировке:

где d — гендерное направление, рассчитанное выше, а дельта — порог сходства. Каждая пара слов оценивается, используйте пары как стереотипные, чтобы количественно оценить степень предвзятости этой аналогии.

Снижение стереотипов

Чтобы уменьшить эти стереотипы при сохранении желаемой геометрии встраивания:

Входы:

  1. Вложение слов, хранящееся в матрице, E [- R(n, r).
    где n — количество слов, а r — размер скрытого пространства.
  2. Матрица B [- R(n(b), r), где каждый столбец представляет собой вектор, представляющий направление стереотипа.
    Здесь B = v(он) — v(она)
    Но в целом B может содержать несколько стереотипов, включая пол, расизм и т. д.
  3. Матрица P [- R(n(p), r), столбцы которой соответствуют набору исходных слов, которые мы хотим устранить.
  4. Матрица A [- E, столбцы которой представляют фоновый набор слов. Мы хотим, чтобы алгоритм сохранял их попарные расстояния.

Цель состоит в том, чтобы сгенерировать матрицу преобразования, которая имеет следующие свойства:

  • Преобразованные вложения не содержат стереотипов.
    То есть все векторы-столбцы в PT должны быть перпендикулярны векторам-столбцам в BT.
  • Преобразованное вложение сохраняет расстояния между любыми двумя векторами в матрице A.

мы можем зафиксировать эти две цели в виде следующей задачи полуположительно определенного программирования.

Где X = TT^T и || F – норма Фробениуса.

* Первый член обеспечивает сохранение попарных расстояний, а второй член вызывает малые смещения на начальных словах. Задаваемый пользователем параметр λ уравновешивает два термина.

После СВД,

Чтобы проверить алгоритм устранения предвзятости, соберите слова, которые могут отражать гендерный стереотип (например, менеджер, медсестра). Используйте некоторые для обучения в качестве столбцов матрицы P. Остальные используются для тестирования.

*Синие кружки — это 88 слов гендерного стереотипа, которые составляют наш тестовый набор.

*Зеленые крестики — это случайная выборка фоновых слов, которые не предполагались как стереотипные.

*Большинство слов-стереотипов расположены близко к линии y = 0, что соответствует их расположению около средней точки между he и she. Напротив, фоновые точки были значительно меньше затронуты преобразованием устранения смещения.

Проверка

Используйте отклонения для количественной оценки этого результата. Для каждого тестового слова (либо гендерно-стереотипного, либо фонового) спроецируйте его на направление «он — она».

Затем вычислите дисперсию проекций в исходном вложении и после преобразования устранения смещения. Для тестовых слов гендерного стереотипа дисперсия в исходном встраивании составляет 0,02, а дисперсия после преобразования — 0,001.
Для фоновых слов дисперсия до и после преобразования составила 0,005 и 0,0055 соответственно.

Это свидетельствует о том, что трансформация смогла уменьшить гендерный стереотип.

Подтверждение

Протестируйте преобразованное вложение на нескольких стандартных тестах, которые измеряют, имеют ли связанные слова похожие вложения, а также насколько хорошо вложение работает в задачах аналогии.

Вивек Гупта: https://www.linkedin.com/in/vivekg-/

Подпишитесь на меня в Quora: https://www.quora.com/profile/Vivek-Gupta-1493

Ознакомьтесь с моим юридическим пространством здесь: https://easylaw.quora.com