Вопрос к стартапам.

Недавно я наткнулся на эту проницательную статью о KD Nuggets. Подводя краткий итог, автор подвергает сомнению большие инвестиции в навыки и вместо этого продвигает идею о том, что деньги следует тратить на получение большего количества и более качественных данных.

Я в основном не согласен с автором в части «Данные важнее, чем навыки», и я чувствую, что пункты в его разделе «ИИ как рычаг» сами по себе опровергают его первый пункт.

Несмотря на то, что библиотеки и более простые интерфейсы облегчают жизнь разработчикам, все, что они делают, — это снижают входной барьер. Это все. Теперь люди практически без знаний могут прийти и поэкспериментировать с алгоритмами машинного обучения, но на этом все останавливается. Чтобы создать полноценный продукт, требуется больше, чем просто возможность использовать внешние библиотеки. Знание математики и статистики кода одинаково важно по нескольким причинам.

  1. Несмотря на то, что автор говорит, что настройка модели автоматизирована, она все еще далека от совершенства. Большинство стартапов, утверждающих, что достигли этого, полагаются на тщательно разработанные алгоритмы, которые сочетают алгоритмы грубой силы/поиска со знанием предметной области для ранжирования различных настроек алгоритма. Это указывает на то, что знание предметной области, которое само меняется со временем, гарантирует, что навыки разработчиков останутся актуальными и востребованными.
  2. Даже если мы предположим, что настройка модели может быть полностью автоматизирована в будущем, это только усугубит проблему черного ящика, которая в первую очередь является одним из основных препятствий для массового внедрения ML. Чувствительные области, подобные упомянутым автором — здравоохранение, финансы — избегают полного использования машинного обучения в своих основных услугах из-за необъяснимой природы этих подходов черного ящика. Программные системы, оставленные для создания других программных систем, нервируют многих людей, особенно когда неизвестны «почему».
  3. Автор также упомянул о переоснащении — это обычная реальность. Покупка и передача большего количества данных алгоритму не решит проблему, и поэтому люди предпочтут покупать данные хорошего качества. Но что такое данные хорошего качества? Кто имеет доступ к ним? Одна вещь, которую доказывают соревнования Kaggle, заключается в том, что, хотя у крупных компаний есть данные, очень сложно оценить стоимость этого актива. Очень сложно количественно определить, что такое «хорошие» данные. Тогда как нам купить «хорошие» данные, если мы не знаем, что это такое?
  4. Крупные компании часто проводят соревнования kaggle, чтобы позволить «высококвалифицированным» энтузиастам машинного обучения поиграть и найти решения. Еще раз доказывая, что даже если данные могут быть доступны, именно навыки разработчиков делают их важными.
  5. Возвращаясь к метафоре «Данные как новая нефть». В нефтяной промышленности по-прежнему работают миллионы людей, и успех многочисленных игроков, существующих в отрасли, объясняется не тем, что они имеют доступ к нефти хорошего качества, а благодаря множеству различных бизнес-процессов и технологий, а также инноваций и квалифицированных рабочих, которые повышают ценность этого. «черная масса». По сравнению с нефтяной промышленностью, технологии и ИТ развиваются и внедряют инновации более быстрыми темпами, и это именно из-за снижения барьера для входа, но важным следствием этого является то, что более новые, лучшие и более эффективные «архитектуры» сохранят свою актуальность. приходящий. AI и ML будут развиваться ускоренными темпами, новаторы и ранние последователи проложат путь, а навыки разработчиков будут по-прежнему востребованы.
  6. Слышали о «Темных данных»? Да, есть нечто, называемое темными данными. Gartner определяет это как

информационные активы, которые организации собирают, обрабатывают и хранят в ходе обычной деловой деятельности, но обычно не используют для других целей (например, для аналитики, деловых отношений и прямой монетизации). Подобно темной материи в физике

Нефть оставалась неизменной в течение миллионов лет, глубоко внутри земли, в ожидании.

Что изменилось? Технология и навыки.

Кто/что решит проблему темных данных? Сделать данные ценными?

Технология и навыки.