Data Commons использует искусственный интеллект для улучшения доступности и полезности общедоступных данных во всем мире.

Data Commons использует ИИ для улучшения доступности и полезности общедоступных данных во всем мире.

Каждую минуту, повсюду по всему миру, правительства, организации и многие другие генерируют данные по самым разнообразным темам, таким как температура, торговля или уровень заболеваемости. Это данные, которые могут быть чрезвычайно полезными для понимания и решения глобальных социальных проблем, таких как изменение климата, голод или эпидемии. К счастью, большая часть этих данных является общедоступной, и ожидается еще больше данных. К сожалению, общедоступность не означает простоту доступа и использования. Именно эту разрыв заполняет Data Commons, инициатива от Google.

Данные часто раздроблены государственными и границами стран, собираются и публикуются разными агентствами, исследовательскими учреждениями и другими неправительственными организациями, а также распространяются в разных форматах и в разное время. Очень сложно, требует много времени и затрат, чтобы объединить эти общедоступные наборы данных таким образом, чтобы они были полезны для принятия решений политиками, исследователями, некоммерческими организациями, журналистами, студентами и общественностью, стремящимися лучше понять социальные проблемы и найти решения. Долгосрочная цель Data Commons – сделать общедоступные данные так же доступными и полезными, как Google Search для интернета или Google Maps для навигации.

10:25

Нашей целью является обеспечение доступности данных и выводов из них для тех, кто стремится понять и работать над самыми острыми вызовами и возможностями общества. Для этого мы используем два инновационных подхода, с большим количеством предстоящих.

Во-первых, с 2017 года команда Data Commons стремится стандартизировать и обработать тысячи наборов данных из общедоступных надежных источников, начиная от Межправительственной панели по климату Организации Объединенных Наций и заканчивая Бразильским институтом географии и статистики и Министерством коммерции Соединенных Штатов. Для этого требуется инновационный подход, чтобы объединить данные в различных форматах, схемах и методах доступа, и создать граф знаний с помощью единого API и схемы, создавая единое представление. Это единое представление позволяет пользователям с опытом работы с данными справиться с задачами за несколько часов, вместо обычных нескольких недель или даже дольше. Хотя стандартизация и доступность данных были значительным шагом вперед, использование их через API и инструменты визуализации все равно требовало значительных затрат времени и, часто, навыков программирования, чтобы понять и эффективно использовать данные.

Во-вторых, для решения этой проблемы и сделать Data Commons еще более удобным, Data Commons теперь использует силу искусственного интеллекта, конкретно больших языковых моделей (LLM), для создания естественного языкового интерфейса, который позволяет пользователям задавать вопросы, такие как: Какие штаты в Индии имеют самые высокие уровни бедности на душу населения? Каково соотношение грамотности к бедности там? Как меняется коэффициент детской смертности со временем в этих штатах?

Видеоформат не поддерживается

Благодаря искусственному интеллекту становится возможным задавать вопросы вроде: “Какие страны Африки имеют наибольший рост доступа к электричеству?” и “Как связан доход с диабетом в округах США?” или предлагать запросы вроде: “Сравните выбросы парниковых газов из сельского хозяйства в Европе и их ВВП?”

LLM используется для понимания запроса, а результаты берутся прямо из Data Commons, включая ссылку на исходный источник данных; следовательно, вывод не генерируется LLM. Этот подход позволяет Data Commons избежать некоторых известных ограничений LLM в отношении достоверности в некоторых случаях.

Data Commons не собирает и не владеет данными, вместо этого он использует общедоступные данные из более чем 200 источников, охватывающих тысячи наборов данных, включая демографию, экономику, образование, жилище, общественное здоровье, климат, устойчивость и биомедицину. Есть данные из 194 стран, в некоторых странах – до уровня штата или округа. Однако доступные данные не равномерно распределены и не полны – к сожалению, доступность данных отражает многие проблемы справедливости, с которыми мир сталкивается в других вопросах, поэтому на данный момент у нас больше данных для США, Индии и стран ОЭСР, чем для стран Африки, Южной Америки и некоторых регионов Азии. Необходимо провести дополнительную работу для предоставления дополнительных и актуальных данных. Мы надеемся, что будет опубликовано больше общедоступных данных, чтобы заполнить пробелы, и стремимся добавить больше категорий данных, полезных для лучшего понимания мира и помощи тем, кто работает над решением острых социальных проблем. Мы активно ищем дополнительные данные и партнеров, чтобы помочь заполнить некоторые из этих пробелов.

Data Commons – это проект с открытым исходным кодом, открытым процессом и доступным для всех. Помимо сайта Data Commons, подмножество данных из Data Commons используется при ответах на запросы в Google Search. Мы также сотрудничаем с организациями, использующими Data Commons для решения социальных проблем – результатом является развивающаяся экосистема, которая позволяет группам, таким как Resources for the Future, Feeding America, Robert Bosch Centre for Data Science and Artificial Intelligence Мадрасского технологического института, Школе устойчивости Дорра в Стэнфорде и Институту количественных социальных наук Гарвардского университета, иметь свои собственные версии Data Commons, предоставляя организациям единое представление их собственных данных с уже доступными общедоступными данными через Data Commons.

Marnie Webb, главный офицер по влиянию на общество в TechSoup, долгосрочном партнере Google, поделилась тем, как Data Commons также может быть полезным для небольших некоммерческих организаций, с которыми работает ее организация: “Data Commons дает организациям на местах доступ к нужным данным. Это дает им инструменты для задавания вопросов о потребностях их сообщества на языке, который они использовали бы для общения с коллегами, и получения надежной информации в ответ, как будто у них есть на штате ученые-исследователи и инженеры данных. Мы говорим о демократизации информации для принятия лучших решений, чтобы организации могли рисковать разумно для лучшего обслуживания своих сообществ. Мы говорим о передаче силы данных тем, кто лучше всего знает свои сообщества.”

Например, с помощью финансирования от Google.org, TechSoup помогает некоммерческим организациям использовать силу Data Commons для оценки и решения социальных проблем. Например, Cemefi выявляет взаимосвязи между голодом и гендером в Мексике, а Makaia отслеживает экономический и социальный рост в Колумбии. TechSoup иллюстрирует взаимосвязь между продовольственной безопасностью, сельским хозяйством и изменением климата, объединяя данные из источников, таких как USDA и Feeding America.

Data Commons – это проект, который продолжается. Хотя команда работает над ним с 2017 года, в каком-то смысле мы только начинаем – и нам нужно, чтобы другие люди продолжали присоединяться к этой работе. Чтобы сделать больше данных доступными, нам нужны партнеры, которые помогут идентифицировать и заполнить пробелы в данных. И нам нужны организации, такие как TechSoup, Resources for the Future, Feeding America и многие другие, чтобы использовать эти данные для решения некоторых из самых больших проблем мира. Вместе нам еще многое предстоит сделать.

Узнайте больше о том, как сделать данные доступными через Data Commons.