004 - 24 ЯНВАРЯ 2014
НОВЫЕ ГОРОДСКИЕ ИССЛЕДОВАНИЯ: ЗАЧЕМ НУЖНЫ БОЛЬШИЕ МАССИВЫ ИНФОРМАЦИИ О МЕГАПОЛИСЕ И ЧЕМ ПОЛЕЗЕН ИХ АНАЛИЗ
О.ЧИЖ: 11:12 в Москве, программа «Город от ума», программа о городском пространстве, городской среде.
Меня зовут Оксана Чиж. Всем добрый день. И с большим удовольствием представляю сегодняшнюю мою соведущую, гостя эфира. Екатерина Серова, руководитель проекта «Urban Data». Здравствуйте.
Е.СЕРОВА: Здравствуйте.
О.ЧИЖ: Говорить мы сегодня будем о новых городских исследованиях.
Будем выяснять, зачем нужны большие массивы информации о городе и чем полезен их анализ. Вот есть такое понятие — большие данные. Казалось бы, вещь очень абстрактная. Как я себе представляю... как раньше делались исследования, на взгляд дилетанта. Мне кажется, что, наверное, где-нибудь в каком-нибудь НИИ Госплана собирались такие архитекторы, которые смотрели на какую-то такую статистику из Института статистики, смотрели на карту города, и на основании этого приходили к чему-то. Но прогресс, он же коварный, он на месте не стоит, и играет с нами такие злые шутки. Теперь мы окружены огромным количеством различных электронных устройств, всего остального, которое а) облегчает нашу жизнь, б) дает о нас очень много информации. И весь вопрос в том, как эту информацию использовать. Что такое большие данные вообще глобально для города? Е.СЕРОВА: Большие данные отличаются от статистики и от информации в традиционном понимании, во-первых, гигантскими объемами, в которых они производятся и, поскольку большие данные производятся каждым из нас и в каждую секунду времени, можно понимать, насколько немыслимые объемы информации.
Во-вторых, это скорость и непрерывность производства информации. Когда мы пользуемся мобильным устройством, мы постоянно подаем сигналы которые где-то фиксируются и которые создают эти данные. О.ЧИЖ: Ну, это сигналы о том, где мы находимся, какие запросы мы делаем, что по приложениям мы ищем: пробки, магазины, еще что-то такое.
Е.СЕРОВА: Да, это информация, которая... именно в контексте города могут быть интересны большие данные, которые производятся мобильными устройствами горожан, которые производятся, допустим, при использовании кредитных карточек или банкоматов, которые производятся при использовании чипованных карт каких-нибудь, помимо кредитных, допустим, социальная карта москвича, если бы эти данные отслеживались.
Это данные, которые производятся в сети интернет не только нашими дискуссиями, но и нашей активностью, просто пользованием браузером, допустим, и вбиванием разных запросов в поисковую систему. То есть, типов источников этих больших данных достаточно много, но их всех объединяет именно непрерывность производства и огромные объемы.
И, с одной стороны, это огромная возможность, огромный потенциал для городских исследований, поскольку теперь город можно изучать не отдельными срезами статистики, а непрерывно, в режиме реального времени. С другой стороны — это, конечно, огромный вызов урбанистам-исследователям, потому что просто взглянуть на эти данные - это не дает никакого ответа ни на какие вопросы... О.ЧИЖ: То есть, нужны какие-то механизмы сортировки?
Е.СЕРОВА: Нужно научиться, да, это сортировать о обрабатывать, нужно научиться это как-то правильно преподносить, чтобы видеть выводы, нужно, наконец, научиться это глубоко анализировать, ведь это новый тип информации, и пока что методики и какие-то универсальные инструменты не сформулированы, не выявлены.
И как раз об этом хотелось бы рассказать на примере недавно завершенного исследования, потому что это живой пример того, как и методика, и все подходы, и идеология складывалась просто на ходу потому что иначе... О.ЧИЖ: Методом проб ошибок?
Е.СЕРОВА: Да, и методом бесконечных проб и бесконечных ошибок.
О.ЧИЖ: А что за исследование?
То есть, для чего? Е.СЕРОВА: В конце прошлого года в Москве проходил Московский урбанистический форум.
Один из эфиров «Города от ума» был как раз посвящен подготовке к нему. И в этом году темой основной форума стала периферия городов, в частности — московская периферия, и организаторы Московского урбанистического форума при подготовке к нему заказали исследование периферии, в частности — московской периферии, чем она живет и прочее. Этим исследованием занялась команда экспертов разных сфер развития города, которую объединил консорциум Института медиа, дизайна и архитектуры «Стрелка» и Бюро «Проект Меганом», и они собрали... разработали, во-первых, методику этого исследования, методологию, а во-вторых, собрали такую команду междисциплинарную. И методология называлась SPACED, состояла, то есть, из шести частей: социология, политика, архитектура, культура, экономика, данные. А вместе получалось SPACE, как «пространство», и D на конце, как «опространственный», и, соответственно, данные выступали такой отдельной частью этого исследования, и это был именно проект, посвященный анализу московской периферии в разрезе больших данных, на основе больших данных. Мы взяли два источника информации, которую можно называть большими данными, и, поскольку исследование было прототипное, первое такое, пионерское, то, конечно, мы все-таки взяли срез информации, но в целом создали такие системы, которые готовы работать на информации, которая поступает постоянно, в режиме реального времени.
Мы взяли информацию о сигналах сотовых телефонов, но, об этом я еще отдельно поговорю, в силу ограничений нашего законодательства, конечно, те данные, которые бы позволили максимально глубоко изучить, как перемещаются горожане, нам были недоступны, и мы получили информацию о технических нагрузках на сеть, но при этом по перескокам нагрузки от одной базовой станции сотового оператора к другой мы в целом могли изучать, как изменяется мобильность. О.ЧИЖ: Ну, то есть, можно было понять по вот этим скачкам нагрузки, как перемещается человек, с какой точки пространства в какую.
Е.СЕРОВА: Не человек, а концентрация, где...
О.ЧИЖ: Понятно.
Е.СЕРОВА: То есть, как изменяется во времени концентрации от одной базовой станции к другой базовой станции.
Базовые станции расположены огромной плотностью по городу. Это каждая базовая станция расположена 100 на 100 метров... О.ЧИЖ: То есть, хорошо видна плотность людей, как она меняется с мобильными устройствами в течение дня?
Е.СЕРОВА: Да, но без конкретных сигналов, даже без обобщенных каких-то данных по группам абонентов, что было бы гораздо, конечно, глубже и подробнее для исследования.
Далее мы анализировали те данные, которые производятся в сети интернет в социальных сетях, а именно информацию из публичных профилей, из публичных сообществ, когда люди пишут что-то именно относительно города. Один из выводов, который мы в первый момент получили, что в принципе о городе в социальных сетях говорят немного, но, во всяком случае, поток непрерывный тоже, пусть и небольшой, и достаточно интересный. Мы анализировали, что люди пишут о городе ВКонтакте, что они пишут в микроблоге Twitter и в приложении Foursquare, где люди отмечаются в каких-то местах и могут оставлять комментарии, нравится им там или нет. О.ЧИЖ: Ну, или какие-то практические рекомендации: здесь заказывайте то-то, а здесь лучше сверните налево.
Е.СЕРОВА: Да, соответственно, это очень полезно и на практическом плане можно понять, как люди относятся к городской среде.
Но мы помимо отношения к городской среде, отношения к безопасности, к комфорту, мы сконцентрировались на теме того, как люди понимают центр и периферию, поскольку все-таки ядром исследования была периферия, было интересно понять, что ж такое периферия в понимании москвичей. И в целом о результатах исследования я еще отдельно скажу, сначала важно то, как долго мы... и как непросто выстраивалась работа с этими данными, поскольку, во-первых, данные огромного объема, несмотря на то, что это срез информации, все равно, как бы ни шутили иногда, что в Exel, программа, которая, просматривает таблицу, что в Exel никогда не кончаются строчки, нет, они кончаются, причем очень быстро кончаются. И даже срез перемещений, вот этих перемещений нагрузок на базовые станции всего лишь за 6 часов в день, это такая огромная таблица, которая открывается только в специальной программе... О.ЧИЖ: Большие данные победили Microsoft Office?
Е.СЕРОВА: Да.
Они моментально, даже не являясь особенно большими... все сразу не стало работать. Помимо этого, безусловно, проблема — это сама структура данных. Вот перед нами находилась таблица, где масса столбцов, миллионы строчек, и что, в общем-то, с ней делать?Методики какой-то проработанной нет. Есть ряд лабораторий исследовательских, которые занимаются этим анализом. Ну, во-первых, у всех в разных городах разные типы информации, согласно каким-то нормам законодательства, согласно тому, как устанавливается взаимодействие с сотовым оператором — все по-разному. Во-вторых, в принципе, эти методики не так уж прям широко распространяются, поскольку это ноу-хау, поскольку это инновация и, в общем-то, это остается при лабораториях. Поэтому, конечно, методика создавалась по мере взаимодействия с данными, и мы выстроили такую систему циклическую, как стоит работать с большими данными, ну, так, базово.
Во-первых, надо как-то обрабатывать и агрегировать данные, и проверять их точность, на ошибки, которые могут быть вызваны, и ограничения, которые могут быть вызваны просто типом данных, или ошибки, которые могут быть вызваны технологией. То есть, когда данные собирались, в конце концов, и человек, и автоматическая система может ошибиться. Там могут быть ошибки, это все надо перепроверять. О.ЧИЖ: Так, отмели мусор.
Е.СЕРОВА: Отмели мусор, но откуда ж мы знаем, что мы его полностью отмели, и в целом — что дальше делать?
Единственный подход, который эффективен с большими данными — это визуализация. Если их не нарисовать, ничего не будет понятно. И поэтому огромную роль играют именно циклы визуализации. Один раз визуализировали — сделали карту или сделали какую-то диаграмму, увидели, что у нас опять что-то куда-то не туда выскочило, где-то какие-то непонятные всплески, еще раз перепроверили данные — оказалось, что мы не выявили еще каких-то ограничений, и так далее. Циклами вот этих перепроверок, визуализаций и перепроверок, получается по максимуму вычистить хотя бы на каком-то уровне эти данные, чтобы можно было уже получать более или менее репрезентативные понятные выводы. О.ЧИЖ: Ну, хорошо, вы получили относительно чистые большие данные, по сигналам плотности людей в городском пространстве и так далее, а что с ними делать дальше?
Что это дает? Е.СЕРОВА: Дальше можно сравнивать их, во-первых, с теми представлениями, которые уже есть по исследуемому явлению, во-первых, во-вторых, с какой-то там, с традиционной информацией, с тем, как это распределяется по городу.
Допустим, данные Яндекс.Пробок в соотношении с данными от мобильного оператора и так далее. Соответственно, в случае с нашим исследованием, как раз таки и получилось, что полученные нам и выводы либо чуть-чуть опровергли или уточнили стереотипные представления, которые никогда не находили каких-то численных подтверждений о городе... О.ЧИЖ: Например?
Е.СЕРОВА: Например, представления о мобильности, о том, что Москва супер-мобильный город, все постоянно находятся в движении, и все, конечно же, едут только в центр, потому что потому что все знают, как тяжело влезть в радиальные... в движущиеся по радиальным линиям метрополитена поезда или как тяжело доехать в центр на работу.
Ну, и, тем более, есть представление о том, что огромная доля рабочих мест концентрируется в пределах центра, а люди живут в спальных районах, вот все едут в центр из спальных районов. На самом деле выяснилось, что, во-первых, едут не все, и около 2/3 населения московской агломерации не покидают пределов спального района в течение 6 часов, которые мы исследовали. То есть, в течение утреннего часа пик — с утра до обеда — это значит, что, в принципе, скорее всего, они в принципе не выезжают, во всяком случае, на традиционную работу, которая начинается с утра. Сначала это нас как-то шокировало, и мы подумали, что, может быть, это очередная ошибка, еще раз надо 10 раз проверить, но сколько мы не проверяли, мы приходили к одному и тому же выводу, одной и той же закономерности, и это подтвердилось еще другой частью исследования.
Общего для (НРЗБ) социологической, где по данным опросов также оказалось, что больше 60% населения не покидает пределов спального района. И это, в целом, коррелирует и с демографической структурой, с возрастной структурой населения, и с ситуацией на рынке труда: есть люди, которые не выезжают за пределы района, потому что не работают или работают где-то неподалеку. И в целом, цифра такая поразительная, но на самом деле... О.ЧИЖ: 2/3, это прямо так...
Е.СЕРОВА: Но на самом деле, в итоге оказалось, что это численное подтверждение того, чего мы просто тогда вот этими цифрами не могли посчитать, не могли понять.
И шокирует это только на первый взгляд, если потом попытаться в это глубже заглянуть, оказывается, что так есть. Едет только 1/3, вся Москва стоит, но силами 1/3 населения. Если представить, что выехало, допустим, 2/3, то в общем-то, наша транспортная система еще меньше окажется к этому подготовленной. О.ЧИЖ: То есть, еще 1/3 пойдет пешком в центр, видимо, да...
Е.СЕРОВА: А их этой трети, которая едет, мы знаем, что все стоят в пробках, и значит, вот эта треть все-таки едет в центр.
На самом деле из этой трети лишь незначительная часть населения непосредственно заканчивает свое движение в центре. Если рассматривать Москву в пределах административной границы — то около четверти, если рассматривать московскую агломерацию — то это около 10% перемещения из периферии, которые заканчиваются в пределах ТТК. О.ЧИЖ: То есть, их всех людей, которые стоят в пробках из области в центр, получается, что только 10%, они туда, собственно едут, чтобы остаться на какой-то период?
Е.СЕРОВА: Да, 10% остаются, едут, там, из Марьино в пределы ТТК и остаются.
Остальные люди перемещаются в другие места, и это отдельный вопрос, который тоже нас очень взволновал и заинтересовал... О.ЧИЖ: То есть, что?
Они используют центр как место, где развернуться, что ли? Или что это такое? Е.СЕРОВА: Да.
Центр, ну, во-первых, в силу того, что у нас радиально-кольцевая структура, все-таки используются кольца для того, чтобы по ним проехать и развернуться, во-вторых, и при пользовании общественным транспортом, центр — это такой транспортный хаб, транспортный узел, где люди делают пересадки, и едут обратно на периферию. И, в общем-то, это вполне логично, но в силу того, что мы знаем, что все у нас стоит, и не справляется с потоками населения транспортная система наша, мы должны понимать, что вот эти перепробеги, эти перемещения, которые должны происходить в рамках периферии, проходят через центр, они уже создают какую-то проблему. На все-таки эти перепробеги стараться сокращать и стараться пускать в пределах периферии, чтобы люди перемещались из Марьино в Чертаново по хорде, то есть, по прямой между ними, а не проезжая через центр. О.ЧИЖ: А не проезжая, не знаю, через Бульварное кольцо, например.
Е.СЕРОВА: Ну, да.
О.ЧИЖ: То есть, очень сильно не хватает именно хорд?
Не хватает связей между спальными районами? Е.СЕРОВА: Да, причем разнообразных и высокоплотных, а не одной огромной хорды, которая создаст еще одну...
О.ЧИЖ: Еще одно большое кольцо.
Сейчас мы прервемся на новости, вернемся в студию буквально через несколько минут. 11:35. программа «Город от ума».
Говорим мы о новых городских исследованиях, основанных на больших данных, в частности об исследовании «Археология периферии». Вот первая часть больших данных, которую вы получили, часть, основанная на сигналах сотовых телефонов, вам дала представление о том, как люди двигаются, как перемещаются — от периферии в центр. И сколько людей остается в центре, то есть, как этот центр используется: как пересадочный пункт или как конечная цель маршрута. Что касается второй части, что касается данных, которые были получены на основании соцсетей, они что дали? Е.СЕРОВА: Ну, наверное, самый интересный вывод касается именно восприятия центра и периферии.
Где по мнению горожан находится периферия, где — центр. Центр воспринимается крайне консервативно, и мы в рамках исследования — согласно методологии исследования — мы рассматривали центр в пределах ТТК. Это, конечно, очень широкое такое понимание, как правило, его воспринимают в пределах Садового, и мы ожидали, что социальных сетях большинство географических объектов, которые так или иначе связаны с центром, будут в пределах Садового. Но оказалось даже и не так — они, как правило, концентрируются в пределах Бульварного кольца и также связаны с кольцевой веткой метро. О.ЧИЖ: Ну, то есть, если это центр, значит, Красная площадь, площадь перед Большим театром...
Е.СЕРОВА: Да, обязательно что-то очень сконцентрированное именно в пределах исторического, туристического центра.
Но еще более интересно, где же находится периферия. Ну, во-первых, «периферия», как таковое слово, вообще никак не фигурирует в разговорах, что понятно, довольно сложный и специфичный такой термин, но «окраины», «спальный район» и прочее, упоминания рассеяны и очень немногочисленны, но все-таки образуют такую концентрацию на севере и на юге Москвы. Это такие узкие полосы вдоль МКАД, которые мы можем называть тем, что горожане считают московской периферией. Получается такое маленькое пятнышко центра в пределах Бульварного кольца, и две узкие полоски на севере и на юге Москвы. О.ЧИЖ: Ага, за западе и на востоке нет ни периферии, ни центра, а то, что между двумя полосками и консервативным центром, это вообще мертвое пространство, непонятно что.
Е.СЕРОВА: Да, это что-то такое остающееся без определения.
Но другое дело, что давать оценку этому — хорошо это или плохо — достаточно сложно, потому что, с одной стороны, безусловно лишенное какого-либо смысла пространство, такой провал в восприятии горожан пространственный, это, конечно, не лучшее, что мы могли найти в нашем исследовании, с другой стороны, возможно то, что пространство, которое не может называться центром просто потому, что уже действительно за пределами центра, но и не называется периферией, может быть, это что-то такое среднее, переходная зона, не так плохо, как периферия, но и не так прекрасно, как центр, и возможно даже — такая золотая середина, неплохая. О.ЧИЖ: Да, но интересно, что эта золотая середина... ну, то есть, вот есть ведь такие группы районов в Москве, которые имеют совершенно свой какой-то облик.
Ну, скажем, районы вокруг Сокола, в тех местах, Октябрьского Поля и так далее. Они какие-то очень особенные, там улицы маршалов и так далее, и тому подобное. Но при этом они никак не идентифицируются и не имеют никаких, ну, скажем, особенных названий, названий таких неофициальных, я имею в виду. Е.СЕРОВА: Да, это один из очень интересных выводов в нашем исследовании, потому что соотнеслись два типа данных, выводы по двум типам данных.
Казалось бы ладно, нет там центра и периферии, ничего страшного, но хотя бы какая-то локальная концентрация должна быть, ну, хотя бы в районе того же Сокола. Но ни в семантическом пространстве, то есть, в пространстве упоминаний, не выявлено этих локальных центров, локальных концентраций, ни в случае с перемещениями по периферии также не выявлено концентраций, то есть, мы выявили, что в целом перемещения в пределах периферии составляют гораздо большую долю, чем стереотипно мы можем как-то представлять. Ну, то есть, мы думаем, что 90% едут в центр, ну и 10%, наверное, в пределах периферии. О.ЧИЖ: Получается на основании этих двух групп данных получается какая-то довольно странная картина.
То есть, с одной стороны, большая часть населения остается на периферии, с другой — такое впечатление, что люди, которые выбрались за пределы консервативного центра, они как в темную воду нырнули, то есть, их там большинство, но вот это пространство никак себя не обозначает. Е.СЕРОВА: Абсолютно не обозначает, и еще более ярко это видно по сравнению с Московской областью, где такие центрики есть, а в пределах периферии — нет.
Это такое пространство: либо темная вода, либо пространство белого шума, где есть активные перемещения, где есть активные коммуникации, но центральности и ядер там не возникает. И, ну, это, наверное, один из основных таких выводов из нашего исследования. Но если вернуться к тому, что, в целом, такие исследования возможны, и методика постепенно разрабатывается, и. Естественно, используется не традиционное программное обеспечение и пишутся новые программы, новые решение, создаются новые методики. В общем, это все мы сумели попробовать в процессе нашего проекта, но что дальше? Если представить, что те системы, которые созданы, мы называем это системами визуального анализа, потому что там можно получать доступ к информации, накладывать разные режимы, и, в общем, анализировать данные в режиме реального времени, в интерактивном таком формате. Если эти системы визуального анализа будут наполнены данными, которые постоянно обновляются, что это дает для города?
Здесь есть две разные точки зрения, как минимум две. Есть такие города, как Рио-де-Жанейро, где IBM создал... компания IBM создала операционный центр, где перед сити-менеджерами, перед городскими управленцами масса экранов находится, и там в режиме реального времени показывается, что происходит в городе, и нажатием одной клавиши можно предотвратить какое-то чрезвычайное происшествие или как минимум послать туда какую-то поддержку, помощь, нажатием одной кнопки перестраивается работа светофоров, и так далее. В общем, это такой контрольный пункт, нажатием одной кнопки можно управлять всем городом. Другой подход есть в случае с такими городами как Лондон и Нью-Йорк, где, казалось бы, тоже собираются огромные объемы информации, и тоже создаются такие геоинформационные системы, с кучей данных, и, конечно, эта информация доступна правительству, но очень интересный подход высказывает, например, мэр Лондона, Борис Джонсон, который говорит, что это доисторический взгляд на данные, когда все данные собираются на одном огромном экране перед одним человеком.
И ценность данных возрастает в разы, если раздать их людям, если людям они будут доступны, люди на основе них будут принимать решения, как-то самостоятельно будет оптимизироваться ситуация в городе, потому что каждое действие горожанина будет руководствоваться не просто какими-то пожеланиями, а реальной информацией куда можно пойти, что можно сделать, как это лучше сделать, О.ЧИЖ: Какая там концентрация людей, насколько там плотная толпа и прочее, прочее.
Е.СЕРОВА: Да, и каждый, следуя абсолютно в своих интересах, в личных, будет настраивать общегородскую ситуацию, и это вот мы называем процессом самонастройки.
И, наверное, это главное, что могут принести системы, основанные на анализе больших данных, то есть, такие геоинформационные системы, которые могут позволять и более разумно осуществлять городское планирование, и правильнее управлять городом в режиме реального времени, но при этом и делать какие-то сервисы и решения для горожан, которые будут позволять им управлять этими данными и им ими пользоваться каждый день в своей повседневной жизни. О.ЧИЖ: Ну, это тоже нужно уметь себя приучать к этому, потому что не так много людей, готовы еще к этой системе.
У нас, я имею в виду, поскольку это для нас новая вещь немного. Е.СЕРОВА: Безусловно.
Эти два процесса будут идти параллельно, мы будем учиться работать с данными, а люди... О.ЧИЖ: А данные будут появляться.
Е.СЕРОВА: Да.
О.ЧИЖ: Это программа «Город от ума», мы сегодня говорили о новых городских исследованиях, больших данных.
Спасибо большое. Е.СЕРОВА: Спасибо.