Соблазн больших данных — «наука»
Помогает ли улучшению качества знаний огромное количество данных, каковые стали нам дешёвы, и возможности их обработки в невиданном прежде масштабе?
Отечественное упоение масштабами информации, которая была у нас под рукой, неудивительно, поскольку мы так продолжительно стремились взять то, что предлагают на данный момент так именуемые Big Data. В будничной жизни и науке поиск информации, новых фактов и данных, и разработок для их анализа и обработки был вещью естественной. Но мы через чур довольно часто некритично подходим к соотношению между качеством и количеством данных, через чур скоро поддаемся иллюзии, что больше постоянно означает лучше.
Кнут против солидных чисел
Среди приверженцев Громадных данных бытует вывод, что возрастающий количество может компенсировать недостаточное уровень качества. Авторы нашумевшей книги «Big data: революция, которая поменяет отечественное мышление, жизнь и работу» Виктор Майер-Шенбергер (Viktor Mayer-Schonberger) и Кеннет Кукьер (Kenneth Cukier) конкретно разделяют таковой подход.
Они пишут: «Наблюдение за более широким спектром данных освобождает нас от необходимости сохранять особенную тщательность. (…) Сейчас во многих новых обстановках отсутствие точности, маленький беспорядок смогут оказать хорошим качеством, а не недостатком». Со своей стороны, другие люди, дабы придать этому убеждению какой-то научный вес, ссылаются на закон солидных чисел. Они утверждают, что много наблюдений постоянно ведёт к обнаружению определенной тенденции.
Но наряду с этим они забывают, что закон солидных чисел относится к математике и имеет конкретные правила. В случае если их не учитывать, опираться на него запрещено. Иными словами, в случае если, к примеру, мы не обеспечим аналогичные условия для исследуемых событий либо решим отождествить случайные наблюдения с наблюдениями, сделанными на базе выборки, применять закон солидных чисел будет неточностью.
Если бы это было не так, все репрезентативные изучения, а также публичного мнения, уже давно проводились бы в форме интернет-опросов, в которых в большинстве случаев принимает участие в пара десятков раза больше людей, чем попадает в стандартную выборку исследователя. К примеру, узнаваемый Университет Гэллапа в Соединенных Штатах продолжает проводить подавляющее число собственных изучений на довольно мелких, шепетильно отобранных группах опрощеных.
60% — это в большинстве случаев абоненты сотовых телефонов, и 40% — домашних. На различных порталах на те же самые темы голосует, иногда, в сто раза больше людей. Но никто не распространяет эти результаты на всех пользователей всемирной сети, а тем более на все общество.
Эмоциональное утверждение авторов вышеупомянутой книги, что «обращаться к выборкам в эру Big Data, все равно, что хвататься за кнут в эру машин», пока не отыскало собственного подтверждения на практике.
Big Data — Громадная Неприятность
ИноСМИ30.12.2013Умберто Эко: Мы теряем память!
La Stampa29.10.2013Гугл для шпионов
The Guardian13.02.2013Кто черпает информационное золото?
Handelsblatt07.02.2013Из-за чего? По причине того, что в наши дни неприятность статистических изучений состоит не числом информации, а в ее качестве. Простое повышение числа наблюдений не ведет к улучшению качества выводов.
В то время, когда весной прошлого года оказалось, что ни один из исследовательских центров не смог предвидеть большое превосходство Консервативной партии над Лейбористской перед выборами в парламент в Англии, это дело решили расследовать. Но ни одна из предположений источника неточности не сказала о том, что выборки опрощеных были недостаточными громадными. Кроме того, один из центров совершил собственный последний опрос перед выборами на выборке из 10 000 опрощеных.
И в его итогах была та же погрешность, что и в изучениях вторых центров, трудившихся с выборкой в 1000 и 4000 человек.
В статистических изучениях нет прямой связи между количеством и качеством. Повышение количества данных с одновременным попустительством в плане точности только формирует иллюзию получения более качественного знания.
В то время, когда неточность не значительно уменьшается
Эта иллюзия происходит из уверенности, что мы сможем избежать неточностей, в случае если подвергнем наблюдению все либо практически все единицы данной группы. Многие считают, что самая громадная погрешность изучений проистекает из факта, что изучается только выборка, а не вся популяция (так называемая статистическая неточность выборки). В это же время это лишь одна из неточностей, каковые смогут повлиять на итог статистического изучения.
Вдобавок, статистики оптимальнее могут ее осуществлять контроль, более того, она часто бывает самой малой составляющей неспециализированной погрешности изучения.
Так как в изучениях появляются кроме этого систематические неточности выборки, в особенности, которые связаны с инструментами измерения либо, хотя бы, с нежеланием опрощеных отвечать на вопросы. Специфика всех неточностей систематического свойства содержится в том, что с повышением размера выборки они не уменьшаются. В случае если, к примеру, семьи с самым высоким доходом довольно часто отказываются от участия в любого рода опросах, кроме того самая громадная выборка не ликвидирует погрешность результата изучения.
Повышение количества не отразится на качестве.
Такой же ответ направляться дать всем тем, кто требует перед выборами сделать изучение, которое сможет с громадной долей возможности угадать их финал. Они желают, дабы статистическая погрешность составляла не 3%, что нормально для большинства опросов, а 1% либо кроме того меньше. Им разумеется, что для этого необходимо расширить количество опрощеных в выборке и затраты на изучение.
качество и Количество
Но не затраты на повышения размера выборки с 1067 до 9600 человек останавливают исследовательские центры перед проведением таких опросов. Легко они знают, что это только увеличит статистическую неточность, а остальные, другими словами неточности систематические, не только останутся на своем месте, но их влияние на окончательный итог изучения возрастет.
У получателя для того чтобы изучения сложится чувство, что статистическая погрешность в нем мелка (1%), но в конечном итоге если сравнивать с выборкой из 1100 человек, изменится она весьма незначительно.
Это что может значить для людей, увлеченных новыми возможностями анализа и получения огромных массивов данных? Неужто от Big Data нет ничего хорошего?
В новых источниках информации содержится много полезных знаний, необходимо лишь их извлечь. Однако здесь появляется громадной риск некритичного подхода к этим источникам, что проистекает из убежденности в том, что все громадное заслуживает доверия («раз тысячи наблюдений это подтверждают, разве возможно в противном случае?»), и из фальшивой идеи, что повышение количества разрешит нам компенсировать недостающее уровень качества. Эта последняя идея, в особенности в науке, может привести к огромному количеству неверных выводов, обнаружению мнимых причинно-следственных связей либо взаимопротиворечащих закономерностей.
Подписывайтесь на отечественный канал в Telegram!
Каждый день вечером вам будет приходить подборка самых броских и увлекательных переводов ИноСМИ за сутки.
Отыщите в контактах@inosmichannelи добавьте его к себе в контакты либо
перейдите, предварительно пройдя регистрацию, перейдите на страницу канала.