Не находит в базе рса: Опаньки / БайкПост

Содержание

Проверка авто по базе ЕАИСТО

Современные владельцы автомобилей обязаны иметь ряд документов, поскольку все ситуации, несчастные случаи и другие данные фиксируются и вносятся в базу. При покупке авто и ряде других обстоятельств, необходимо проверить соответствие информации, представленной владельцем и реальных, подтвержденных на уровне официальных инстанций, данных. На данный момент не всем обязательно искать офис контролирующего органа, поскольку есть соответствующая база ЕАИСТО от ГИБДД.

С ее помощью можно проверить информацию по диагностической карте владельца, а также уточнить наличие прохождения технического осмотра. Процесс обычно не вызывает проблем, проходит быстро и дает нужный эффект. Также в данном случае может использоваться РСА база, однако для получения полных знаний можно воспользоваться несколькими сервисами, в том числе это касается данных, предусмотренных для полиса ОСАГО или проверки наличия самого полиса.

Что нужно вводить для получения результата?

Выполнение проверки требует ряда определенных данных, поскольку без них поиск невозможен.

Чаще всего в формате онлайн-проверки в пределах сервисов используются определенные реквизиты. Для проверки диагностической карты подойдут следующие параметры:

  • номер кузова. Эти данные предполагают введение комбинации из 10 символов;
  • VIN–код. Его следует вводить аккуратно, поскольку используется чередование цифр и букв, всего их 17;
  • присвоенный государством номер. Также включает в себя буквы и цифры, предусмотрена комбинация из 8 символов;
  • данные диагностической карты. Количество цифр разное: 21 или 15, вводятся последовательно;
  • номер шасси. Символы в количестве 10 штук вводят в соответствующее поле.

С помощью базы ЕАИСТО ГИБДД для запуска и проверки нужно вводить данные в поле, представленное формой сайта. Можно одновременно вводить несколько сведений или только определенную информацию. Так можно изучить нужную информацию. По результатам проверки через сервис в онлайн-режиме предоставляются все данные по направлению диагностической карты, если она представлена в базе данных.

Проверка по базе, когда ждать результатов?

Наличие современных способов проверки и развитое направление информационных технологий с высокими показателями эффективности позволяют тратить на проверку статуса по нужной диагностической карте минимальное количество времени. Тут главное просто правильно ввести все данные, а при отсутствии ошибок все результаты выводятся на экран за мгновение. Если вы столкнулись с проблемой длительного ожидания или отсутствием предоставления информации, то в данном случае проблема может быть в некорректной работе используемого сервиса, проведении работ профилактического характера. Такие периоды, конечно же, иногда происходят, обычно они проходят совместно с единой базой информации ЕАИСТО ГИБДД.  Иногда нужно попробовать выполнить проверку позже, в другой день или сменить сайт для проверки.

Что делать, если введение госномера не дает результатов?

Иногда программа по каким-то причинам не находит совпадений, даже если данные номера введены верно.

В этом случае не стоит отказываться от дальнейших поисков и нужно искать альтернативный вариант. Например, можно попробовать выбрать другие параметры для поиска:

  • номер рамы;
  • VIN-номер;
  • номер кузова.

Проверка данных, точность информации онлайн

На нашем сайте вы можете выполнить проверку авто качественно и быстро, у нас актуальная и эффективная база данных. Вся предоставленная информация на 100% соответствует реальности. Для получения результата достаточно корректно ввести гос номер или вин код автомобиля и дождаться когда отчет более чем по 10 базам придёт вам на почту. В этом случае можно быть уверенным в надежности полученного при проверке документа результата.

Если нужно убедиться в соответствии данных нашего сервиса, можно проверить ОСАГО по базе РСА. Предусмотрено максимально простое заполнение форм, всего несколько заполненных полей, и вы получите всю нужную информацию.

Отсутствие результата или пустой бланк ответа

Такая проблема иногда случается в процессе проверки диагностической карты – при проверке базы, результат не обнаруживается. Нужно искать причину такого ответа системы, спровоцировать такой итог может несколько причин. Ресурс ЕАИСТО, как и другие сайты, из-за каких-то проблем иногда недоступен. Если это случилось во время проверки, то она не даст результата. Также проблема проявляется при сбоях в программах или обновлении данных в базе. Все эти ситуации решаемы, ведь тут всего лишь достаточно реализовать повторный запрос, выждав время.

Но чаще всего причиной отсутствия ответа является ошибка ввода, пользователи часто пропускают буквы или цифру, путаются при вводе. Поэтому стоит изначально проверить корректность введения, а при необходимости все поля заполняются повторно. При этом стоит учитывать наличие ограничений для базы ЕАИСТО: в течение суток один пользователь может подать не более трех запросов.  Заполнив графу, стоит сразу внимательно сверить комбинации символов.

Еще одной причиной нулевого результата является отсутствие информации по поводу технического осмотра рассматриваемым транспортным средством.

Если карта не оформлена, а осмотра официально не производилось, система не может предоставить несуществующие данные. Решить проблему можно – следует обратиться на станцию по техосмотру, которая предлагает проведение процедуры, предусмотренной государством.

Если данных нет, а осмотр точно производился, нужно направиться в место проведения процедуры. Иногда информация поступает в базу несвоевременно, в такой ситуации нужно уточнить ситуацию и тонкости процесса на месте.

Онлайн покупка техосмотра, будут ли данные в базе?

При поиске с помощью базы способ оформления не имеет значения. При любом типе оплаты данные будут выведены на экран. Узнайте все, что требуется по диагностической карте прямо сейчас – воспользуйтесь сервисом на сайте.

Более миллиона россиян добились пересчета стоимости ОСАГО

Ошибки страховщиков в расчетах годами вынуждали автовладельцев переплачивать за полисы.

Эксперты считают, что российские автолюбители регулярно переплачивают за ОСАГО, поскольку страховщики ошибочно рассчитывают коэффициент бонус-малус (КБМ), на основании которого определяется итоговая стоимость полиса в зависимости от безаварийного стажа водителя.

Российский союз автостраховщиков (РСА) сообщает, что за год с небольшим свыше 1 млн автомобилистов по всей стране добились пересчета КБМ. При этом точное количество водителей, которые по-прежнему продолжают переплачивать за полисы ОСАГО, неизвестно.

КБМ предусматривает предоставление бонусов водителям, которые не становятся виновниками аварий, и снижение коэффициента для виновников ДТП. Коэффициент ротируется по 15 классам, максимальная скидка на страховку при этом достигает 50%.

Оказалось, что при оформлении ОСАГО страховые агенты снижают водителям класс КБМ, чтобы повысить стоимость полисов, поскольку это выгодно им самим.

Президент Российского союза автостраховщиков Игорь Юргенс пояснил «Известиям», что ошибки при расчете КБМ могут возникать по разным причинам, включая невнимательность самих автомобилистов. Они, например, забывают уведомить страховую компанию о замене паспорта или водительских прав. В результате страховщик не находит сведений о покупателе страховки в электронной базе и ведет расчеты как для нового автовладельца, без скидки.

Координатор общества «Синие ведерки» Петр Шкуматов считает, что ответственность за происходящее во многом лежит на самих водителях, которые не пытаются отстаивать собственные права.

Официальный представитель компании «АльфаСтрахование» Юрий Нехайчук напомнил, что уже больше года в России действует упрощенный механизм восстановления КБМ для автовладельцев: на сайте каждого страховщика, продающего ОСАГО, должен быть раздел проверки коэффициента, где можно найти свои данные по Ф.И.О. и номеру водительского удостоверения.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Проверить диагностическую карту техосмотра по базе РСА

Подтверждающим документом и разрешением на легальное передвижение по территории России является выданная оператором технического осмотра диагностическая карта. Ее подлинность гарантирует вам внесение в единую автоматизированную базу ЕАИСТО, что сотрудничает и связана с базой Российского союза автостраховщиков РСА.

Другими словами проверка диагностической карты по базе РСА проходит при использовании данных занесенных в ЕАИСТО. Сама база РСА не имеет сведений о сроках прохождения техосмотра, информации о водителе и транспортном средстве.

Что это за проверка и для чего она нужна

Проверка диагностической карты — это процедура, что выполняется с целью узнать сведения о легальном прохождении техосмотра с соблюдением всех правил и соответствие документа законодательным требованиям.

Надобность данной проверки аргументируется следующим: после покупки транспортного средства, которому более 3-лет, автовладелец должен пройти техосмотр и получить диагностическую карту.

Подтверждающий документ оформленный по правилам даст возможность перейти к следующему шагу — покупки страхового полиса ОСАГО, что является обязательным пунктом.

ОСАГО выдастся тому владельцу автотранспорта, чья диагностическая карта соответствует требованием и занесена в РСА.

Другими словами данная проверка необходима самим автолюбителям для полноценного прохождения всех процедур после приобретения машины. На ее основе вам отказывают либо дают зеленый свет на оформления страхового полиса.

Учитывая человеческий фактор и современную политику компаний и организаций, что выдают диагностические карты, то можно прийти к выводу, что главная цель учреждений — это заработать на вас как можно больше денег.

Организации выдают липовые подтверждающие документы, особо незаморачиваясь с проверкой и устраивают имитирующие процедуры проверки автомобилей на исправность. Эксперты не тратят свое время, возясь воле вашего автомобиля, а вы получаете поддельную диагностическую карту не занесенную в автоматизированные базы, в частности РСА.

С другой стороны вы оказываетесь обманутыми мошенниками и учреждениями в случае предоставления услуг неаккредитованными организациями. По сути выдававшая вам фирма не имеет доступа к автоматизированной системе РСА и не может заносить в базу данные о проверке.

Поэтому рекомендуется самостоятельно просматривать данную базу и удостовериться о соответствии вашей диагностической карты правилам выдачи и ее легальности, что в свою очередь дает беспрепятственное передвижение по территории Российской Федерации и дальнейшее оформление страхового полиса ОСАГО.

Где выполняется

Проверка ТО осуществляется через базу ЕАИСТО, но проводится непосредственно в системе РСА. Очень часто эти две базы данных совмещают и пишут как одно целое. РСА в себе имеет информацию о полисах ОСАГО, где можно проверить их подлинность и КМБ (коэффициент бонус-малус).

Сам факт и осуществление проверки диагностической карты нужен для дальнейшего оформления полиса ОСАГО. Без легально оформленного подтверждающего документа аккредитованные страховые компании откажут вам в оформлении страхового полиса.

Многие страховые эксперты обобщают и соединяют две базы в единую ЕАИСТО РСА, через которую и проходит проверка на законность выданного вам документа о беспрепятственном передвижении.

Иными словами, если номер вашей диагностической карты не будет найден в базе РСА, то объединение страховщиков оформлять ОСАГО откажется и вам придется выходить из ситуации иными способами.

Как проверить диагностическую карту по базе РСА и данные для проверки

Диагностическая карта – документ, что подтверждает легальность вашего передвижения на дорогах и факт, согласно которому оформляется страховка.

Она пришла на замену старым талонам, и имеет как бумажный так и электронный вид, который заносится в автоматизированную базу.

У каждой выданной карты имеется свой код, хаотический набор цифр, что присваивается после прохождение проверки. Зайдя в электронную базу РСА и введя цифры в соответствующие поля и нажав «поиск в ЕАИСТО» на экране высветится результат проверки системы.

Проверить подлинность документа проще будет по номеру машины. Но результаты проверки могут быть разные.

Если транспортное средство на законных основаниях прошло проверку неисправность комплектующих, то экран выдаст информацию о марке машины и ее модели. Еще вы будете осведомлены о сроках действия диагностической карты.

В случае не прохождение проверки транспортным средством выданная информация будет идентична предыдущей, однако срок подтверждающего документа будет просроченным в прошедшем времени.

В третьем случае вашу карту база РСА может вообще не найти. Есть две причины:

  • первая – это вашему транспортному средству менее трех лет и прохождения техосмотра не требуется;
  • другая причина – это выданная вам на руки диагностическая карта не легальна и не законна. Оператор, что выдавал документ, является либо мошенником, либо небрежным работником, который вносил данные с ошибками.

Бывают случаи, когда система не показывает данных о прохождении техосмотра, хотя вы имеете карту лично.

Рекомендуется в базу данных РСА ввести следующие параметры или характеристики транспортного средства, по которым можно отследить документ:

  • номер кузова
  • отследить по VIN-номеру
  • ввести номер Шасси

Когда результата нет, и диагностическую карту не показывает, то необходимо ввести сам номер талона, который находится на другой стороне карты. Проверить диагностическую карту техосмотра по базе РСА онлайн выполнить может любой пользователь ПК без особых навыков.

В любом случае исходов может быть только два. Либо ваша диагностическая карта подлинная и на экране появится вся информация либо система ее не находит.

В этом случае следует обратиться к операторам техосмотра, что выдавали вам подтверждающий документ и вместе решать проблему.

Что делать, если результат проверки отрицательный и его причины

Легально оформленная диагностическая карта — это залог отсутствия проблемных ситуаций с сотрудниками ГИБДД и страховыми компаниями. Все автовладельцы пытаются получить достоверный документ занесенный в базу РСА и сделанный по законной процедуре.

Проверяя карту по базе РСА не все автовладельцы находят там свои данные. Причин, по которым вы стали обладателем поддельного подтверждающего документа может быть несколько, а точнее две:

Первая причина — это прохождение технического осмотра не в аккредитированных пунктах. Ведь сейчас, все учреждения, что выдают диагностические карты проходят утверждения и проверки на наличие современного оборудования и технологий, что разрешает им проверять техническое состояние автомобилей и их неисправностей.

Иными словами вы просто жертва мошенников и неспециализированных фирм, некоторые работают поддельным документам и не имеют доступа к системам автоматизации базы РСА.

Вторая причина — это небрежная работа операторов технического осмотра. Человеческий фактор так же играет роль. Работник центра по невнимательности может неправильно ввести данные вашего транспортного средства после проверки.

В результате чего информация о прохождении технического осмотра в автоматизированной базе РСА будет отсутствовать, а вы будете лишены и не допущены к получению ОСАГО.

Если в результате самостоятельной проверки диагностической карты по базе РСА вами не было выявлено данных, то следует обратиться в тот пункт, где осуществлялась процедура выдачи подтверждающего документа.

Ведь вся ответственность, согласно законодательству Российской Федерации, ложится на плечи экспертов и операторов технического осмотра, что самостоятельно заносят данные о прохождении техосмотра автомобилей в течении 24 часов после успешной процедуры.

РСА или Российский союз автостраховщиков — это автоматизированная база созданная в результате объединения большинства страховых компаний страны в единый информационный портал, главной задачей которого есть сбор всех сведений и данных о прохождении техосмотра автовладельцами своих транспортных средств.

Проверка подлинности диагностической карты осуществляется самостоятельно владельцем авто в результате чего он узнает о законности выданному ему подтверждающему документу.

Осуществление данной процедуры рекомендуется для избежания конфликтных ситуаций во время дорожно-транспортных происшествий, получения ОСАГО и тактичной работы со страховой компанией.

Видео: Что такое диагностическая карта (полезные советы от РДМ-Импорт)

Пошаговое объяснение анализа главных компонентов (PCA)

Цель этого поста — предоставить полное и упрощенное объяснение анализа главных компонентов (PCA). Мы расскажем, как это работает, шаг за шагом, чтобы каждый мог понять и использовать это, даже те, у кого нет сильной математической подготовки.

PCA — метод, широко освещаемый в сети, и о нем есть несколько отличных статей, но многие проводят слишком много времени в изучении этой темы, тогда как большинство из нас просто хотят знать, как он работает в упрощенном виде.

Анализ главных компонентов можно разбить на пять этапов. Я пройду через каждый шаг, давая логические объяснения того, что делает PCA, и упрощая математические концепции, такие как стандартизация, ковариация, собственные векторы и собственные значения, не фокусируясь на том, как их вычислять.

Как пройти СПС?

  1. Стандартизировать диапазон непрерывных начальных переменных
  2. Вычислить ковариационную матрицу для определения корреляций
  3. Вычислить собственные векторы и собственные значения ковариационной матрицы для идентификации главных компонентов
  4. Создать вектор признаков, чтобы решить, какие главные компоненты оставить
  5. Пересчитайте данные по осям главных компонентов

Во-первых, для контекста необходима некоторая базовая (и краткая) предыстория.

Наем сейчасПросмотреть все вакансии в области Data Science

Что такое анализ основных компонентов?

Анализ главных компонентов

или PCA — это метод уменьшения размерности, который часто используется для уменьшения размерности больших наборов данных путем преобразования большого набора переменных в меньший, который по-прежнему содержит большую часть информации в большом наборе.

Уменьшение числа переменных в наборе данных, естественно, происходит за счет точности, но хитрость в уменьшении размерности состоит в том, чтобы жертвовать небольшой точностью ради простоты.Поскольку меньшие наборы данных легче исследовать и визуализировать, а анализ данных становится намного проще и быстрее для алгоритмов машинного обучения без обработки посторонних переменных.

Подводя итог, можно сказать, что идея PCA проста — уменьшить количество переменных в наборе данных, сохранив при этом как можно больше информации.

Пошаговое объяснение PCA

Шаг 1: Стандартизация

Цель этого шага — стандартизировать диапазон непрерывных исходных переменных, чтобы каждая из них в равной степени способствовала анализу.

Более конкретно, причина того, почему так важно выполнить стандартизацию перед PCA, заключается в том, что последний очень чувствителен к дисперсиям исходных переменных. То есть, если есть большие различия между диапазонами исходных переменных, те переменные с большими диапазонами будут преобладать над переменными с небольшими диапазонами (например, переменная, которая находится в диапазоне от 0 до 100, будет преобладать над переменной, которая находится в диапазоне от 0 до 1. ), что приведет к необъективным результатам.Таким образом, преобразование данных в сопоставимые масштабы может предотвратить эту проблему.

Математически это можно сделать путем вычитания среднего и деления на стандартное отклонение для каждого значения каждой переменной.

После завершения стандартизации все переменные будут преобразованы в один и тот же масштаб.

Шаг 2: Расчет ковариационной матрицы

Цель этого шага — понять, как переменные набора входных данных отличаются от среднего по отношению друг к другу, или, другими словами, увидеть, есть ли между ними какая-либо связь. Потому что иногда переменные сильно коррелированы и содержат избыточную информацию. Итак, чтобы идентифицировать эти корреляции, мы вычисляем ковариационную матрицу.

Ковариационная матрица — это симметричная матрица p × p (где p — количество измерений), в которой в качестве записей есть ковариации, связанные со всеми возможными парами исходных переменных. Например, для 3-мерного набора данных с 3 переменными x , y и z ковариационная матрица представляет собой матрицу 3×3 из:

Матрица ковариаций для трехмерных данных

Поскольку ковариация переменной с самой собой — это ее дисперсия (Cov (a, a) = Var (a)), на главной диагонали (сверху слева направо снизу) мы фактически имеем дисперсии каждая исходная переменная.А поскольку ковариация коммутативна (Cov (a, b) = Cov (b, a)), элементы ковариационной матрицы симметричны относительно главной диагонали, что означает, что верхняя и нижняя треугольные части равны.

Что ковариации, которые мы имеем в качестве элементов матрицы, говорят нам о корреляциях между переменными?

На самом деле имеет значение знак ковариации:

  • если положительный, то две переменные увеличиваются или уменьшаются вместе (коррелировано)
  • , если отрицательный, то: один увеличивается, когда другой уменьшается (обратно коррелирован)

Теперь, когда мы знаем, что ковариационная матрица — это не более чем таблица, которая суммирует корреляции между всеми возможными парами переменных, давайте перейдем к следующему шагу.

Шаг 3: Вычислить собственные векторы и собственные значения ковариационной матрицы для определения главных компонентов

Собственные векторы и собственные значения — это концепции линейной алгебры, которые нам нужно вычислить из ковариационной матрицы, чтобы определить главных компонентов данных. Прежде чем перейти к объяснению этих концепций, давайте сначала поймем, что мы подразумеваем под основными компонентами.

Основные компоненты — это новые переменные, которые построены как линейные комбинации или смеси исходных переменных.Эти комбинации выполняются таким образом, чтобы новые переменные (то есть главные компоненты) не коррелировали, и большая часть информации в исходных переменных сжималась или сжималась в первых компонентах. Итак, идея состоит в том, что 10-мерные данные дают вам 10 основных компонентов, но PCA пытается поместить максимум возможной информации в первый компонент, затем максимум оставшейся информации во второй и так далее, пока не появится что-то вроде того, что показано на графике осыпи ниже.

Процент отклонения (информации) для каждого ПК

. Такая организация информации в основных компонентах позволит вам уменьшить размерность без потери большого количества информации, и это за счет отбрасывания компонентов с низкой информацией и рассмотрения оставшихся компонентов как ваших новых переменных.

Здесь важно понимать, что главные компоненты менее интерпретируемы и не имеют никакого реального значения, поскольку они построены как линейные комбинации исходных переменных.

С геометрической точки зрения, главные компоненты представляют направления данных, которые объясняют максимальное количество отклонений , то есть линии, которые захватывают большую часть информации данных. Связь между дисперсией и информацией здесь заключается в том, что чем больше дисперсия, переносимая линией, тем больше дисперсия точек данных вдоль нее, и чем больше дисперсия вдоль линии, тем больше информации она содержит.Проще говоря, просто думайте о главных компонентах как о новых осях, которые обеспечивают лучший угол для просмотра и оценки данных, чтобы различия между наблюдениями были лучше видны.

Наем сейчас Просмотреть все вакансии в области удаленного анализа данных

Как PCA конструирует основные компоненты

Поскольку существует столько главных компонентов, сколько переменных в данных, главные компоненты построены таким образом, что первый главный компонент составляет наибольшую возможную дисперсию в наборе данных. Например, предположим, что диаграмма рассеяния нашего набора данных выглядит так, как показано ниже. Можем ли мы угадать первый главный компонент? Да, это примерно линия, которая соответствует фиолетовым отметкам, потому что она проходит через начало координат, и это линия, на которой проекции точек (красные точки) наиболее распространены. Или, говоря математически, это линия, которая максимизирует дисперсию (среднее квадратов расстояний от проецируемых точек (красные точки) до начала координат).

Второй главный компонент рассчитывается таким же образом с условием, что он не коррелирован с (т.е., перпендикулярно первому главному компоненту и что он составляет следующую по величине дисперсию.

Это продолжается до тех пор, пока не будет вычислено общее количество p главных компонентов, равное исходному количеству переменных.

Теперь, когда мы поняли, что мы подразумеваем под главными компонентами, давайте вернемся к собственным векторам и собственным значениям. В первую очередь вам нужно знать о них, так это то, что они всегда входят парами, так что каждый собственный вектор имеет собственное значение. И их количество равно количеству измерений данных.Например, для трехмерного набора данных есть 3 переменных, следовательно, есть 3 собственных вектора с 3 соответствующими собственными значениями.

Без лишних слов, за всей магией, описанной выше, стоят собственные векторы и собственные значения, потому что собственные векторы матрицы ковариации на самом деле направления осей, где наибольшая дисперсия (большая часть информации ) и то, что мы называем основными компонентами. А собственные значения — это просто коэффициенты, прикрепленные к собственным векторам, которые дают величину отклонения , содержащуюся в каждом основном компоненте .

Ранжируя собственные векторы в порядке их собственных значений, от наибольшего к наименьшему, вы получаете главные компоненты в порядке значимости.

Пример:

Предположим, что наш набор данных является двумерным с двумя переменными x, y и что собственные векторы и собственные значения ковариационной матрицы следующие:

Если мы ранжируем собственные значения в порядке убывания, мы получим λ1> λ2, что означает, что собственный вектор, который соответствует первому главному компоненту (PC1), равен v1 , а тот, который соответствует второму компоненту (PC2), равен v2. .

После определения главных компонентов для вычисления процента дисперсии (информации), приходящейся на каждый компонент, мы делим собственное значение каждого компонента на сумму собственных значений. Если мы применим это к приведенному выше примеру, мы обнаружим, что ПК1 и ПК2 несут соответственно 96% и 4% дисперсии данных.

Шаг 4. Вектор признаков

Как мы видели на предыдущем шаге, вычисление собственных векторов и их упорядочение по их собственным значениям в порядке убывания позволяет нам найти главные компоненты в порядке значимости. На этом этапе мы выбираем, оставить ли все эти компоненты или отбросить те, которые имеют меньшее значение (с низкими собственными значениями), и сформировать с оставшимися матрицу векторов, которую мы называем вектором признаков .

Итак, вектор признаков — это просто матрица, в столбцах которой есть собственные векторы компонентов, которые мы решили оставить. Это делает его первым шагом к уменьшению размерности, потому что, если мы решим оставить только p собственных векторов (компонентов) из n , окончательный набор данных будет иметь только размеры p .

Пример :

Продолжая пример из предыдущего шага, мы можем сформировать вектор признаков с обоими собственными векторами v 1 и v 2:

Или отбросьте собственный вектор v 2, который имеет меньшее значение, и сформируйте вектор признаков только с v 1:

Отказ от собственного вектора v2 уменьшит размерность на 1 и, следовательно, вызовет потерю информации в окончательном наборе данных. Но, учитывая, что v 2 несут только 4% информации, потеря, следовательно, не будет существенной, и мы все равно будем иметь 96% информации, которая переносится v 1.


Итак, как мы видели в примере, вам решать, сохранить ли все компоненты или отбросить менее важные, в зависимости от того, что вы ищете. Потому что, если вы просто хотите описать свои данные в терминах новых переменных (основных компонентов), которые не коррелированы, не стремясь уменьшить размерность, не нужно исключать менее значимые компоненты.

Последний шаг: повторное преобразование данных по осям основных компонентов

На предыдущих шагах, помимо стандартизации, вы не вносили никаких изменений в данные, вы просто выбираете главные компоненты и формируете вектор признаков, но входной набор данных всегда остается в терминах исходных осей (т. Е. В терминах исходных переменных).

На этом этапе, который является последним, цель состоит в том, чтобы использовать вектор признаков, сформированный с использованием собственных векторов ковариационной матрицы, для переориентации данных с исходных осей на оси, представленные главными компонентами (отсюда и название Основные компоненты Анализ). Это можно сделать, умножив транспонирование исходного набора данных на транспонирование вектора признаков.

* * *

Закария Джаади (Zakaria Jaadi) — специалист по анализу данных и инженер по машинному обучению. Ознакомьтесь с другими его материалами по темам Data Science на Medium.

Ссылки :

  • [Стивен М. Холланд, Univ. Грузии]: Анализ основных компонентов
  • [skymind.ai]: собственные векторы, собственные значения, PCA, ковариация и энтропия
  • [Линдси И.Смит]: Учебное пособие по анализу главных компонентов

СвязанныеПодробнее о Data Science

PCA не является выбором функций. Что он на самом деле делает и когда можно… | Автор: Брэндон Уокер.

Что он на самом деле делает и когда можно и нельзя его использовать.

Практически ни один специалист по данным никогда не попросил бы меньше данных, но проклятие размерности требует, чтобы что-то было сделано для управления множеством переменных в наборе данных. Анализ главных компонентов (PCA) — полезный инструмент для этого, но существуют распространенные заблуждения и / или ошибки в отношении PCA, которые не позволяют младшим специалистам по обработке данных правильно применять его.

PCA — это вращение данных из одной системы координат в другую. Распространенная ошибка, которую допускают новые специалисты по данным, — это применять PCA к непрерывным переменным. Хотя технически возможно использовать PCA для дискретных переменных или категориальных переменных, которые были одними горячими закодированными переменными, этого делать не следует. Проще говоря, если ваши переменные не принадлежат координатной плоскости, не применяйте к ним PCA. После применения в нашей новой системе координат первое измерение имеет максимальную возможную дисперсию, затем второе измерение имеет большую часть оставшейся дисперсии, и так далее.

weigend.com

В относительно небольших наборах данных первые несколько компонентов могут объяснить почти все отклонения в вашем наборе данных. Я видел, как другие специалисты по обработке данных ошибочно полагали, что это означает, что последние несколько компонентов можно не принимать во внимание как тривиальные, и что первые несколько компонентов являются наиболее важными функциями. Единственный способ, которым PCA является допустимым методом выбора функций, — это если наиболее важные переменные имеют наибольшее разнообразие. Однако обычно это не так.В качестве примера представьте, что вы хотите смоделировать вероятность того, что команда НФЛ выйдет в плей-офф. Количество побед, которые имеет команда НФЛ (от 0 до 16), гораздо более полезно для прогнозирования вероятности выхода в плей-офф, чем общее количество ярдов команды (в тысячах), но PCA выберет ярды в качестве наибольшего фактора, влияющего на результат. первый компонент.

Есть хорошие времена для применения PCA. Представьте, что мы заинтересованы в исследовании волатильности акций в S&P 500. Мы могли бы применить PCA к набору данных, который имеет 500 столбцов (по одному для каждой компании) и 1000 строк (цена закрытия каждой акции за последние 1000 дней). Акции, цена которых сильно меняется, вносят наибольший вклад в первые компоненты. После завершения PCA у вас теперь есть некоррелированные переменные, которые представляют собой линейную комбинацию старых переменных. В идеале первые несколько компонентов могли бы объяснить почти всю дисперсию S&P 500. Работать только с этими несколькими переменными было бы намного проще, чем с 500 переменными (по одной для каждой компании). Причина, по которой это было прекрасное приложение, заключается в том, что к каждой ложе прикреплена одна и та же шкала, т.е.е. все они представляют цены в долларах. Важно знать, когда можно, а когда нельзя применять PCA!

Практическое руководство по анализу основных компонентов в R & Python

Обзор

  • Изучите широко используемый метод уменьшения размеров, который является анализом главных компонентов ( PCA)
  • Извлеките важные факторы из данных с помощью PCA
  • Реализация PCA как в R, так и в Python

Введение в PCA

Слишком много чего ни на что не годится!

Представьте себе: вы работаете над крупномасштабным проектом в области науки о данных. Что произойдет, если в данном наборе данных слишком много переменных? Вот несколько возможных ситуаций, с которыми вы можете столкнуться:

  1. Вы обнаружите, что большинство переменных коррелированы при анализе.
  2. Вы теряете терпение и решаете запустить модель на всех данных. Это возвращает плохую точность, и вы чувствуете себя ужасно.
  3. Вы не решаете, что делать
  4. Вы начинаете придумывать какой-нибудь стратегический метод, чтобы найти несколько важных переменных

Поверьте, справляться с такими ситуациями не так сложно, как кажется.Статистические методы, такие как факторный анализ и анализ главных компонент (PCA), помогают преодолеть такие трудности.

В этом посте я объяснил концепцию PCA. Я постарался сделать объяснение простым и информативным. Для практического понимания я также продемонстрировал использование этой техники в R с интерпретациями.

Примечание: понимание этой концепции требует предварительного знания статистики

Обновление (от 28 июля): ниже добавлен процесс прогнозного моделирования с использованием компонентов PCA в R.

Практическое руководство по анализу основных компонентов в R & Python

Что такое анализ главных компонентов?

Проще говоря, PCA — это метод получения важных переменных (в форме компонентов) из большого набора переменных, доступных в наборе данных. Он извлекает низкоразмерный набор функций, беря проекцию нерелевантных размеров из высокоразмерного набора данных с целью собрать как можно больше информации. С меньшим количеством переменных, получаемых при минимизации потерь информации, визуализация также становится намного более значимой.PCA более полезен при работе с трехмерными данными и выше.

Это всегда выполняется на основе симметричной корреляционной или ковариационной матрицы. Это означает, что матрица должна быть числовой и содержать стандартизованные данные.

Давайте разберемся с этим на примере:

Допустим, у нас есть набор данных размером 300 ( n ) × 50 ( p ). n представляет количество наблюдений, а p представляет количество предикторов. Поскольку у нас большое p = 50, может быть p (p-1) / 2 графиков рассеяния i.е более 1000 графиков, позволяющих анализировать взаимосвязь переменных. Разве не будет утомительной работой провести исследовательский анализ этих данных?

В этом случае было бы ясным подходом выбрать подмножество предсказателя p (p << 50) , которое захватывает как можно больше информации. Затем следует нанесение наблюдения в результирующее низкоразмерное пространство.

На изображении ниже показано преобразование данных высокой размерности (3 измерения) в данные низкой размерности (2 измерения) с помощью PCA.Не забывайте, что каждый результирующий размер представляет собой линейную комбинацию из p функций

Источник: nlpca

Каковы основные компоненты?

Главный компонент — это нормализованная линейная комбинация исходных предикторов в наборе данных. На изображении выше PC1 и PC2 являются основными компонентами. Допустим, у нас есть набор предикторов X¹, X² ..., X p

Главный компонент можно записать как:

Z¹ = Φ¹¹X¹ + Φ²¹X² + Φ³¹X³ +.... + Φ p ¹X p

где,

  • Z¹ — первый главный компонент
  • Φ p ¹ — вектор нагрузки, состоящий из нагрузок ( Φ¹, Φ² .. ) первого главного компонента. Нагрузки ограничены суммой квадратов, равной 1. Это связано с тем, что большая величина нагрузок может привести к большим отклонениям. Он также определяет направление главного компонента (Z¹), по которому данные изменяются больше всего.В результате получается линия в размерном пространстве p , которая наиболее близка к наблюдениям n . Близость измеряется с помощью среднего квадрата евклидова расстояния.
  • X¹..X p — нормализованные предикторы. Нормализованные предикторы имеют среднее значение, равное нулю, и стандартное отклонение, равное единице.

Следовательно,

Первый главный компонент представляет собой линейную комбинацию исходных переменных-предикторов, которая фиксирует максимальную дисперсию в наборе данных.Он определяет направление наибольшей изменчивости данных. Чем больше вариативность, зафиксированная в первом компоненте, тем больше информации, полученной компонентом. Никакой другой компонент не может иметь вариабельность выше, чем первый главный компонент.

Первый главный компонент приводит к строке, наиболее близкой к данным, то есть минимизирует сумму квадратов расстояния между точкой данных и линией.

Точно так же мы можем вычислить и вторую главную компоненту.

Второй главный компонент () также является линейной комбинацией исходных предикторов, которая фиксирует оставшуюся дисперсию в наборе данных и не коррелирует с .Другими словами, корреляция между первым и вторым компонентами должна быть нулевой. Его можно представить как:

Z² = Φ¹²X¹ + Φ²²X² + ​​Φ³²X³ + .... + Φ p2 X p

Если два компонента не коррелированы, их направления должны быть ортогональными (изображение ниже). Это изображение основано на смоделированных данных с двумя предикторами. Обратите внимание на направление компонентов, как и ожидалось, они ортогональны. Это говорит о том, что корреляция ч / б этих компонентов равна нулю.

Все последующие главные компоненты следуют аналогичной концепции, т.е. они фиксируют оставшуюся вариацию без корреляции с предыдущим компонентом. В общем, для размерных данных n × p можно построить главный компонент min ( n-1, p) .

Направления этих компонентов идентифицируются неконтролируемым образом, т.е. переменная отклика (Y) не используется для определения направления компонента. Следовательно, это неконтролируемый подход.

Примечание. Метод методом наименьших квадратов (PLS) — это контролируемая альтернатива PCA. PLS присваивает более высокий вес переменным, которые сильно связаны с переменной ответа, чтобы определить основные компоненты.

Почему в PCA необходима нормализация переменных?

Основные компоненты поставляются с нормализованной версией исходных предикторов. Это потому, что исходные предикторы могут иметь разные масштабы. Например: представьте себе набор данных с единицами измерения переменных, такими как галлоны, километры, световые годы и т. Д.Несомненно, что масштаб отклонений этих переменных будет большим.

Выполнение PCA для ненормализованных переменных приведет к безумно большим нагрузкам для переменных с высокой дисперсией. В свою очередь, это приведет к зависимости главного компонента от переменной с высокой дисперсией. Это нежелательно.

Как показано на изображении ниже, PCA был запущен для набора данных дважды (с немасштабированными и масштабированными предикторами). Этот набор данных содержит ~ 40 переменных. Как видите, в первом основном компоненте преобладает переменная Item_MRP. А во втором основном компоненте преобладает переменная Item_Weight. Это доминирование преобладает из-за высокого значения дисперсии, связанной с переменной. Когда переменные масштабируются, мы получаем гораздо лучшее представление переменных в 2D-пространстве.

Внедрить PCA в R & Python (с интерпретацией)

Сколько основных компонентов выбрать? Я мог бы глубоко погрузиться в теорию, но лучше было бы ответить на эти вопросы практически.

Для этой демонстрации я буду использовать набор данных из Big Mart Prediction Challenge III.

Помните, что PCA может применяться только к числовым данным. Следовательно, если данные содержат категориальные переменные, их необходимо преобразовать в числовые. Кроме того, убедитесь, что вы выполнили базовую очистку данных перед применением этого метода. Давайте быстро закончим с первоначальной загрузкой данных и этапами очистки:

# путь к каталогу
> путь <- "... / Data / Big_Mart_Sales"

# установить рабочий каталог
> setwd (путь)

# загрузить поезд и тестовый файл
> поезд <- прочитать. csv ("train_Big.csv")
> test <- read.csv ("test_Big.csv")

# добавить столбец
> test $ Item_Outlet_Sales <- 1

#combine the data set
> combi <- rbind (train, test)

#impute пропущенных значений с помощью медианы
> combi $ Item_Weight [is.na (combi $ Item_Weight)] <- median (combi $ Item_Weight, na.rm = TRUE)

#impute 0 со средним значением
> combi $ Item_Visibility <- ifelse (combi $ Item_Visibility == 0, median (combi $ Item_Visibility), combi $ Item_Visibility)

#find mode and impute
> таблица (combi $ Outlet_Size, combi $ Outlet_Type)
> уровни (combi $ Outlet_Size) [1] <- «Другое»

До сих пор мы вменяли пропущенные значения.Теперь нам осталось удалить зависимую (ответную) переменную и другие переменные-идентификаторы (если есть). Как мы уже говорили выше, мы практикуем технику обучения без учителя, поэтому переменную ответа необходимо удалить.

# удалить зависимые переменные и переменные идентификатора
> my_data <- subset (combi, select = -c (Item_Outlet_Sales, Item_Identifier, Outlet_Identifier))

Давайте проверим доступные переменные (a.k.a предикторы) в наборе данных.

# проверить доступные переменные
> colnames (my_data)

Поскольку PCA работает с числовыми переменными, давайте посмотрим, есть ли у нас какие-либо другие переменные, кроме числовых.

# проверить класс переменной
> str (my_data)

'data.frame': 14204 набл. из 9 переменных:
$ Item_Weight: num 9,3 5,92 17,5 19,2 8,93 ...
$ Item_Fat_Content: коэффициент с 5 уровнями "LF", "low fat" ,..: 3 5 3 5 3 5 5 3 5 5 ...
$ Item_Visibility: число 0,016 0,0193 0,0168 0,054 0,054 . ..
$ Item_Type: Фактор с 16 уровнями «Выпечка», ..: 5 15 11 7 10 1 14 14 6 6 ...
$ Item_MRP: число 249,8 48,3 141,6 182,1 53,9 ...
$ Outlet_Establishment_Year: int 1999 2009 1999 1998 1987 2009 1987 1985 2002 2007 ...
$ Outlet_Size: множитель с 4 уровнями "Другой", "Высокий", ..: 3 3 3 1 2 3 2 3 1 1 ...
$ Outlet_Location_Type: Фактор с 3 уровнями "Уровень 1", "Уровень 2 ",..: 1 3 1 3 3 3 3 3 2 2 ...
$ Outlet_Type: Фактор с 4 уровнями "Продуктовый магазин", ..: 2 3 2 1 2 3 2 4 2 2 ...

К сожалению, 6 из 9 переменных имеют категориальный характер. Теперь у нас есть дополнительная работа. Мы преобразуем эти категориальные переменные в числовые, используя одну горячую кодировку.

# загрузить библиотеку
> библиотека (макеты)

# создать фиктивный кадр данных
> new_my_data <- dummy. data.frame (my_data, names = c («Item_Fat_Content», «Item_Type»,
«Outlet_Establishment_Year», «Outlet_Size»,
«Outlet_Location_Type», «Outlet_Type 9»))

Чтобы проверить, есть ли у нас теперь набор данных с целочисленными значениями, просто напишите:

# проверить набор данных
> str (new_my_data)

И теперь у нас есть все числовые значения. Разделим данные на тестовые и обучающие.

#divide the new data
> pca.train <- new_my_data [1: nrow (train),]
> pca.test <- new_my_data [- (1: nrow (train)),]

Теперь мы можем продолжить PCA.

Базовая функция R prcomp () используется для выполнения PCA. По умолчанию он центрирует переменную так, чтобы среднее значение было равно нулю. Со шкалой параметра . = T , мы нормализуем переменные так, чтобы стандартное отклонение было равно 1.

#principal component analysis
> prin_comp <- prcomp (pca. поезд, масштаб. = T)
> имена (prin_comp)
[1] "sdev" "вращение" "center" "scale" "x"

Функция prcomp () дает 5 полезных мер:

1. центр и шкала относится к соответствующему среднему значению и стандартному отклонению переменных, которые используются для нормализации до внедрения PCA

.

# выводит среднее значение переменных
prin_comp $ center

# выводит стандартное отклонение переменных
prin_comp $ scale

2.Мера вращения обеспечивает загрузку главного компонента. Каждый столбец матрицы вращения содержит вектор нагрузки главного компонента. Это самая важная мера, которая должна нас заинтересовать.

> prin_comp $ вращение

Возвращает 44 нагрузки основных компонентов. Это верно ? Абсолютно. В наборе данных максимальное количество загрузок основных компонентов составляет минимум (n-1, p). Давайте посмотрим на первые 4 основных компонента и первые 5 строк.

> prin_comp $ вращение [1: 5,1: 4]
PC1 PC2 PC3 PC4
Item_Weight 0.0054429225 -0,001285666 0,011246194 0,011887106
Item_Fat_ContentLF -0,0021983314 0,003768557 -0,0097 -0,016789483
Item_Fat_Contentlow жир -0,001

10 0,001866905 -0.003066415 -0.018396143
Item_Fat_ContentLow Fat 0.0027936467 -0,002234328 0,028309811 0,056822747
Item_Fat_Contentreg 0,0002936319 0,001120931 0,0054 -0,001026615

3. Чтобы вычислить вектор оценки главного компонента, нам не нужно умножать нагрузку на данные. Скорее, матрица x имеет векторы оценок главных компонентов в измерении 8523 × 44.

> тусклый (prin_comp $ x)
[1] 8523 44

Построим основные компоненты, полученные в результате.

> двумерный график (prin_comp, scale = 0)

Параметр scale = 0 обеспечивает масштабирование стрелок для представления нагрузок. Чтобы сделать вывод из изображения выше, сосредоточьтесь на крайних концах (вверху, внизу, слева, справа) этого графика.

Мы делаем вывод, что первый главный компонент соответствует измерению Outlet_TypeSupermarket, Outlet_Establishment_Year 2007. Точно так же можно сказать, что второй компонент соответствует измерению Outlet_Location_TypeTier1, Outlet_Sizeother. Для точного измерения переменной в компоненте вам следует снова взглянуть на матрицу вращения (выше).

4. Функция prcomp () также предоставляет возможность вычислять стандартное отклонение каждого главного компонента.2

# проверить отклонение первых 10 компонентов
> pr_var [1:10]
[1] 4.563615 3.217702 2.744726 2.541091 2.198152 2.015320 1.932076 1.256831
[9] 1.20373091 968103

Мы стремимся найти компоненты, которые объясняют максимальную дисперсию. Это потому, что мы хотим сохранить как можно больше информации с помощью этих компонентов. Таким образом, чем выше объясненная дисперсия, тем выше будет информация, содержащаяся в этих компонентах.

Чтобы вычислить долю дисперсии, объясняемую каждым компонентом, мы просто делим дисперсию на сумму общей дисперсии. Результат:

# объясненная пропорция дисперсии
> prop_varex <- pr_var / sum (pr_var)
> prop_varex [1:20]
[1] 0.10371853 0,07312958 0,06238014 0,05775207 0,04284 0,04 0,07 0,02735888 0,02654774 0,02559876 0,02556797
[13] 0.02549516 0,02508831 0,02493932 0,024 0,02468313 0,02446016
[19] 0,023 0,02371118

Это показывает, что первый главный компонент объясняет отклонение в 10,3%. Второй компонент объясняет отклонение в 7,3%. Третий компонент объясняет отклонение в 6,2% и так далее. Итак, как нам решить, сколько компонентов выбрать для этапа моделирования?

Ответ на этот вопрос дает осыпная делянка. График осыпи используется для доступа к компонентам или факторам, которые объясняют наибольшую изменчивость данных. Он представляет значения в порядке убывания.

#scree plot
> plot (prop_varex, xlab = "Main Component",
ylab = "Proportion of Variance Explained",
type = "b")

График выше показывает, что ~ 30 компонентов объясняют примерно 98,4% отклонения в наборе данных. Другими словами, с помощью PCA мы сократили 44 предиктора до 30 без ущерба для объясненной дисперсии. В этом сила PCA> Давайте проведем подтверждающую проверку, построив график кумулятивной дисперсии.Это даст нам четкое представление о количестве компонентов.

#cumulative scree plot
> plot (cumsum (prop_varex), xlab = "Main Component",
ylab = "Cumulative Proportion of Variance Explained",
type = "b")

Этот график показывает, что 30 компонентов приводят к дисперсии, близкой к ~ 98%. Поэтому в этом случае мы выберем количество компонентов 30 [ПК1 - ПК30] и перейдем к этапу моделирования. На этом шаги по внедрению PCA для данных поездов завершены. Для моделирования мы будем использовать эти 30 компонентов в качестве переменных-предикторов и следовать обычным процедурам.

Прогнозное моделирование с использованием компонентов PCA

После того, как мы выполнили PCA на обучающей выборке, давайте теперь разберемся в процессе прогнозирования тестовых данных с использованием этих компонентов. Процесс прост. Так же, как мы получили компоненты PCA на обучающем наборе, мы получим еще один набор компонентов на тестовом наборе.Наконец, обучаем модель.

Но несколько важных моментов для понимания:

  1. Не следует комбинировать поезд и набор тестов для одновременного получения компонентов PCA всех данных. Потому что это нарушило бы все предположение об обобщении, поскольку тестовые данные «просочились» в обучающую выборку. Другими словами, набор тестовых данных больше не останется «невидимым». В конце концов, это снизит способность модели к обобщению.
  2. Мы не должны выполнять PCA на тестовых и обучающих наборах данных отдельно.Потому что результирующие векторы из обучающего и тестового PCA будут иметь разные направления (из-за неравной дисперсии). Из-за этого мы в конечном итоге сравним данные, зарегистрированные по разным осям. Следовательно, результирующие векторы из данных поездов и испытаний должны иметь одинаковые оси.

Итак, что нам делать?

Мы должны выполнить точно такое же преобразование с тестовым набором, что и с обучающим набором, включая функцию центра и масштабирования. Сделаем это за R:

# добавить обучающий набор с основными компонентами
> train.data <- data.frame (Item_Outlet_Sales = train $ Item_Outlet_Sales, prin_comp $ x)

# нас интересуют первые 30 PCA
> train.data <- train.data [, 1: 31]

# запустить дерево решений
> install.packages ("rpart")
> library (rpart)
> rpart. model <- rpart (Item_Outlet_Sales ~., Data = train.data, method = "anova")
> rpart.model

# преобразовать тест в PCA
> test.данные <- предсказать (prin_comp, newdata = pca.test)
> test.data <- as.data.frame (test.data)

# выбрать первые 30 компонентов
> test.data <- test.data [, 1: 30]

# сделать прогноз на основе тестовых данных
> rpart.prediction <- предсказать (rpart.model, test.data)

# Для удовольствия, наконец, проверьте свои результаты в таблице лидеров
> sample <- read.csv ("SampleSubmission_TmnO39y.csv ")
> final.sub <- data.frame (Item_Identifier = sample $ Item_Identifier, Outlet_Identifier = sample $ Outlet_Identifier, Item_Outlet_Sales = rpart.prediction)
> write.csv (pca.sub," ", row.names = F)

Это полный процесс моделирования после извлечения PCA. Я уверен, что вы не будете довольны своим рейтингом в таблице лидеров после того, как загрузите решение. Попробуйте использовать случайный лес!

Для пользователей Python: Чтобы реализовать PCA в Python, просто импортируйте PCA из библиотеки sklearn.Интерпретация остается такой же, как объяснено выше для пользователей R. Конечно, результат получается примерно таким же, как после использования R. Набор данных, используемый для Python, представляет собой очищенную версию, в которой были вменены недостающие значения, а категориальные переменные преобразованы в числовые. Процесс моделирования остается таким же, как описано выше для пользователей R.

import numpy as np
from sklearn.decomposition import PCA
import pandas as pd
import matplotlib.pyplot as plt
из sklearn.preprocessing import scale
% matplotlib inline

# Загрузить набор данных
data = pd. read_csv ('Big_Mart_PCA.csv')

# преобразовать в массивы numpy
X = data.values ​​

# Масштабирование значений
X = масштаб (X)

pca = PCA (n_components = 44)

шт. Подходит (X)

# Количество отклонений, которые объясняет каждый компьютер
var = pca.объясненная_ вариация_ соотношение_

# Кумулятивная дисперсия объясняет
var1 = np.cumsum (np.round (pca.explained_variance_ratio_, decimals = 4) * 100)

печать var1
[10,37 17,68 23,92 29,7 34,7 39,28 43,67 46,53 49,27
51,92 54,48 57,04 59,59 62,1 64,59 67,08 69,55 72.
74,39 76,76 79,1 86,44.76 96,78 98,44 100.01 100.01 100.01 100.01 100.01 100.01
100.01 100.01 100.01 100.01 100.01 100.01 100.01 100.01]

участок (вар1 )

# Глядя на график выше, я беру 30 переменных
pca = PCA (n_components = 30)
pca. fit (X)
X1 = pca.fit_transform (X)

печать X1

Для получения дополнительной информации о PCA в python посетите scikit learn documentation.

Что следует помнить для PCA

  1. PCA используется для преодоления избыточности функций в наборе данных.
  2. Эти элементы малоразмерны по своей природе.
  3. Эти функции, также известные как компоненты, являются результатом нормализованной линейной комбинации исходных переменных-предикторов.
  4. Эти компоненты стремятся собрать как можно больше информации с высокой степенью объяснительной вариативности.
  5. Первый компонент имеет наибольшую дисперсию, за ним следуют второй, третий и так далее.
  6. Компоненты не должны быть коррелированы (помните ортогональное направление?). См. Выше.
  7. Нормализация данных становится чрезвычайно важной, когда предикторы измеряются в разных единицах.
  8. PCA лучше всего работает с набором данных, имеющим 3 или более измерений. Потому что с более высокими измерениями становится все труднее интерпретировать полученное облако данных.
  9. PCA применяется к набору данных с числовыми переменными.
  10. PCA - это инструмент, который помогает улучшить визуализацию данных большого размера.

Конечные ноты

На этом я подошел к концу этого урока. Не углубляясь в математику, я попытался познакомить вас с наиболее важными концепциями, необходимыми для использования этой техники. Это просто, но требует особого внимания при выборе количества компонентов. На практике мы должны стремиться сохранить только несколько первых k компонентов

Идея, лежащая в основе pca, состоит в том, чтобы построить некоторые основные компоненты (Z << Xp), которые удовлетворительно объясняют большую часть изменчивости данных, а также взаимосвязь с переменной ответа.

Вам понравилась эта статья? Вы поняли эту технику? Делитесь своими предложениями / мнениями в разделе комментариев ниже.

Вы можете проверить свои навыки и знания. Посмотрите Live

Competitions и соревнуйтесь с лучшими специалистами по анализу данных со всего мира.

Связанные

Анализ главных компонентов в R: prcomp vs princomp - Статьи

В этом руководстве R описывается, как выполнить анализ основных компонентов ( PCA ) с использованием встроенных функций R prcomp () и princomp ().Вы узнаете, как предсказать координаты новых особей и переменных с помощью PCA. Мы также предоставим теорию результатов PCA .

Узнайте больше об основах и интерпретации анализа главных компонентов в нашей предыдущей статье: PCA - Основы анализа главных компонентов.

В комплекте:


Связанная книга:


Практическое руководство по методам главных компонентов в R

Общие методы анализа главных компонент

Существует два основных метода выполнения PCA в R:

  • Спектральное разложение , которое исследует ковариации / корреляции между переменными
  • Разложение по сингулярным числам , которое исследует ковариации / корреляции между людьми

Функция princomp () использует подход спектрального разложения. Функции prcomp () и PCA () [FactoMineR] используют разложение по сингулярным числам (SVD).

Согласно справке R, SVD имеет немного лучшую числовую точность. Следовательно, функция prcomp () предпочтительнее princomp ().

Функции prcomp () и princomp ()

Упрощенный формат этих 2 функций:

  prcomp (x, scale = FALSE)
princomp (x, cor = FALSE, scores = TRUE)  
  1. Аргументы для prcomp ():
  • x : числовая матрица или фрейм данных
  • Масштаб : логическое значение, указывающее, должны ли переменные масштабироваться, чтобы иметь единичную дисперсию до того, как начнется анализ
  1. Аргументы для princomp ():
  • x : числовая матрица или фрейм данных
  • cor : логическое значение.Если TRUE, данные будут центрированы и масштабированы перед анализом.
  • баллов : логическое значение. Если ИСТИНА, вычисляются координаты каждой главной компоненты

Элементы выходных данных, возвращаемых функциями prcomp () и princomp (), включают:

sdev sdev стандартные отклонения основных компонентов
вращение загрузки матрица переменных нагрузок (столбцы - собственные векторы)
центр центр переменная означает (означает, что были вычтены)
масштаб масштаб стандартные отклонения переменных (масштабирование, примененное к каждой переменной)
x баллов Координаты особей (наблюдений) по основным компонентам.

В следующих разделах мы сосредоточимся только на функции prcomp ()

Пакет для визуализации PCA

Мы будем использовать пакет factoextra R для создания элегантной визуализации на основе ggplot2.

  • Устанавливать из CRAN:
  install.packages ("factoextra")  
  • Или установите последнюю версию для разработки с github:
  если (! Require (devtools)) установить.пакеты ("инструменты разработчика")
devtools :: install_github ("kassambara / factoextra")  
  • Фактическая нагрузка, дополнительная информация:
  библиотека (factoextra)  

Наборы демонстрационных данных

Мы будем использовать наборы данных decathlon2 [фактически экстра], которые уже были описаны в: PCA - Формат данных.

Вкратце, содержит:

  • Активные лица (строки с 1 по 23) и активные переменные (столбцы с 1 по 10), которые используются для выполнения анализа главных компонентов
  • Дополнительные индивиды (строки с 24 по 27) и дополнительные переменные (столбцы с 11 по 13), координаты которых будут предсказаны с использованием информации PCA и параметров, полученных с активными индивидами / переменными.

Загрузить данные и извлечь только активных лиц и переменные:

Библиотека
  ("factoextra")
данные (decathlon2)
decathlon2.active  
  ## X100 м. Прыжок в длину, выстрел. Прыжок в высоту X400 м. X110 м. С препятствием
## SEBRLE 11,0 7,58 14,8 2,07 49,8 14,7
## ГЛИНА 10,8 7,40 14,3 1,86 49,4 14,1
## БЕРНАРД 11,0 7,23 14,2 1,92 48,9 15,0
## ЮРКОВ 11,3 7.09 15,2 2,10 50,4 15,3
## ZSIVOCZKY 11,1 7,30 13,5 2,01 48,6 14,2
## МакМуллен 10,8 7,31 13,8 2,13 49,9 14,4  

Вычислить PCA в R с помощью prcomp ()

В этом разделе мы предоставим простой в использовании код R для вычисления и визуализации PCA в R с помощью функции prcomp () и пакета factoextra.

  1. Загрузить фактоэкстра для визуализации
  библиотека (factoextra)  
  1. Вычислить PCA
  рез.pca  
  1. Визуализируйте собственных значений (график осыпи ). Покажите процент отклонений, объясняемых каждым главным компонентом.
  fviz_eig (res.pca)  

  1. График лиц. Лица с похожим профилем группируются вместе.
  fviz_pca_ind (res.pca,
             col.ind = "cos2", # Цвет по качеству представления
             gradient.cols = c ("# 00AFBB", "# E7B800", "# FC4E07"),
             Repel = TRUE # Избегать перекрытия текста
             )  

  1. График переменных.Положительно коррелированные переменные указывают на одну и ту же сторону графика. Отрицательные коррелированные переменные указывают на противоположные стороны графика.
  fviz_pca_var (res.pca,
             col.var = "contrib", # Раскрашиваем по вкладам в ПК
             gradient.cols = c ("# 00AFBB", "# E7B800", "# FC4E07"),
             Repel = TRUE # Избегать перекрытия текста
             )  

  1. Двойной график индивидов и переменных
  fviz_pca_biplot (рез. pca, Repel = ИСТИНА,
                col.var = "# 2E9FDF", # Цвет переменных
                col.ind = "# 696969" # Цвет отдельных лиц
                )  

Доступ к результатам PCA

Библиотека
  (factoextra)
# Собственные значения
эиг.вал  

Прогнозирование с использованием PCA

В этом разделе мы покажем, как предсказать координаты дополнительных индивидов и переменных, используя только информацию, предоставленную ранее выполненным PCA.

Дополнительные лица

  1. Данные: строки с 24 по 27 и столбцы с 1 по 10 [в наборах данных decathlon2]. Новые данные должны содержать столбцы (переменные) с такими же именами и в том же порядке, что и активные данные, используемые для вычисления PCA.
  # Данные дополнительных лиц
инд.  
  ## X100 м. Прыжок в длину, выстрел. Прыжок в высоту X400 м. X110 м. С препятствием
## КАРПОВ 11,0 7,30 14,8 2,04 48,4 14,1
## ПРЕДУПРЕЖДЕНИЯ 11. 1 7,60 14,3 1,98 48,7 14,2
## Nool 10,8 7,53 14,3 1,88 48,8 14,8
## Дрюс 10,9 7,38 13,1 1,88 48,5 14,0  
  1. Предсказать координаты новых данных лиц. Используйте базовую функцию R прогнозируйте ():
  инд. Координата  
  ## PC1 PC2 PC3 PC4
## КАРПОВ 0,777 -0,762 1,597 1,686
## WARNERS -0,378 0,119 1,701 -0,691
## Нет -0.547 -1,934 0,472 -2,228
## Дрюс -1,085 -0,017 2,982 -1,501  
  1. График физических лиц, включая дополнительных:
  № Участок активных лиц
п  

Прогнозируемые координаты людей можно рассчитать вручную следующим образом:

  1. Центрирование и масштабирование данных новых лиц с использованием центра и шкалы PCA
  2. Рассчитайте прогнозируемые координаты путем умножения масштабированных значений на собственные векторы (нагрузки) главных компонентов.

Можно использовать следующий код R:

  # Центрирование и масштабирование дополнительных лиц
инд.  масштаб  
  ## PC1 PC2 PC3 PC4
## КАРПОВ 0,777 -0,762 1,597 1,686
## WARNERS -0,378 0,119 1,701 -0,691
## Nool -0,547 -1,934 0,472 -2,228
## Дрюс -1,085 -0,017 2,982 -1,501  

Дополнительные переменные

Качественные / категориальные переменные

Наборы данных decathlon2 содержат дополнительную качественную переменную в столбцах 13, соответствующих типу соревнований.

Качественные / категориальные переменные могут использоваться для окраски людей по группам. Группирующая переменная должна иметь ту же длину, что и количество активных людей (здесь 23).

  группы  

Вычислить координаты уровней группирующих переменных. Координаты для данной группы рассчитываются как средние координаты отдельных лиц в группе.

  библиотека (magrittr) # для трубы%>%
library (dplyr) # все остальное
№1.Индивидуальные координаты
res.ind%
  as_data_frame ()%>%
  выберите (Dim. 1, Dim.2)%>%
  изменить (конкуренция = группы)%>%
  group_by (конкуренция)%>%
  суммировать(
    Разм.1 = среднее (Разм.1),
    Разм.2 = среднее (Разм.2)
    )
Координаторы групп  
  ## # Столб: 2 x 3
## соревнование Разм.1 Разм.2
##
## 1 Декастар -1,31 -0,119
## 2 OlympicG 1,20 0,109  
Количественные переменные

Данные: столбцы 11:12. Должен быть такой же длины, как количество активных лиц (здесь 23)

  кванти.sup  
  ## Ранг Очки
## SEBRLE 1 8217
## ГЛИНА 2 8122
## BERNARD 4 8067
## ЮРКОВ 5 8036
## ZSIVOCZKY 7 8004
## МакМуллен 8 7995  

Координаты данной количественной переменной вычисляются как корреляция между количественными переменными и главными компонентами.

  # Прогнозировать координаты и вычислить cos2
quanti.coord  

Теория результатов PCA

Результаты PCA для переменных

Здесь мы покажем, как вычислить результаты PCA для переменных: координаты, cos2 и вклады:

  • вар. 2
  • var.contrib . Вклад переменной в заданный главный компонент равен (в процентах): (var.cos2 * 100) / (общий cos2 компонента)
  # Вспомогательная функция
# ::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
var_coord_func  
  ## PC1 PC2 PC3 PC4
## X100m -0,851 0,1794 -0,302 0,0336
## Long.jump 0,794 -0,2809 0,191 -0,1154
## Shot.put 0,734 -0,0854 -0,518 0,1285
## High.jump 0.610 0,4652 -0,330 0,1446
## X400m -0,702 -0,2902 -0,284 0,4308
## X110m.hurdle -0,764 0,0247 -0,449 -0,0169  
  # Compute Cos2
# ::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
var.cos2  
  ## PC1 PC2 PC3 PC4
## X100m 0,724 0,032184 0,0909 0,001127
## Long.jump 0,631 0,078881 0,0363 0,013315
## Выстрел 0,539 0,007294 0,2679 0,016504
## High.jump 0,372 0,216424 0,1090 0,020895
## X400m 0,492 0.084203 0,0804 0,185611
## X110м. Препятствие 0,584 0,000612 0.2015 0,000285  
  # Вычислить вклады
# ::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
comp. cos2  
  ## PC1 PC2 PC3 PC4
## X100m 17,54 1,7505 7,34 0,1376
## Long.jump 15,29 4,2904 2,93 1,6249
## Выстрел 13,06 0,3967 21,62 2,0141
## High.jump 9,02 11,7716 8,79 2,5499
## X400m 11,94 4,5799 6,49 22,6509
## X110м. Барьер 14,16 0,0333 16,26 0.2). Обратите внимание, что сумма всех вкладов в столбце составляет 100 
  
  # Координаты лиц
# ::::::::::::::::::::::::::::::::::
ind.coord  
  ## PC1 PC2 PC3 PC4
## SEBRLE 0,191 -1,554 -0,628 0,0821
## ГЛИНА 0,790 -2,420 1,357 1,2698
## БЕРНАРД -1,329 -1,612 -0,196 -1,9209
## ЮРКОВ -0,869 0,433 -2,474 0,6972
## ZSIVOCZKY -0,106 2,023 1,305 -0,0993
## МакМуллен 0,119 0,992 0,844 1,3122  
  # Cos2 лиц
# :::::::::::::::::::::::::::::::::
№1.квадрат расстояния между человеком и
# Центр тяжести PCA
центр  
  ## PC1 PC2 PC3 PC4
## SEBRLE 0,00753 0,4975 0,08133 0,00139
## ГЛИНА 0,04870 0,4570 0,14363 0,12579
## БЕРНАРД 0,19720 0,2900 0,00429 0,41182
## ЮРКОВ 0,09611 0,0238 0,77823 0,06181
## ZSIVOCZKY 0,00157 0,5764 0,23975 0,00139
## МакМуллен 0,00218 0,1522 0,11014 0,26649  
  # Взносы физических лиц
# :::::::::::::::::::::::::::::::
contrib  
  ## PC1 PC2 PC3 PC4
## СБРЕЛЬ 0. 0385 5,712 1,385 0,0357
## ГЛИНА 0,6581 13,854 6,460 8,5557
## БЕРНАРД 1,8627 6,144 0,135 19,5783
## ЮРКОВ 0,7969 0,443 21,476 2,5794
## ZSIVOCZKY 0,0118 9,682 5,975 0,0523
## МакМуллен 0,0148 2,325 2,497 9,1353  

Как читать биплоты PCA и диаграммы осыпи

Анализ главных компонентов (PCA) набирает популярность как инструмент для выявления сильных закономерностей из сложных наборов биологических данных. Мы ответили на вопрос «Что такое СПС?» в этом посте в блоге без жаргона - просмотрите его, чтобы получить простое объяснение того, как работает PCA.Вкратце, PCA отражает суть данных в нескольких основных компонентах, которые передают наибольшее разнообразие в наборе данных.

Рис. 1. График PCA . О том, как это читать, читайте в этой записи блога

.

PCA не отбрасывает никаких образцов или характеристик (переменных). Вместо этого он уменьшает подавляющее количество измерений за счет создания основных компонентов (ПК). Компьютеры описывают вариации и учитывают различное влияние исходных характеристик.Такие влияния или нагрузки можно проследить по графику PCA, чтобы выяснить, что вызывает различия между кластерами.


Рис. 2. График нагрузки

Видите, как эти векторы закреплены в начале ПК (ПК1 = 0 и ПК2 = 0)? Стоимость их проектов на каждом ПК показывает, какой вес они имеют на этом ПК. В этом примере NPC2 и CHIT1 сильно влияют на PC1, в то время как GBA и LCAT имеют большее влияние на PC2.

Еще одна приятная вещь о графиках загрузки: углы между векторами говорят нам, как характеристики коррелируют друг с другом.Давайте посмотрим на рисунок 2.

  • Когда два вектора близки и образуют небольшой угол, две переменные, которые они представляют, положительно коррелируют. Пример: APOD и PSAP
  • Если они встречаются под углом 90 °, они вряд ли будут коррелированы. Пример: NPC2 и GBA.
  • Когда они расходятся и образуют большой угол (близкий к 180 °), они имеют отрицательную корреляцию. Пример: NPC2 и MAG.

Теперь, когда вы все это знаете, чтение двухпозиционного графика PCA - это совсем несложно.

Рис. 3. Слот платы PCA

Вы, вероятно, заметили, что биплот PCA просто объединяет обычный график PCA с графиком нагрузок. Расположение такое:

  • Нижняя ось: оценка PC1.
  • Левая ось: оценка PC2.
  • Верхняя ось: нагрузки на ПК1.
  • Правая ось: нагрузки на ПК2.

Другими словами, левая и нижняя оси относятся к графику PCA - используйте их для считывания оценок PCA образцов (точки).Верхняя и правая оси относятся к графику нагрузки - используйте их, чтобы узнать, насколько сильно каждая характеристика (вектор) влияет на основные компоненты.

С другой стороны, осыпь - это диагностический инструмент, позволяющий проверить, хорошо ли работает PCA с вашими данными. Основные компоненты создаются в порядке охвата количества вариаций: ПК1 фиксирует наибольшее количество вариаций, ПК2 - второе место и т. Д. Каждый из них вносит некоторую информацию о данных, и в PCA есть столько основных компонентов, сколько и характеристик.Оставляя ПК, мы теряем информацию.

Рис. 4. График осыпи PCA

Хорошая новость в том, что если первые два или три компьютера захватили большую часть информации, то мы можем игнорировать остальную информацию, не теряя ничего важного. График на осыпях показывает, сколько вариаций улавливает каждый компьютер из данных. Ось y - это собственные значения, которые, по сути, обозначают величину вариации. Используйте график на осыпях, чтобы выбрать основные компоненты, которые необходимо сохранить. Идеальная кривая должна быть крутой, затем изгибаться в «локте» - это ваша точка отсечки - и после этого плавиться.На рисунке 4 достаточно ПК 1,2 и 3 для описания данных.

Чтобы справиться с не очень идеальной кривой графика осыпи, есть несколько способов:

  1. Правило Кайзера: выберите ПК с собственными значениями не менее 1.
  2. График пропорции дисперсии: выбранные ПК должны уметь описывать не менее 80% дисперсии.

Если вы получите слишком много основных компонентов (более 3), PCA может оказаться не лучшим способом визуализации ваших данных. Вместо этого рассмотрите другие методы уменьшения размерности, такие как t-SNE и MDS.

В итоге: Биплот PCA показывает как оценки образцов (точки) на ПК, так и загрузки переменных (векторы). Чем дальше эти векторы находятся от компьютера-источника, тем большее влияние они оказывают на этот компьютер. Графики загрузки также намекают на то, как переменные коррелируют друг с другом: малый угол означает положительную корреляцию, большой - отрицательную корреляцию, а угол 90 ° указывает на отсутствие корреляции между двумя характеристиками. График на осыпях показывает, сколько вариаций улавливает каждый главный компонент из данных.Если первых двух или трех ПК достаточно для описания сути данных, осыпной график представляет собой крутой кривой, которая быстро изгибается и сглаживается.

Ищете способ легко создавать биплоты PCA и диаграммы осыпи? Попробуйте BioVinci, программу перетаскивания, которая может запускать PCA и строить все, как никто другой, всего за несколько щелчков мышью.

Посмотрите короткое видео о том, как быстро запустить PCA с BioVinci:

Что находится в моем районе | Агентство по контролю за загрязнением окружающей среды Миннесоты

Это онлайн-приложение предлагает вам доступ к разнообразной экологической информации о вашем районе.Вы можете искать:

  • Потенциально загрязненные участки: С начала 1980-х годов, когда были созданы крупные федеральные и государственные программы очистки, MPCA активно ищет и помогает очистить загрязненные объекты, от очень маленьких до крупных. Этот веб-сайт содержит список этих свойств с возможностью поиска, а также сайты, которые уже были очищены, и те, которые в настоящее время исследуются или очищаются.
  • Экологические разрешения и регистрации: Это веб-приложение также содержит доступный для поиска перечень предприятий, которые подали заявки и получили различные типы экологических разрешений и регистраций от MPCA.

Как искать?

Поиск по названию компании, почтовому индексу, городу и многим другим способам.

Поиск по карте

Найдите на карте:

  • Расположение
  • Название предприятия или проекта
  • Город, округ, водораздел или почтовый индекс
  • Почтовый адрес
  • Городок / Диапазон
  • И многое другое!

Поиск текста

Найдите текст с помощью:

  • Тип разрешения или потенциально загрязненный участок
  • Название предприятия или проекта
  • Город, округ, водораздел или почтовый индекс
  • Разрешение или идентификатор проекта
  • Владелец
  • И многое другое!

Если на этом веб-сайте представлена ​​компания или место, означает ли это, что это угроза для моей семьи или окружающей среды?

№Эта информация сделана доступной, чтобы вы могли лучше понять свое сообщество и окружающую среду. Если недвижимость или компания указаны на этом веб-сайте, это не означает угрозы для вас или окружающей среды. Включены ранее загрязненные участки, даже если они были очищены. Предприятия, указанные как имеющие экологические разрешения, такие как разрешения на выбросы в атмосферу, соблюдают закон и соглашаются работать в пределах, установленных MPCA.

Заявление CREATE MODEL для моделей PCA | BigQuery ML | Google Cloud

CREATE MODEL заявление для PCA

Чтобы создать модель анализа главных компонентов (PCA) в BigQuery, используйте оператор BigQuery ML CREATE MODEL с типом модели PCA .

Для получения информации о поддерживаемых типах моделей для каждого оператора и функции SQL, и все поддерживаемые операторы и функции SQL для каждого типа модели, прочтите Сквозной путь пользователя для каждой модели.

CREATE MODEL синтаксис
{СОЗДАТЬ МОДЕЛЬ | СОЗДАТЬ МОДЕЛЬ, ЕСЛИ НЕТ | СОЗДАТЬ ИЛИ ЗАМЕНИТЬ МОДЕЛЬ}
  имя_модели 
[ОПЦИИ (MODEL_TYPE = {'PCA'},
    NUM_PRINCIPAL_COMPONENTS =  int64_value ,
    PCA_EXPLAINED_VARIANCE_RATIO =  float64_value ,
    SCALE_FEATURES = {ИСТИНА | ЛОЖНЫЙ }
    PCA_SOLVER = {'FULL' | «СЛУЧАЙНО» | 'AUTO'},
)];
 

СОЗДАТЬ МОДЕЛЬ

Создает и обучает новую модель в указанном наборе данных.Если название модели существует, CREATE MODEL возвращает ошибку.

СОЗДАТЬ МОДЕЛЬ, ЕСЛИ НЕ СУЩЕСТВУЕТ

Создает и обучает новую модель, только если модель в настоящее время не существует в указанный набор данных.

СОЗДАТЬ ИЛИ ЗАМЕНИТЬ МОДЕЛЬ

Создает и обучает модель и заменяет существующую модель с тем же именем в указанный набор данных.

название_модели

имя_модели - это имя модели, которую вы создаете или заменяете.Модель имя должно быть уникальным для каждого набора данных: никакая другая модель или таблица не может иметь такое же имя. Название модели должно соответствовать тем же правилам именования, что и таблица BigQuery. А название модели банка:

  • Содержит до 1024 знаков
  • Содержит буквы (в верхнем или нижнем регистре), цифры и символы подчеркивания

имя_модели не чувствительно к регистру.

Если у вас не настроен проект по умолчанию, добавьте идентификатор проекта к название модели в следующем формате, включая обратные кавычки: `[PROJECT_ID].[НАБОР ДАННЫХ]. [МОДЕЛЬ] `; Например, `myproject.mydataset.mymodel`.

model_option_list

В model_option_list требуется опция model_type . Все другие являются необязательными.

СОЗДАТЬ МОДЕЛЬ поддерживает следующие параметры:

MODEL_TYPE

Синтаксис

  MODEL_TYPE = {'PCA'}
  

Описание

Укажите тип модели. Эта опция обязательна.

Аргументы

'PCA' Анализ главных компонентов (PCA) процесс вычисления основных компонентов и их использования для внесения изменений базы на данных. Обычно используется для уменьшения размерности с помощью проецирование каждой точки данных только на несколько первых основных компонентов, чтобы получать данные более низкой размерности, сохраняя при этом как можно больше вариаций данных насколько возможно. Первый главный компонент может быть эквивалентно определен как направление, которое максимизирует дисперсию прогнозируемых данных.

PCA - это метод обучения без учителя, поэтому для обучения модели не требуется помечает и не разделяет данные для обучения или оценки.

NUM_PRINCIPAL_COMPONENTS

Синтаксис

NUM_PRINCIPAL_COMPONENTS = int64_value

Описание

Количество основных компонентов, которые необходимо оставить.

Аргументы

int64_value - это INT64 .Он не может быть больше общее количество строк или общее количество элементов (после однократного кодирования категориальные особенности).

PCA_EXPLAINED_VARIANCE_RATIO

Синтаксис

PCA_EXPLAINED_VARIANCE_RATIO = float64_value

Описание

Количество основных компонентов выбирается таким образом, чтобы процентное соотношение дисперсия, объясняемая основными компонентами, больше, чем соотношение указанный этим аргументом.

Аргументы

float64_value - это FLOAT64 . Значение должно быть в пределах (0, 1).

Примечание: NUM_PRINCIPAL_COMPONENTS и PCA_EXPLAINED_VARIANCE_RATIO должен в обучающем запросе указан один и только один.
SCALE_FEATURES

Синтаксис

  SCALE_FEATURES = {TRUE | ЛОЖНЫЙ }
  

Описание

Масштабировать или нет числовые характеристики до единичной дисперсии.Обратите внимание, что входные числовые функции всегда центрируются, чтобы иметь нулевое среднее значение. Отдельно категориальные признаки кодируются горячим способом.

Аргументы

Принимает BOOL . Значение по умолчанию - ИСТИНА .

PCA_SOLVER

Синтаксис

  PCA_SOLVER = {'FULL' | «СЛУЧАЙНО» | "АВТО"}
  

Описание

Решающая программа, используемая для вычисления основных компонентов.

Аргументы

'FULL' : запустить алгоритм полного собственного разложения. В этом случае максимально допустимый мощность функции (после однократного кодирования категорий) динамически по оценкам. Основным фактором, определяющим это значение, является длина имена функций, и не имеет отношения к значениям NUM_PRINCIPAL_COMPONENTS или PCA_EXPLAINED_VARIANCE_RATIO . В качестве ориентира это максимально допустимое количество элементов обычно находится в диапазоне от 1000 до 1500. Если суммарная мощность входных данных не соответствует оценкам максимальное значение, то возвращается недопустимая ошибка запроса.

'RANDOMIZED' : запустить рандомизированный алгоритм PCA. В этом случае максимальная допустимое количество элементов ограничено 10 000. Если мощность признака входных данных меньше 10 000, то есть динамически определяемый предел от количества основных компонентов для вычисления, в результате ресурсов ограничения.

  • Если указать NUM_PRINCIPAL_COMPONENTS , то значение не должно быть больше, чем ограничение, иначе это приведет к неверным ошибкам запроса.
  • Если вы укажете PCA_EXPLAINED_VARIANCE_RATIO , затем вычисляются все главные компоненты, указанные в шапке. Если их общая объясненный коэффициент дисперсии меньше указанного значения, тогда все они будут быть возвращенным; в противном случае возвращается подмножество.

«АВТО» : решающая программа выбирается политикой по умолчанию на основе входных данных. Обычно, когда мощность функции (после однократного кодирования все категориальных) меньше порога, точное полное собственное разложение равно вычислено.В противном случае выполняется рандомизированный PCA. Порог динамически определяется, но обычно находится в диапазоне от 1000 до 1500. Количество строк в входные данные не учитываются при выборе решателя.

Значение по умолчанию: «АВТО»

query_statement

Предложение AS query_statement определяет стандартный запрос SQL, который используется для генерировать обучающие данные. Увидеть Стандартный синтаксис SQL-запроса страница для поддерживаемого синтаксиса SQL предложения query_statement .

СОЗДАТЬ МОДЕЛЬ примеры

В следующих примерах создаются модели с именем mymodel в mydataset в вашем проект по умолчанию.

Обучение модели PCA с использованием параметра NUM_PRINCIPAL_COMPONENTS.

В этом примере создается модель PCA с четырьмя основными компонентами.

СОЗДАТЬ МОДЕЛЬ
  `mydataset.mymodel`
ПАРАМЕТРЫ
  (MODEL_TYPE = 'PCA',
    NUM_PRINCIPAL_COMPONENTS = 4) КАК
ВЫБРАТЬ
  *
ОТ `mydataset.mytable`
 

Обучение модели PCA с использованием параметра PCA_EXPLAINED_VARIANCE_RATIO.

В этом примере создается модель PCA, в которой количество основных компонентов равно выбраны так, чтобы процент объясненной ими дисперсии был больше, чем 0.8.

  СОЗДАТЬ МОДЕЛЬ
  `mydataset.mymodel`
ПАРАМЕТРЫ
  (MODEL_TYPE = 'PCA',
    PCA_EXPLAINED_VARIANCE_RATIO = 0.8) КАК
ВЫБРАТЬ
  *
ИЗ
  `mydataset.mytable`
  
.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *