Нет данных в базе рса: Почему в единой базе РСА нет данных водительского удостоверения?

Содержание

Можно ли делать ОСАГО не по месту прописки в 2021 году?

27 янв. 2021 г., 20:24

Правила и условия оформления страховки ОСАГО в другом регионе. Возможно ли получить полис ОСАГО не по месту прописки? Как влияет на цену полиса ОСАГО регион прописки?

Страховка ОСАГО не по прописке

Водители в России обязаны соблюдать закон «Об ОСАГО», регулирующий все процессы, связанные с этой страховкой. В противном случае придется оплачивать штрафы и нести огромные расходы при наступлении страховых случаев. Разумеется, законопослушание при управлении потенциально опасными средствами передвижения очень важно, но и осведомленность в собственных правах автолюбителю не помешает. Например, многие не знают, можно ли оформить ОСАГО не по месту прописки и получить полис обязательного страхования, находясь в другом регионе. А это важно, поскольку не всегда получается поехать в родной населенный пункт и на месте решить вопрос с «автогражданкой».

Оформление ОСАГО в другом городе

Закон об обязательном автостраховании разрешает заниматься оформлением ОСАГО, даже если прописка не совпадает.

Процедуру можно пройти двумя способами — в офисе выбранной страховой компании или же онлайн при доступе в интернет. Надо сказать, цифровизация в России значительно облегчает жизнь автомобилистам. Прямо из дома, каждый может рассчитать стоимость «автогражданки», перейдя по ссылке inguru.ru/kalkulyator_osago/reg_moskva, узнать свой КБМ и получить консультацию специалиста.

Независимо от выбранного способа оформления полиса при несовпадающей прописке, необходимо заранее подготовить пакет документов:

  • внутренний паспорт гражданина;
  • ПТС или СТС автомобиля;
  • диагностическую карту;
  • водительские удостоверения лиц, вписываемых в страховку (если оформляется ограниченный ОСАГО).

При неполном наборе документов купить страховку не получится, так как данные из них должны вноситься в базу для проверки. Также страховые компании имеют право отказывать в обслуживании, когда клиент не имеет прописки вообще. Иными словами, потребуется оформить хотя бы временную регистрацию, чтобы стать обладателем заветного документа.

А вот несовпадение прописки основанием для отказа в оформлении ОСАГО не является. Страховщики, пренебрегающие этим правилом, грубо нарушают закон и их отрицательное решение в таком случае можно оспаривать.

Процедура получения полиса

Как уже отмечалось, купить ОСАГО в другом регионе можно двумя способами. Оформление через интернет для многих водителей — настоящее спасение, поскольку помогает экономить деньги и время. При выборе такого способа нужно:

  1. Зарегистрироваться на портале inguru.ru или сайте своей страховой. Для этого достаточно номера мобильного телефона и адреса e-mail.
  2. Заполнить предложенную форму, тщательно перепроверяя все данные. Последние берутся из документов, входящих в пакет.
  3. Дождаться решения страховщика после проверки внесенной информации.
  4. Оплатить полис и получить его на указанную при регистрации почту. Е-ОСАГО приходит в PDF-файле, который можно открыть и распечатать на обычном листе А4.

Как видим, сделать страховку ОСАГО онлайн не по месту прописки — довольно простая задача. Но этот способ не подойдет абсолютным новичкам, которые недавно получили права и с автострахованием дел не имели. Причина проста — отсутствие сведений в базе РСА. А если их нет, то и система после введения данных в предложенную форму не сможет их проверить. Поэтому при первом оформлении ОСАГО не по месту прописки рекомендуется обращаться в офис выбранной компании со всеми обязательными бумагами. Ее сотрудник обязан будет принять заявление, внести данные в базу и выдать бумажный полис. При отказе в обслуживании несостоявшийся владелец полиса вправе обратиться с жалобой в вышестоящие инстанции — Центробанк, Роспотребнадзор, РСА. 

Источник: http://intaldom.ru/novosti/transport/mozhno-li-delat-osago-ne-po-mestu-propiski-v-2021-godu

Нет в базе рса что делать


Что делать, если нет данных в базе РСА либо указаны неправильные?

Содержание страницы

С 2013 года Союзом автостраховщиков РФ (РСА) введена в работу база данных, используемая при проверке коэффициента «бонус-малус» (КБМ). Указанный параметр в обязательном порядке должен использоваться страховыми компаниями при расчете тарифа по страхованию (ОСАГО).

Учитывая собственную страховую историю, водители могут рассчитывать на понижение тарифа за счет бонусов (5% за каждый год) за безаварийное вождение в предыдущий страхованию год. Если в ходе последних двух лет имело место ДТП по вине клиента, то размер тарифа увеличивается (малус).

В чем преимущества метода?

Для клиента выгода от единой базы данных состоит в том, что стоимость полиса должна ему объявляться сотрудником СК только после выполнения запроса в базу РСА и выявления права на получение скидки по стоимости. Ранее расчет часто производился по базовому тарифу без учета имеющегося бонуса.

Для страховой компании положительным моментом является возможность получения реальной картины по водительской истории клиента. Ранее водитель, узнав о повышении тарифа из-за ДТП, переходил на обслуживание в другую СК, которая была не в курсе о происшествии, и страховался по обычной стоимости. Теперь в любой организации будет видна его история, поэтому тариф будет везде одинаковый, то есть повышенный из-за нарушений ПДД и ДТП.

Почему нет сведений в базе?

Персональные данные в единой страховой базе могут отсутствовать по нескольким причинам:

  • когда страховая компания по разным причинам не передала информацию об истории вождения клиента;
  • когда переданы не правильные данные в РСА, а с ошибками, поэтому они не привязаны в базе к конкретному водителю;
  • когда произошел технический сбой в работе программы и какие-то участки с данными оказались поврежденными;
  • когда клиент произвел обмен водительского удостоверения, но информация в базе осталась привязанной к устаревшим данным;
  • когда клиент только получил права и оформляет самый первый страховой договор.

Что делать при отсутствии информации в базе РСА?

Чтобы убедиться в том, что действительно нет данных в РСА о КБМ, следует направить письменный запрос в Союз автостраховщиков. Если не найдут подтверждения факты передачи сведений страховщиками за предыдущие периоды, водитель должен предпринять следующие действия:

  • Подготовить старые страховые полисы ОСАГО. При их отсутствии обратиться в СК, где ранее оформлялись договора, и выяснить номера документов, период их действия и дату выдачи.
  • По месту оформления предыдущего полиса получить справку для перехода в другую СК с указанием данных о страховом стаже клиента и страховых случаях (если таковые были).
  • Полученную справку отнести в СК, где планируется оформление нового страхового соглашения.

Если договор уже оформлен, то на основании предоставленной справки стоимость полиса должна быть пересчитана, и возвращена часть оплаченной премии при наличии права на скидки (по КБМ).

Почему в единой базе РСА нет данных водительского удостоверения?

Задайте
вопрос

Уже несколько дней пытаюсь купить электронное ОСАГО. Перепробовал сайты десятка страховых компаний, но везде одна и та же ошибка. Программа не находит в единой базе моё водительское удостоверение. Звонил в РСА. Там посоветовали оформить письменное обращение. Вот только ждать ответа нет времени, новый полис нужен на этой неделе. В чём может быть причина того, что мои права не внесены в базу данных, и как мне теперь оформлять электронный полис?

  • З

    Отвечает Загородский Александрэксперт

    Такая ошибка возникает, если при заполнении заявления на страхование в компьютере менеджер переключал раскладку клавиатуры на латинскую. Например, в фамилии Иванов буква «а» из кириллицы была заменена на аналогичную из латиницы. Попробуйте заполнить данные по водительскому удостоверению с учётом этого соображения.

Назначьте свою цену Каско на renins.ruНазначить цену

ОСАГО, — водителя нет в базе данных

Мне пришел ответ из страховой.

Добрый день.

Благодарим Вас за обращение в ОАО СК «Альянс».

Настоящим письмом сообщаем, что данные по полису ССС-0679639294, период действия 22.04.2014 — 21. 04.2015 гг., скорректированы.

Информируем Вас, что сведения в АИС РСА принимаются к расчету по факту завершения действия договора.

На дату, следующую за датой завершения действия полиса ССС-0679639294, 22.04.2015 г., КБМ водителя *****************. И. будет равен 0,65, класс=10.

Лист расчёта на дату 22.04.2015 г. во вложении, код расчёта: 1853689954.

Полис ССС-0679639294 является действующим и на текущую дату не может участвовать в расчёте. Дополнительно был сделан запрос в АИС РСА с целью определения КБМ на сегодняшний день, расчёт был произведён по полису ССС-0679653455, согласно которому расчётным является класс 9, КБМ=0,7 (при пролонгации класс повысится до 10).

Лист расчёта на текущую дату во вложении, код расчёта: 1853690780.

Приносим извинения за доставленные неудобства.

 

Что делать, если данных о диагностической карте нет в базе данных РСА?

Задайте
вопрос

Купил диагностическую карту. Машину по факту практически не осматривали. Есть такая? И хорошо! Когда пришло время оформлять полис ОСАГО, выяснилось, что моей диагностической карты нет в базе данных Российского Союза Автостраховщиков. Что мне теперь делать-то?

  • З

    Отвечает Загородский Александрэксперт

    Возможны два варианта. Вы могли стать жертвой мошенников. Проверьте название организации, проводившей технический осмотр транспортного средства, на официальном сайте Российского Союза Автостраховщиков в соответствующем реестре. Если ее там не окажется, то незамедлительно обращайтесь в полицию с заявлением о факте мошенничества. При этом Вам придется заново пройти технический осмотр транспорта и получить диагностическую карту, если требуется оформить полис ОСАГО.
    Если же организация, проводившая технический осмотр транспорта, числится в списке компаний, аккредитованных РСА. То Вам необходимо обратиться в данную организацию с требованием внести сведения о Вашей диагностической карте в базу РСА. При отсутствии реакции со стороны оператора технического осмотра следует обращаться с жалобой в Российский Союз Автостраховщиков.

    Как правило, подобные проблемы разрешаются достаточно оперативно.

Назначьте свою цену Каско на renins.ruНазначить цену

«Отсутствие данных в базе РСА. КБМ !!!»

татьяна (гость)

Отсутствие данных в базе РСА. КБМ !!!

Решила я продлить полис ОСАГО Росгосстрах и надо же… оказалось что данные о моей истории страхования отсутствуют в базе РСА. По текущему полису класс 8, а мне теперь предлагают страховать по 3 классу. КЛАСС!!! Все что предложила девушка по телефону страховой-это написать жалобу на сайте Росгосстраха. Жалобу написала, но никаких регистрационных данных о жалобе от сайта не получено.Потом доказывай что ты писал, когда писал, кому писал… Срок рассмотрения жалобы 30 дней (по инфо по тел.), а полис то заканчивается через две недели… «И теперь это уже ваши проблемы»-так мне ответили по телефону.И да, девушка по телефону отвечая на вопрос о том, почему такое случилось, просто тупо прочитала мне уже заранее заготовленный текст. Проверяла, звонила 2 раза, текст один и тот же))) Так что храните свои все предыдущие страховые полисы, ибо в нашей стране без бумажки-ты… ну сами знаете кто… Видимо это касается всех страховых компаний. т.к отзывов подобных достаточно и по другим конторкам, но тут просто убило отношение…
Ах, да еще интересно отсутствие логики в подобных ситуациях.То что полис текущий с 8 классом-это оказывается не является никаким основание для продления полиса со скидкой.Основанием является только база РСА, в которой данных почему-то нет…

ВСЕ!

Полис ОСАГО виновника ДТП отсутствует в базе РСА

Ярослав, добрый день.

Сведения о выписанном полисе ОСАГО
должны быть занесены в АИС РСА не позднее одного рабочего дня с момента оформления полиса.

7. При заключении договора обязательного страхования страховщик вручает страхователю страховой полис, являющийся документом, удостоверяющим осуществление обязательного страхования, или выдает лицу, обратившемуся к нему за заключением договора обязательного страхования, мотивированный отказ в письменной форме о невозможности заключения такого договора, о чем также информирует Банк России и профессиональное объединение страховщиков. Страховщик не позднее одного рабочего дня со дня заключения договора обязательного страхования вносит сведения, указанные в заявлении о заключении договора обязательного страхования и (или) представленные при заключении этого договора, в автоматизированную информационную систему обязательного страхования, созданную в соответствии со статьей 30 настоящего Федерального закона. Бланк страхового полиса обязательного страхования является документом строгой отчетности.

То обстоятельство, что полис не внесен в АИС РСА, не умаляет его действительность и не может служить основанием для отказа в выплате страхового возмещения.

Здесь стоит учесть, что исходя из требований ст. 15 ФЗ «Об ОСАГО»

7.1. Страховщик обеспечивает контроль за использованием бланков страховых полисов обязательного страхования страховыми брокерами и страховыми агентами и несет ответственность за их несанкционированное использование. Для целей настоящего Федерального закона под несанкционированным использованием бланков страховых полисов обязательного страхования понимается возмездная или безвозмездная передача чистого или заполненного бланка страхового полиса владельцу транспортного средства без отражения в установленном порядке факта заключения договора обязательного страхования, а также искажение представляемых страховщику сведений об условиях договора обязательного страхования, отраженных в бланке страхового полиса, переданного страхователю.
В случае причинения вреда жизни, здоровью или имуществу потерпевшего владельцем транспортного средства, обязательное страхование гражданской ответственности которого удостоверено страховым полисом обязательного страхования, бланк которого несанкционированно использован, страховщик, которому принадлежал данный бланк страхового полиса, обязан выплатить за счет собственных средств компенсацию в счет возмещения причиненного потерпевшему вреда в размере, определенном в соответствии со статьей 12 настоящего Федерального закона,за исключением случаев хищения бланков страховых полисов обязательного страхования при условии, что до даты наступления страхового случая страховщик, страховой брокер или страховой агент обратился в уполномоченные органы с заявлением о хищении бланков. Выплата указанной компенсации осуществляется в порядке, установленном настоящим Федеральным законом для осуществления страховой выплаты. Принадлежность бланка страхового полиса обязательного страхования страховщику подтверждается профессиональным объединением страховщиков в соответствии с правилами профессиональной деятельности, предусмотренными подпунктом «п» пункта 1 статьи 26 настоящего Федерального закона.
Неполное и (или) несвоевременное перечисление страховщику страховой премии, полученной страховым брокером или страховым агентом, не освобождает страховщика от необходимости исполнения обязательств по договору обязательного страхования, в том числе в случаях несанкционированного использования бланков страхового полиса обязательного страхования.
В пределах суммы компенсации, выплаченной страховщиком потерпевшему в соответствии с настоящим пунктом, а также понесенных расходов на рассмотрение требования потерпевшего страховщик имеет право требования к лицу, ответственному за несанкционированное использование бланка страхового полиса обязательного страхования, принадлежавшего страховщику.

Поэтому, чтобы Вам представитель СК — не уверял, но на производство выплаты отведены законом 20 дней и в течение этих сроков она должна быть осуществлена. Если срок нарушен, то Вы вправе осуществлять защиту своих интересов в судебном порядке, дополнительно требуя взыскания со страховой компании финансовых санкций.

PCA с использованием Python (scikit-learn). Мой последний урок касался логистики… | автор: Майкл Галарник.

Исходное изображение (слева) с сохраненной разной величиной дисперсии

В моем последнем руководстве я рассмотрел логистическую регрессию с использованием Python. Одна из полученных вещей заключалась в том, что вы можете ускорить настройку алгоритма машинного обучения, изменив алгоритм оптимизации. Более распространенный способ ускорить алгоритм машинного обучения — использовать анализ главных компонентов (PCA). Если ваш алгоритм обучения слишком медленный из-за слишком высокого размера входных данных, то использование PCA для его ускорения может быть разумным выбором. Вероятно, это наиболее распространенное применение PCA. Еще одно распространенное применение PCA — визуализация данных.

Чтобы понять ценность использования PCA для визуализации данных, в первой части этого учебного поста рассматривается базовая визуализация набора данных IRIS после применения PCA. Вторая часть использует PCA для ускорения алгоритма машинного обучения (логистической регрессии) для набора данных MNIST.

Итак, приступим! Если вы заблудились, рекомендую открыть видео ниже в отдельной вкладке.

PCA с использованием Python Video

Код, используемый в этом руководстве, доступен ниже

PCA для визуализации данных

PCA для ускорения алгоритмов машинного обучения

Для многих приложений машинного обучения это помогает визуализировать данные. Визуализировать двух- или трехмерные данные не так сложно. Однако даже набор данных Iris, используемый в этой части руководства, является четырехмерным. Вы можете использовать PCA, чтобы уменьшить эти четырехмерные данные до двух или трех измерений, чтобы вы могли построить график и, надеюсь, лучше понять данные.

Загрузить набор данных Iris

Набор данных Iris — это один из наборов данных, которые поставляются с scikit-learn, которые не требуют загрузки какого-либо файла с какого-либо внешнего веб-сайта. Приведенный ниже код загрузит набор данных радужной оболочки.

 импортировать панды как pdurl = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"# загрузить набор данных в Pandas DataFrame 
df = pd.read_csv (url, names = ['длина чашелистника', 'ширина чашелистника', 'длина лепестка', 'ширина лепестка', 'цель'])
Исходные Pandas df (функции + цель)

Стандартизация данных

PCA выполняется по масштабу, поэтому вам нужно для масштабирования функций в ваших данных перед применением PCA.Используйте StandardScaler , чтобы помочь вам стандартизировать функции набора данных в единичном масштабе (среднее значение = 0 и дисперсия = 1), что является требованием для оптимальной производительности многих алгоритмов машинного обучения. Если вы хотите увидеть негативный эффект, который может иметь отсутствие масштабирования ваших данных, в scikit-learn есть раздел о последствиях нестандартизации ваших данных.

 из sklearn.preprocessing import StandardScalerfeatures = ['длина чашелистника', 'ширина чашелистика', 'длина лепестка', 'ширина лепестка'] # Разделение элементов 
x = df.loc [:, features] .values ​​# Разделение цели
y = df.loc [:, ['target']]. values ​​# Стандартизация функций
x = StandardScaler (). fit_transform (x)
Массив x (визуализируется фреймом данных pandas) до и после стандартизации

Проекция PCA в 2D

Исходные данные имеют 4 столбца (длина чашелистика, ширина чашелистика, длина лепестка и ширина лепестка). В этом разделе код проецирует исходные данные, которые являются четырехмерными, в двухмерные. Я должен отметить, что после уменьшения размерности каждому главному компоненту обычно не присваивается конкретное значение.Новые компоненты — это всего лишь два основных аспекта вариации.

 из sklearn.decomposition import PCApca = PCA (n_components = 2) PrincipalComponents = pca.fit_transform (x) PrincipalDf = pd.DataFrame (data = PrincipalComponents 
, columns = ['основной компонент 1', 'основной компонент 2'])
PCA и сохранение двух верхних основных компонентов
 finalDf = pd.concat ([PrincipalDf, df [['target']]], axis = 1) 

Объединение DataFrame по оси = 1. finalDf — это последний DataFrame перед построением графика данные.

Объединение фреймов данных по столбцам для создания finalDf перед построением графика

Визуализация 2D-проекции

В этом разделе просто отображаются двухмерные данные. Обратите внимание на графике ниже, что классы кажутся хорошо отделенными друг от друга.

 fig = plt.figure (figsize = (8,8)) 
ax = fig.add_subplot (1,1,1)
ax.set_xlabel ('Главный компонент 1', fontsize = 15)
ax.set_ylabel (' Основной компонент 2 ', fontsize = 15)
ax.set_title (' 2-компонентный PCA ', fontsize = 20) target = [' Iris-setosa ',' Iris-versicolor ',' Iris-virginica ']
colors = [' r ',' g ',' b ']
для цели, цвет в zip (цели, цвета):
indexToKeep = finalDf [' target '] == target
ax. scatter (finalDf.loc [indexToKeep, 'главный компонент 1']
, finalDf.loc [indexToKeep, 'главный компонент 2']
, c = color
, s = 50)
ax.legend (цели)
ax.grid ()
2 График PCA компонентов

Объясненное отклонение

Объясненное отклонение показывает, сколько информации (отклонения) можно отнести к каждому из основных компонентов. Это важно, поскольку, хотя вы можете преобразовать 4-мерное пространство в 2-мерное пространство, при этом вы теряете часть дисперсии (информации).Используя атрибут объясненная_вариантность_ , вы можете увидеть, что первый главный компонент содержит 72,77% дисперсии, а второй главный компонент содержит 23,03% дисперсии. Вместе эти два компонента содержат 95,80% информации.

 pca.explained_variance_ratio_ 

Одно из наиболее важных приложений PCA — ускорение алгоритмов машинного обучения. Использование набора данных IRIS здесь было бы непрактичным, поскольку набор данных содержит только 150 строк и только 4 столбца функций. База данных рукописных цифр MNIST более подходит, поскольку она имеет 784 столбца характеристик (784 измерения), обучающий набор из 60 000 примеров и тестовый набор из 10 000 примеров.

Загрузка и загрузка данных

Вы также можете добавить параметр data_home в fetch_mldata , чтобы изменить место загрузки данных.

 из sklearn.datasets import fetch_openmlmnist = fetch_openml ('mnist_784') 

Изображения, которые вы загрузили, содержатся в mnist.data и имеет форму (70000, 784), что означает 70 000 изображений с 784 размерами (784 объекта).

Метки (целые числа 0–9) содержатся в mnist.target . Элементы имеют 784 размера (изображения 28 x 28), а надписи представляют собой простые числа от 0 до 9.

Разделение данных на наборы для обучения и тестирования

Как правило, разделение обучающего теста составляет 80% обучения и 20% теста. В этом случае я выбрал 6/7 данных для обучения и 1/7 данных для тестового набора.

 из sklearn.model_selection import train_test_split # test_size: какая часть исходных данных используется для тестового набора 
train_img, test_img, train_lbl, test_lbl = train_test_split (mnist.data, mnist.target, test_size = 1 / 7.0, random_state = 0)

Стандартизация данных

Текст в этом абзаце является почти точной копией того, что было написано ранее. PCA зависит от масштаба, поэтому вам необходимо масштабировать функции в данных перед применением PCA. Вы можете преобразовать данные в единицу измерения (среднее значение = 0 и дисперсия = 1), что является требованием для оптимальной производительности многих алгоритмов машинного обучения. StandardScaler помогает стандартизировать функции набора данных. Обратите внимание, что вы подходите для обучающего набора и трансформируете обучающий и тестовый набор. Если вы хотите увидеть негативный эффект, который может иметь отсутствие масштабирования ваших данных, в scikit-learn есть раздел о последствиях нестандартизации ваших данных.

 из sklearn.preprocessing import StandardScaler 
scaler = StandardScaler () # Подходит только для обучающего набора.
scaler.fit (train_img) # Применить преобразование как к набору обучения, так и к набору тестов.
train_img = scaler.transform (train_img)
test_img = scaler.transform (test_img)

Импорт и применение PCA

Обратите внимание, что в коде ниже 0,95 для параметра количества компонентов. Это означает, что scikit-learn выбирает минимальное количество основных компонентов, чтобы сохранить 95% дисперсии.

 из sklearn.decomposition import PCA # Создайте экземпляр модели 
pca = PCA (.95)

Установите PCA в обучающий набор. Примечание: вы устанавливаете PCA только на тренировочном наборе.

 pca.fit (train_img) 

Примечание. Вы можете узнать, сколько компонентов PCA выберет после подбора модели, используя pca.n_components_ . В этом случае 95% дисперсии составляют 330 основных компонентов.

Примените отображение (преобразование) как к обучающему набору, так и к набору тестов.
 train_img = pca.transform (train_img) 
test_img = pca.transform (test_img)

Применить логистическую регрессию к преобразованным данным

Шаг 1: Импортируйте модель, которую хотите использовать

В sklearn, все модели машинного обучения реализованы как классы Python

 из sklearn.linear_model import LogisticRegression 

Шаг 2: Создайте экземпляр модели.

 # для всех неуказанных параметров установлены значения по умолчанию 
# решатель по умолчанию невероятно медленный, поэтому он был изменен на 'lbfgs'
logisticRegr = LogisticRegression (solver = 'lbfgs')

Шаг 3: Обучение модели на данных, хранящих информацию, полученную из данных

Модель изучает взаимосвязь между цифрами и метками

 logisticRegr.fit (train_img, train_lbl) 

Шаг 4: Предсказание меток новых данных (новых изображений)

Использует информацию, полученную моделью в процессе обучения модели

Код ниже предсказывает для одного наблюдения

  # Predict для одного наблюдения (изображение)  
logisticRegr.predict (test_img [0] .reshape (1, -1))

Приведенный ниже код прогнозирует сразу несколько наблюдений

  # Прогноз для одного наблюдения (изображение)  
logisticRegr .прогноз (test_img [0:10])

Измерение производительности модели

Хотя точность не всегда является лучшим показателем для алгоритмов машинного обучения (точность, отзыв, оценка F1, кривая ROC и т. здесь для простоты.

 logisticRegr.score (test_img, test_lbl) 

Сроки подгонки логистической регрессии после PCA

Весь смысл этого раздела руководства состоял в том, чтобы показать, что вы можете использовать PCA для ускорения подбора алгоритмов машинного обучения.В приведенной ниже таблице показано, сколько времени потребовалось для соответствия логистической регрессии на моем MacBook после использования PCA (каждый раз сохраняя разную величину дисперсии).

Время, необходимое для подгонки логистической регрессии после PCA с различными долями сохраняемой дисперсии

В более ранних частях руководства было продемонстрировано использование PCA для сжатия данных большой размерности в данные меньшей размерности. Я хотел вкратце упомянуть, что PCA может также возвращать сжатое представление данных (данные более низкой размерности) к приближению исходных данных большой размерности.Если вас интересует код, который создает изображение ниже, посмотрите мой github.

Исходное изображение (слева) и приближения (справа) исходных данных после PCA

Заключительные мысли

Это сообщение, над которым я мог бы писать намного дольше, поскольку PCA имеет много разных применений. Надеюсь, этот пост поможет вам во всем, над чем вы работаете. В моем следующем руководстве по машинному обучению я расскажу о деревьях принятия решений для классификации (Python). Если у вас есть какие-либо вопросы или мысли по поводу учебника, не стесняйтесь обращаться в комментариях ниже или через Twitter.Если вы хотите узнать о других алгоритмах, рассмотрите возможность прохождения моего курса «Машинное обучение с помощью Scikit-Learn LinkedIn Learning».

.

Визуализация многомерных наборов данных с использованием PCA и t-SNE в Python | Автор: Луук Дерксен

Обновление: 29 апреля 2019 г. Некоторые части кода обновлены, чтобы не использовать ggplot , а вместо этого использовать seaborn и matplotlib . Я также добавил пример для 3D-графика. Я также изменил синтаксис для работы с Python3.

Первый шаг к решению любой проблемы, связанной с данными, — это начать с изучения самих данных.Это можно сделать, например, путем изучения распределений определенных переменных или выявления потенциальных корреляций между переменными.

В настоящее время проблема заключается в том, что большинство наборов данных содержат большое количество переменных. Другими словами, они имеют большое количество измерений, по которым распределяются данные. Визуальное изучение данных может стать затруднительным и в большинстве случаев практически невозможно выполнить вручную. Однако такое визуальное исследование невероятно важно в любой проблеме, связанной с данными.Поэтому важно понимать, как визуализировать многомерные наборы данных. Это может быть достигнуто с помощью методов, известных как уменьшение размерности. Этот пост будет посвящен двум методам, которые позволят нам это сделать: PCA и t-SNE.

Об этом позже. Давайте сначала получим некоторые (многомерные) данные для работы.

В этой статье мы будем использовать набор данных MNIST. Нет необходимости загружать набор данных вручную, так как мы можем получить его с помощью Scikit Learn.

Сначала давайте разместим все библиотеки.

 из __future__ import print_function 
import timeimport numpy as np
import pandas as pdfrom sklearn.datasets import fetch_mldata
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE% matplotlib inline
import matplotlib as plt_py. mplot3d импортирует Axes3Dimport seaborn как sns

и давайте затем начнем с загрузки данных

 mnist = fetch_mldata ("MNIST original") 
X = mnist.data / 255.0
y = mnist.targetprint (X.shape, y.shape) [out] (70000, 784) (70000,)

Мы собираемся преобразовать матрицу и вектор в DataFrame Pandas. Это очень похоже на DataFrames, используемые в R, и облегчит нам построение графика позже.

 feat_cols = ['pixel' + str (i) for i in range (X.shape [1])] df = pd.DataFrame (X, columns = feat_cols) 
df ['y'] = y
df [ 'label'] = df ['y']. apply (lambda i: str (i)) X, y = None, Noneprint ('Размер фрейма данных: {}'. format (df.shape)) [out] Размер фрейма данных: (70000, 785)

Поскольку мы не хотим использовать 70 000 цифр в некоторых вычислениях, мы возьмем случайное подмножество цифр.Рандомизация важна, поскольку набор данных сортируется по его метке (то есть первые семь тысяч или около того — нули и т. Д.). Чтобы гарантировать рандомизацию, мы создадим случайную перестановку числа от 0 до 69 999, которая позволит нам позже выбрать первые пять или десять тысяч для наших расчетов и визуализаций.

 # Для воспроизводимости результатов 
np.random.seed (42) rndperm = np.random.permutation (df.shape [0])

Теперь у нас есть фрейм данных и вектор рандомизации.Давайте сначала проверим, как на самом деле выглядят эти числа. Для этого мы сгенерируем 30 графиков случайно выбранных изображений.

 plt.gray () 
fig = plt.figure (figsize = (16,7))
для i в диапазоне (0,15):
ax = fig.add_subplot (3,5, i + 1, title = "Цифра: {}". Формат (str (df.loc [rndperm [i], 'label'])))
ax.matshow (df.loc [rndperm [i], feat_cols] .values.reshape ((28 , 28)). Astype (float))
plt.show ()

Теперь мы можем начать думать о том, как на самом деле отличить нули от единиц, двоек и так далее.Если бы вы были, например, почтовым отделением, такой алгоритм мог бы помочь вам читать и сортировать рукописные конверты с помощью машины, а не людей. Очевидно, что в настоящее время у нас есть очень продвинутые методы для этого, но этот набор данных по-прежнему является очень хорошей площадкой для тестирования, чтобы увидеть, как работают конкретные методы уменьшения размерности и насколько хорошо они работают.

Все изображения по существу представляют собой изображения размером 28 на 28 пикселей и, следовательно, имеют в общей сложности 784 «размера», каждое из которых содержит значение одного конкретного пикселя.

Что мы можем сделать, так это резко сократить количество измерений, пытаясь сохранить как можно больше «вариаций» в информации. Здесь мы подходим к уменьшению размерности. Давайте сначала взглянем на нечто, известное как анализ основных компонентов .

PCA — это метод уменьшения количества измерений в наборе данных при сохранении большей части информации. Он использует корреляцию между некоторыми измерениями и пытается предоставить минимальное количество переменных, которые сохраняют максимальное количество вариаций или информацию о том, как распределяются исходные данные.Он делает это не с помощью догадок, а с использованием точной математики и того, что известно как собственные значения и собственные векторы матрицы данных. Эти собственные векторы ковариационной матрицы обладают тем свойством, что они указывают на основные направления изменения данных. Это направления максимальных вариаций в наборе данных.

Я не собираюсь вдаваться в фактический вывод и вычисление основных компонентов — если вы хотите углубиться в математику, посмотрите эту замечательную страницу — вместо этого мы воспользуемся реализацией Scikit-Learn PCA.

Поскольку мы, люди, любим наши двух- и трехмерные графики, давайте начнем с них и сгенерируем из исходных 784 измерений первые три основных компонента. И мы также увидим, сколько вариаций в общем наборе данных они действительно учитывают.

 pca = PCA (n_components = 3) 
pca_result = pca.fit_transform (df [feat_cols] .values) df ['pca-one'] = pca_result [:, 0]
df ['pca-two'] = pca_result [:, 1]
df ['pca-three'] = pca_result [:, 2] print ('Объясненная вариация для основного компонента: {}'.формат (pca.explained_variance_ratio _)) Объясненная вариация по главному компоненту: [0,09746116 0,07155445 0,06149531]

Теперь, учитывая, что первые два компонента составляют около 25% вариации во всем наборе данных, давайте посмотрим, достаточно ли этого, чтобы визуально установить разные цифры. Что мы можем сделать, так это создать диаграмму рассеяния первого и второго главных компонентов и раскрасить каждый из различных типов цифр разным цветом. Если нам повезет, будут расположены цифры того же типа (т.е., сгруппированы) вместе в группы, что означало бы, что первые два основных компонента на самом деле многое говорят нам о конкретных типах цифр.

 plt.figure (figsize = (16,10)) 
sns.scatterplot (
x = "pca-one", y = "pca-two",
hue = "y",
palette = sns.color_palette ( "hls", 10),
data = df.loc [rndperm ,:],
legend = "full",
alpha = 0.3
)

Из графика мы видим, что два компонента определенно содержат некоторую информацию, особенно для конкретных цифр, но явно недостаточно, чтобы их все можно было разделить.К счастью, есть еще один метод, который мы можем использовать для уменьшения количества измерений, который может оказаться более полезным. В следующих нескольких абзацах мы рассмотрим эту технику и выясним, дает ли она нам лучший способ уменьшения размеров для визуализации. Метод, который мы будем исследовать, известен как t-SNE (t-распределенные стохастические соседние объекты).

Для 3d-версии того же сюжета

 ax = plt.figure (figsize = (16,10)). Gca (projection = '3d') 
ax.scatter (
xs = df.loc [rndperm,:] ["pca-one"],
ys = df.loc [rndperm,:] ["pca-two"],
zs = df.loc [rndperm,:] ["pca-three" ],
c = df.loc [rndperm,:] ["y"],
cmap = 'tab10'
)
ax.set_xlabel ('pca-one')
ax.set_ylabel ('pca-two')
ax.set_zlabel ('pca-three')
plt.show ()

Распределенное стохастическое соседнее встраивание (t-SNE) — это еще один метод уменьшения размерности, который особенно хорошо подходит для визуализации многомерных наборов данных. В отличие от PCA, это не математический метод, а вероятностный.Исходная статья описывает работу t-SNE как:

«t-Распределенное стохастическое вложение соседей (t-SNE) минимизирует расхождение между двумя распределениями: распределение, которое измеряет попарное сходство входных объектов, и распределение, которое измеряет попарно. подобия соответствующих точек малой размерности вложения ».

По сути, это означает, что он смотрит на исходные данные, которые вводятся в алгоритм, и смотрит, как лучше всего представить эти данные с использованием меньших измерений путем сопоставления обоих распределений.Способ, которым он это делает, довольно сложен в вычислительном отношении, и поэтому существуют некоторые (серьезные) ограничения на использование этого метода. Например, одна из рекомендаций заключается в том, что в случае данных очень высокой размерности вам может потребоваться применить другой метод уменьшения размерности перед использованием t-SNE:

 | Настоятельно рекомендуется использовать другое уменьшение размерности. 
| метод (например, PCA для плотных данных или TruncatedSVD для разреженных данных)
| уменьшить количество измерений до разумного количества (например,г. 50)
| если количество функций очень велико.

Другой ключевой недостаток состоит в том, что он:

«Поскольку t-SNE квадратично масштабируется по количеству объектов N, его применимость ограничена наборами данных с несколькими тысячами входных объектов; кроме того, обучение становится слишком медленным, чтобы быть практичным (и требования к памяти становятся слишком большими) ».

Мы будем использовать реализацию алгоритма Scikit-Learn в оставшейся части этой статьи.

Вопреки приведенной выше рекомендации мы сначала попробуем запустить алгоритм на фактических размерах данных (784) и посмотрим, как это работает.Чтобы не перегружать нашу машину памятью и мощностью / временем, мы будем использовать только первые 10 000 выборок для запуска алгоритма. Для сравнения позже я также снова запущу PCA на подмножестве.

 N = 10000df_subset = df.loc [rndperm [: N] ,:]. Copy () data_subset = df_subset [feat_cols] .valuespca = PCA (n_components = 3) 
pca_result = pca.fit_transform (data_subset) df_subset) df_subset -one '] = pca_result [:, 0]
df_subset [' pca-two '] = pca_result [:, 1]
df_subset [' pca-three '] = pca_result [:, 2] print (' Разъясненное изменение для каждого участника составная часть: {}'.формат (pca.explained_variance_ratio _)) [out] Объясненная вариация по главному компоненту: [0,09730166 0,07135901 0,06183721]

x

 time_start = time.time () 
tsne = TSNE (n_components = 2, verbose = 1, perplexity = n_iter = 300)
tsne_results = tsne.fit_transform (data_subset) print ('t-SNE done! Истекшее время: {} секунд'.format (time.time () - time_start)) [out] [t-SNE] Вычисления 121 ближайшие соседи ...
[t-SNE] Проиндексировано 10000 выборок за 0,564 с ...
[t-SNE] Вычисленные соседи для 10000 выборок в 121.191 с ...
[t-SNE] Вычисленные условные вероятности для выборки 1000/10000
[t-SNE] Вычисленные условные вероятности для выборки 2000/10000
[t-SNE] Вычисленные условные вероятности для выборки 3000/10000
[t- SNE] Вычисленные условные вероятности для выборки 4000/10000
[t-SNE] Вычисленные условные вероятности для выборки 5000/10000
[t-SNE] Вычисленные условные вероятности для выборки 6000/10000
[t-SNE] Вычисленные условные вероятности для выборки 7000 / 10000
[t-SNE] Вычисленные условные вероятности для выборки 8000/10000
[t-SNE] Вычисленные условные вероятности для выборки 9000/10000
[t-SNE] Вычисленные условные вероятности для выборки 10000/10000
[t-SNE] Средняя сигма: 2.129023
[t-SNE] Расхождение KL после 250 итераций с ранним преувеличением: 85.957787
[t-SNE] Расхождение KL после 300 итераций: 2,823509
t-SNE выполнено! Истекшее время: 157,3975932598114 секунды

Теперь, когда у нас есть два результирующих измерения, мы можем снова визуализировать их, создав диаграмму рассеяния двух измерений и раскрасив каждый образец соответствующей меткой.

 df_subset ['tsne-2d-one'] = tsne_results [:, 0] 
df_subset ['tsne-2d-two'] = tsne_results [:, 1] plt.figure (figsize = (16,10))
sns.scatterplot (
x = "tsne-2d-one", y = "tsne-2d-two",
hue = "y",
palette = sns.color_palette ( "hls", 10),
data = df_subset,
legend = "full",
alpha = 0.3
)

Это уже значительное улучшение по сравнению с визуализацией PCA, которую мы использовали ранее. Мы можем видеть, что цифры очень четко сгруппированы в свои собственные подгруппы. Если бы мы теперь использовали алгоритм кластеризации для выделения отдельных кластеров, мы, вероятно, могли бы довольно точно назначить новые точки метке.Просто для сравнения PCA и T-SNE:

 plt.figure (figsize = (16,7)) ax1 = plt.subplot (1, 2, 1) 
sns.scatterplot (
x = "pca-one", y = "pca-two",
hue = "y",
palette = sns.color_palette ("hls", 10),
data = df_subset,
legend = "full",
alpha = 0.3,
ax = ax1
) ax2 = plt.subplot (1, 2, 2)
sns.scatterplot (
x = "tsne-2d-one", y = "tsne-2d-two",
hue = "y",
palette = sns .color_palette ("hls", 10),
data = df_subset,
legend = "full",
alpha = 0.3,
ax = ax2
)
PCA (слева) vs T-SNE (справа)

Примите рекомендации близко к сердцу и фактически уменьшите количество измерений, прежде чем вводить данные в алгоритм t-SNE.Для этого мы снова воспользуемся PCA. Сначала мы создадим новый набор данных, содержащий пятьдесят измерений, сгенерированных алгоритмом редукции PCA. Затем мы можем использовать этот набор данных для выполнения t-SNE для

 pca_50 = PCA (n_components = 50) 
pca_result_50 = pca_50.fit_transform (data_subset) print ('Кумулятивная объясненная вариация для 50 основных компонентов: {}'. Format (np .sum (pca_50.explained_variance_ratio _))) [out] Кумулятивная объясненная вариация для 50 основных компонентов: 0,8267618822147329

Удивительно, но первые 50 компонентов составляют примерно 85% общей вариации данных.

Теперь давайте попробуем передать эти данные в алгоритм t-SNE. На этот раз мы используем 10 000 сэмплов из 70 000, чтобы убедиться, что алгоритм не занимает слишком много памяти и ЦП. Поскольку код, используемый для этого, очень похож на предыдущий код t-SNE, я переместил его в раздел «Приложение: код» внизу этого сообщения. Полученный график выглядит следующим образом:

PCA (слева) vs T-SNE (в центре) vs T-SNE на PCA50 (справа)

На этом графике мы можем ясно видеть, как все образцы хорошо разнесены и сгруппированы их соответствующие цифры.Это может быть отличной отправной точкой для последующего использования алгоритма кластеризации и попытки идентифицировать кластеры или фактически использовать эти два измерения в качестве входных данных для другого алгоритма (например, чего-то вроде нейронной сети).

Итак, мы исследовали использование различных методов уменьшения размерности для визуализации данных большой размерности с использованием двухмерной диаграммы рассеяния. Мы не вдавались в фактическую математику, а вместо этого полагались на реализации всех алгоритмов Scikit-Learn.

Прежде чем закончить с приложением…

Вместе с друзьями-единомышленниками мы рассылаем еженедельные информационные бюллетени с некоторыми ссылками и заметками, которыми мы хотим поделиться между собой (почему бы не позволить другим читать их?).

Код: t-SNE на данных с сокращенным PCA

 time_start = time.time () tsne = TSNE (n_components = 2, verbose = 0, perplexity = 40, n_iter = 300) 
tsne_pca_results = tsne.fit_transform (pca_result_50) print ('t-SNE done! Прошло времени: {} секунд'.format (time.time () - time_start)) [out] t-SNE готово! Истекшее время: 42,01495909690857 секунд

А для визуализации

 df_subset ['tsne-pca50-one'] = tsne_pca_results [:, 0] 
df_subset ['tsne-pca50-two'] = tsne_pca 1_results [.: figure (figsize = (16,4)) ax1 = plt.subplot (1, 3, 1)
sns.scatterplot (
x = "pca-one", y = "pca-two",
hue = "y" ,
palette = sns.color_palette ("hls", 10),
data = df_subset,
legend = "full",
alpha = 0.3,
ax = ax1
) ax2 = plt.subplot (1, 3, 2)
sns.scatterplot (
x = "tsne-2d-one", y = "tsne-2d-two",
hue = "y",
palette = sns.color_palette ("hls ", 10),
data = df_subset,
legend =" full ",
alpha = 0.3,
ax = ax2
) ax3 = plt.subplot (1, 3, 3)
sns.scatterplot (
x =" tsne -pca50-one ", y =" tsne-pca50-two ",
hue =" y ",
palette = sns.color_palette (" hls ", 10),
data = df_subset,
legend =" full ",
альфа = 0,3,
ax = ax3
)
.

Основы баз данных — Access

В этой статье дается краткий обзор баз данных — что это такое, почему вы можете захотеть ее использовать и что делают разные части базы данных. Терминология ориентирована на базы данных Microsoft Access, но концепции применимы ко всем продуктам баз данных.

В этой статье

Что такое база данных?

Части базы данных Access

Что такое база данных?

База данных — это инструмент для сбора и систематизации информации.Базы данных могут хранить информацию о людях, товарах, заказах или о чем-либо еще. Многие базы данных начинаются со списка в текстовом редакторе или электронной таблице. По мере того, как список становится больше, в данных начинают появляться повторяющиеся и несогласованные данные. Данные в форме списка становятся трудными для понимания, а способы поиска или извлечения подмножеств данных для проверки ограничены. Как только эти проблемы начинают появляться, рекомендуется перенести данные в базу данных, созданную системой управления базами данных (СУБД), такой как Access.

Компьютеризированная база данных — это контейнер объектов. Одна база данных может содержать более одной таблицы. Например, система отслеживания запасов, использующая три таблицы, — это не три базы данных, а одна база данных, содержащая три таблицы. Если база данных Access не была специально разработана для использования данных или кода из другого источника, она хранит свои таблицы в одном файле вместе с другими объектами, такими как формы, отчеты, макросы и модули. Базы данных, созданные в формате Access 2007 (который также используется в Access, 2016, Access 2013 и Access 2010), имеют расширение файла.accdb, а базы данных, созданные в более ранних форматах Access, имеют расширение файла .mdb. Вы можете использовать Access 2016, Access 2013, Access 2010 или Access 2007 для создания файлов в более ранних форматах файлов (например, Access 2000 и Access 2002-2003).

Используя Access, вы можете:

  • Добавить новые данные в базу данных, например новый товар в инвентаре

  • Редактирование существующих данных в базе данных, например изменение текущего местоположения элемента

  • Удалить информацию, возможно, если предмет продан или выброшен

  • Различные способы организации и просмотра данных

  • Делитесь данными с другими через отчеты, сообщения электронной почты, интранет или Интернет

Части базы данных Access

В следующих разделах представлены краткие описания частей типичной базы данных Access.

Столы

Формы

Отчеты

Запросы

Макросы

Модули

Таблицы

Таблица базы данных похожа на электронную таблицу, поскольку данные хранятся в строках и столбцах.В результате обычно довольно просто импортировать электронную таблицу в таблицу базы данных. Основное различие между хранением ваших данных в электронной таблице и их хранением в базе данных заключается в том, как они организованы.

Чтобы получить максимальную гибкость от базы данных, данные должны быть организованы в таблицы, чтобы не возникало избыточности. Например, если вы храните информацию о сотрудниках, каждого сотрудника нужно ввести только один раз в таблицу, которая настроена только для хранения данных о сотрудниках.Данные о продуктах будут храниться в отдельной таблице, а данные о филиалах — в другой таблице. Этот процесс называется нормализацией .

Каждая строка в таблице называется записью. Записи — это место, где хранятся отдельные фрагменты информации. Каждая запись состоит из одного или нескольких полей. Поля соответствуют столбцам в таблице. Например, у вас может быть таблица с именем «Сотрудники», где каждая запись (строка) содержит информацию о разных сотрудниках, а каждое поле (столбец) содержит информацию другого типа, такую ​​как имя, фамилия, адрес и т. Д. на.Поля должны быть обозначены как определенный тип данных, будь то текст, дата или время, число или какой-либо другой тип.

Другой способ описать записи и поля — это визуализировать библиотечный карточный каталог старого образца. Каждой карте в шкафу соответствует запись в базе данных. Каждая часть информации на отдельной карточке (автор, название и т. Д.) Соответствует полю в базе данных.

Дополнительные сведения о таблицах см. В статье Введение в таблицы.

Формы

Формы позволяют создавать пользовательский интерфейс, в котором вы можете вводить и редактировать свои данные. Формы часто содержат командные кнопки и другие элементы управления, которые выполняют различные задачи. Вы можете создать базу данных без использования форм, просто отредактировав свои данные в таблицах. Однако большинство пользователей баз данных предпочитают использовать формы для просмотра, ввода и редактирования данных в таблицах.

Вы можете запрограммировать командные кнопки, чтобы определять, какие данные будут отображаться в форме, открывать другие формы или отчеты или выполнять множество других задач.Например, у вас может быть форма под названием «Форма клиента», в которой вы работаете с данными клиентов. В форме клиента может быть кнопка, которая открывает форму заказа, в которой вы можете ввести новый заказ для этого клиента.

Forms также позволяют контролировать, как другие пользователи взаимодействуют с данными в базе данных. Например, вы можете создать форму, которая отображает только определенные поля и позволяет выполнять только определенные операции. Это помогает защитить данные и обеспечить правильный ввод данных.

Дополнительные сведения о формах см. В статье Введение в формы.

Отчеты

Отчеты — это то, что вы используете для форматирования, обобщения и представления данных. Отчет обычно отвечает на конкретный вопрос, например, «Сколько денег мы получили от каждого клиента в этом году?» или «В каких городах находятся наши клиенты?» Каждый отчет можно отформатировать так, чтобы информация была представлена ​​в наиболее удобочитаемом виде.

Отчет можно запустить в любое время, и он всегда будет отражать текущие данные в базе данных.Отчеты обычно форматируются для распечатки, но их также можно просматривать на экране, экспортировать в другую программу или отправлять в виде вложения к сообщению электронной почты.

Дополнительные сведения об отчетах см. В статье Общие сведения об отчетах в Access.

запросов

Запросы могут выполнять множество различных функций в базе данных. Их наиболее распространенная функция — извлекать определенные данные из таблиц. Данные, которые вы хотите просмотреть, обычно распределены по нескольким таблицам, а запросы позволяют просматривать их в одной таблице.Кроме того, поскольку обычно вы не хотите видеть все записи сразу, запросы позволяют добавлять критерии для «фильтрации» данных только до тех записей, которые вам нужны.

Некоторые запросы являются «обновляемыми», то есть вы можете редактировать данные в базовых таблицах с помощью таблицы запроса. Если вы работаете с обновляемым запросом, помните, что ваши изменения фактически вносятся в таблицы, а не только в таблицу данных запроса.

Запросы

бывают двух основных типов: запросы выбора и запросы действия.Запрос на выборку просто извлекает данные и делает их доступными для использования. Вы можете просмотреть результаты запроса на экране, распечатать его или скопировать в буфер обмена. Или вы можете использовать выходные данные запроса в качестве источника записей для формы или отчета.

Запрос действия, как следует из названия, выполняет задачу с данными. Запросы действий могут использоваться для создания новых таблиц, добавления данных в существующие таблицы, обновления данных или удаления данных.

Дополнительные сведения о запросах см. В статье Введение в запросы.

Макросы

Макросы в Access можно рассматривать как упрощенный язык программирования, который можно использовать для добавления функций в базу данных. Например, вы можете прикрепить макрос к командной кнопке в форме, чтобы макрос запускался при каждом нажатии кнопки. Макросы содержат действия, которые выполняют задачи, такие как открытие отчета, выполнение запроса или закрытие базы данных. Большинство операций с базой данных, которые вы выполняете вручную, можно автоматизировать с помощью макросов, поэтому они могут отлично сэкономить время.

Дополнительные сведения о макросах см. В статье «Введение в программирование в Access».

Модули

Модули, как и макросы, — это объекты, которые вы можете использовать для добавления функциональности в свою базу данных. В то время как вы создаете макросы в Access, выбирая макрокоманды из списка, вы пишете модули на языке программирования Visual Basic для приложений (VBA). Модуль — это набор объявлений, операторов и процедур, которые хранятся вместе как единое целое.Модуль может быть либо модулем класса, либо стандартным модулем. Модули класса прикрепляются к формам или отчетам и обычно содержат процедуры, относящиеся к форме или отчету, к которым они прикреплены. Стандартные модули содержат общие процедуры, не связанные ни с какими другими объектами. Стандартные модули перечислены в разделе Модули в области навигации, тогда как модули классов — нет.

Дополнительные сведения о модулях см. В статье Введение в программирование в Access.

Верх страницы

.

Что такое база данных? Определение, значение, типы, пример

  • Home
  • Тестирование

      • Back
      • Agile Testing
      • BugZilla
      • Cucumber
      • Тестирование базы данных
      • 9000 J27 Тестирование базы данных
      • 9000 J27
      • JUnit
      • LoadRunner
      • Ручное тестирование
      • Мобильное тестирование
      • Mantis
      • Почтальон
      • QTP
      • Назад
      • Центр контроля качества (ALM)
      • 000
      • RPA Управление тестированием
      • TestLink
  • SAP

      • Назад
      • ABAP
      • 900 03 APO
    • Новичок
    • Basis
    • BODS
    • BI
    • BPC
    • CO
    • Назад
    • CRM
    • Crystal Reports
    • MMO
  • HAN
  • Назад
  • PI / PO
  • PP
  • SD
  • SAPUI5
  • Безопасность
  • Менеджер решений
  • Successfactors
  • SAP Tutorials
  • Web
  • AngularJS
  • ASP.Net
  • C
  • C #
  • C ++
  • CodeIgniter
  • СУБД
  • JavaScript
    • Назад
    • Java
    • JSP
    • Kotlin
    • Linux
    • Linux
    • Kotlin
    • Linux
    • js
    • Perl
    • Назад
    • PHP
    • PL / SQL
    • PostgreSQL
    • Python
    • ReactJS
    • Ruby & Rails
    • Scala
    • SQL
    • 000
    • SQL
    • 000 0003 SQL 000 0003 SQL 000
    • UML
    • VB.Net
    • VBScript
    • Веб-службы
    • WPF
  • Обязательно учите!

      • Назад
      • Бухгалтерский учет
      • Алгоритмы
      • Android
      • Блокчейн
      • Business Analyst
      • Создание веб-сайта
      • Облачные вычисления
      • COBOL
      • Встроенные системы
      • 0003 Эталон
      • 9000 Дизайн
      • 900 Ethical
    • 9009
  • Учебные пособия по Excel
  • Программирование на Go
  • IoT
  • ITIL
  • Jenkins
  • MIS
  • Сеть
  • Операционная система
    • Назад
    • Prep
    • PM Prep
    • Управление проектом Salesforce
    • SEO
    • Разработка программного обеспечения
    • VBA
    900 04
  • Большие данные

      • Назад
      • AWS
      • BigData
      • Cassandra
      • Cognos
      • Хранилище данных
      • DevOps Back
      • DevOps Back
      • HBase
      • HBase2
      • MongoDB
  • .Базы данных

    SQL и NoSQL: в чем разница?

    Посмотрите базы данных SQL и NoSQL, их отличия и какой вариант лучше всего подходит для вашей ситуации.

    Разработчики приложений в двадцать первом веке сталкиваются с головокружительной массой решений, связанных с базами данных. На выбор доступны сотни различных баз данных, и хотя не все из них относятся к категории «никого не увольняли за это», многие из них являются надежными частями универсальной технологии.С другой стороны, почти каждая коммерчески поддерживаемая база данных может претендовать на некоторых важных клиентов в качестве ссылок, независимо от того, насколько нишевой является сама база данных.

    Чтобы иметь некоторое представление о ландшафте, полезно иметь под рукой таксономию. Хорошо это или плохо, но самая популярная таксономия за последние 10 лет делит ландшафт на два класса: SQL (реляционные базы данных) и NoSQL (все остальное).

    Это жесткое различие, похожее на разделение продуктового магазина на «производить» и «не производить», но оно имеет важные последствия для создания и поддержки программного обеспечения.Давайте глубже посмотрим, что означают эти два названия, и посмотрим, что они на самом деле значат для разработчиков приложений.

    Что такое база данных SQL?

    Короче говоря, базы данных SQL поддерживают SQL — предметно-ориентированный язык для запросов и управления данными в реляционной базе данных. Термин «реляционный» в реляционной базе данных относится к «реляционной модели» управления данными, разработанной исследователем IBM Э. Ф. Коддом в начале 1970-х годов и популяризированной в ряде последующих систем баз данных, начиная с System R.

    Ключ к реляционной модели — абстрагирование данных как набора кортежей, организованных в отношения, что позволяет абстрагироваться от физического представления данных и путей доступа. Хотя SQL — не единственный возможный язык для реализации запросов по реляционной модели — на самом деле он не соответствует строго исходной конструкции Кодда — он, безусловно, самый популярный.

    SQL и реляционные базы данных были отраслевым стандартом с конца 1970-х годов, хотя их так называемые «навигационные» предшественники, такие как IMS эпохи Apollo, в некоторых случаях все еще находятся в активной разработке.Большинство популярных «корпоративных» систем являются прямыми потомками System R и унаследовали большую часть ее конструктивных ограничений.

    «NewSQL» и «Распределенный SQL»

    В ответ на проблемы «выбросить ребенка с водой в ванну» с NoSQL (см. Ниже) в начале 2010-х годов, несколько организаций начали создавать системы на основе реляций / SQL, которые пошли на разные компромиссы, особенно в отношении горизонтальной масштабируемости. Это привело к двум в значительной степени различным путям:

    • NewSQL: Игра на NoSQL, эти системы обычно используют существующие реляционные базы данных и логику, распределенную по уровням, с разной степенью прозрачности для пользователя.Citus и Vitess — два ярких примера распределенных движков в стиле «NewSQL».
    • Распределенный SQL: В этих системах используется подход «с нуля» при создании горизонтально масштабируемых реляционных механизмов. CockroachDB и Google Spanner — хорошие тому примеры. Эти движки обычно стремятся выше, чем их аналоги в NewSQL. Однако важно отметить, что одной из мотиваций для NoSQL и NewSQL является тот факт, что создание полноценной реляционной базы данных очень дорого, и зрелость коммерчески доступных распределенных систем SQL часто отражает это.
    Базы данных SQL: плюсы и минусы
    Плюсы
    • Уменьшение объема хранилища данных за счет нормализации и других возможностей оптимизации. Часто приводит к повышению производительности и более эффективному использованию ресурсов.
    • Сильная и понятная семантика целостности данных через ACID (атомарность, согласованность, изоляция, надежность).
    • Стандартный доступ к данным через SQL.
    • Обычно более гибкая поддержка запросов, способная обрабатывать более широкий диапазон рабочих нагрузок.SQL абстрагируется от базовой реализации и позволяет механизму оптимизировать запросы в соответствии с их представлением на диске.
    Минусы
    • Жесткие модели данных, требующие тщательного предварительного проектирования для обеспечения адекватной производительности и сопротивления эволюции — изменение схемы часто приводит к простоям.
    • Горизонтальное масштабирование является сложной задачей — оно либо полностью не поддерживается, либо поддерживается специальным образом, либо поддерживается только относительно незрелыми технологиями.
    • Нераспределенные механизмы обычно представляют собой «единую точку отказа», которую необходимо смягчать с помощью методов репликации и аварийного переключения; нет иллюзий бесконечной масштабируемости
    Примеры баз данных SQL

    Что такое база данных NoSQL?

    К сожалению, не очень понятно! В какой-то момент «NoSQL» означал, что база данных не поддерживает SQL.Это было достаточно бесполезно — если он не поддерживает SQL, что он поддерживает? — но, что еще хуже, в конечном итоге он превратился в обозначение «не только SQL», к большому огорчению разработчиков, которые на самом деле пытаются выполнить работу.

    В то время как это движение явно имело корни в хранилищах графиков, документов и ключей и значений, восходящих к началу 1990-х годов, NoSQL действительно начал набирать обороты в середине 2000-х. Вдохновленный публикацией отраслевых исследовательских работ по нереляционным системам, таким как Google BigTable и Amazon Dynamo, кустарная индустрия стартапов и проектов с открытым исходным кодом возникла в результате разработки систем баз данных, которые исследовали пространство дизайна за пределами реляционной модели.Это было в значительной степени направлено на решение двух предполагаемых проблем с существующими системами:

    • Отсутствие горизонтальной масштабируемости
    • Жесткость конструкции стола в реляционных системах

    Обратите внимание, что ни одна из этих проблем не имеет большого отношения к SQL, но вместо этого отражает проектные решения и ограничения популярных реляционных баз данных. Хотя сообщество реляционных баз данных отчасти ответило на этот вызов (см. Выше о «NewSQL»), как только ворота были открыты, так сказать, новые базы данных начали появляться очень быстро.Результатом является распространение систем, каждая из которых решает фундаментальную проблему — хранение некоторых битов и предоставление их позже — немного по-другому.

    Во многих отношениях это благо для разработчиков. Конечно, верно, что не все приложения имеют проблемы, связанные с реляционными базами данных, или им нужно идти на компромиссы, которые реляционные базы данных навязывают моделям данных и доступности. Однако за эту свободу приходится платить — для того, чтобы принять хорошее технологическое решение между базами данных NoSQL, разработчик должен быть вооружен доскональным пониманием всего пространства проектирования, чтобы компромиссы, допускаемые конкретной системой, были очевидны.Другими словами, вы не хотите случайно отказываться от изоляции согласованности, когда она действительно требуется вашему приложению.

    Базы данных NoSQL: плюсы и минусы

    Именно по этой причине сложно обобщить плюсы и минусы NoSQL. Пространство хорошо исследовано, и диапазон доступных опций огромен. Некоторые общие плюсы и минусы, которые могут не относиться ко всем хранилищам NoSQL, включают следующее:

    Плюсы
    • Масштабируемость и высокая доступность — многие базы данных NoSQL обычно предназначены для поддержки бесшовной горизонтальной масштабируемости в оперативном режиме без значительных единичных точек отказа.
    • Гибкие модели данных — большинство нереляционных систем не требуют от разработчиков предварительных обязательств по моделям данных; Какие схемы действительно существуют, часто можно изменить на лету.
    • Высокая производительность — ограничивая диапазон возможностей базы данных (например, ослабляя гарантии долговечности), многие системы NoSQL могут достичь чрезвычайно высокого уровня производительности.
    • Абстракции данных высокого уровня — выходя за рамки модели данных «значение в ячейке», системы NoSQL могут предоставлять высокоуровневые API-интерфейсы для мощных структур данных.Redis, например, включает абстракцию набора
    • с собственной сортировкой
    Минусы
    • Расплывчатые интерпретации ограничений ACID — несмотря на широко распространенные утверждения о поддержке ACID для систем NoSQL, интерпретация ACID часто делается настолько широкой, что мало что можно сделать о семантике рассматриваемой базы данных. Например, что означает «изоляция» без транзакций?
    • Распределенные системы имеют проблемы с распределенными системами. Хотя это и не является уникальным явлением для систем NoSQL, это скорее норма, чем исключение, для разработчиков, программирующих против NoSQL, чтобы глубоко понять, e.g., Теорема CAP и ее интерпретация в рассматриваемой базе данных.
    • Отсутствие гибкости в шаблонах доступа — реляционная абстракция / SQL дает ядру базы данных широкие возможности для оптимизации запросов к базовым данным; без этой абстракции представление данных на диске попадает в запросы приложения и не оставляет места для оптимизации движку.
    Примеры баз данных NoSQL

    SQL против NoSQL: когда использовать каждый

    Когда использовать SQL

    Когда у вас есть реляционные данные, это, конечно, естественное совпадение.Но вы можете спросить себя, как определить «мифическое» естественное соответствие. Что ж, когда вы смотрите на свои данные, видите ли вы отдельные объекты с четко определенными отношениями друг с другом, которые должны быть строго соблюдены и / или доступны для навигации? Если да, то у нас есть совпадение!

    Когда вы сосредоточены на целостности данных, лучше всего положиться на проверенные и надежные реляционные базы данных. Если вам нужен гибкий доступ к вашим данным, реляционная модель и SQL позволяют значительно расширить поддержку специальных запросов. Кроме того, в такие базы данных, как PostgreSQL, добавлена ​​отличная поддержка рабочих нагрузок в стиле NoSQL с такими функциями, как собственные типы данных JSON.Если вам не нужны возможности горизонтального масштабирования хранилищ данных NoSQL, они также могут хорошо подойти для некоторых нереляционных рабочих нагрузок. Это делает их отличным швейцарским армейским ножом, когда у вас есть некоторые реляционные данные и некоторые неструктурированные данные, но вы не хотите покупать сложность работы с различными типами хранилищ данных.

    Хотя многие люди смотрят на NoSQL из-за простоты, важно понимать значение этих хранилищ данных при создании приложения. Хотя это правда, что с ними легко начать, важно понимать последствия согласованности записи (или ее отсутствия), конечной согласованности и влияния сегментирования на способ доступа к данным в будущем.На реляционных базах данных может быть проще построить надежное приложение, поскольку они избавляют вас от беспокойства о таких проблемах.

    Когда использовать NoSQL

    NoSQL привлекателен, когда у вас есть очень гибкие модели данных или очень специфические потребности, которые не вписываются в реляционную модель. Если вы принимаете много неструктурированных данных, база данных документов, такая как MongoDB или CouchDB, может вам подойти. Если вам нужен очень быстрый доступ к данным «ключ-значение», но вы можете жить без надежных гарантий целостности, Redis отлично подойдет.Сложный или гибкий поиск по большому количеству данных? Elasticsearch отлично подходит.

    Хранилища данных

    NoSQL обычно хорошо масштабируются, и масштабирование является основным принципом многих из этих систем. Встроенный сегментирование значительно упрощает масштабирование операций чтения и записи по сравнению с реляционной базой данных. Соответственно, системы NoSQL часто могут соответствовать очень высоким требованиям доступности. Базы данных, такие как Cassandra, не имеют единой точки отказа, и ваши приложения могут тривиально реагировать на базовые отказы отдельных членов.

    Заключение и следующие шаги

    Выбор или рекомендация базы данных — нетривиальное занятие даже для экспертов по базам данных. Разделение SQL и NoSQL — полезный критерий, помогающий обосновать это решение, но, в конечном счете, ничто не может заменить тщательного обдумывания потребностей вашего приложения в данных и компромиссов, которые вы готовы принять для достижения целей производительности или времени безотказной работы.

    По крайней мере, тот факт, что NoSQL существует, является благом для систем — это повод исследовать пространство дизайна и найти «сладкие места», которые решают проблемы реальных приложений.Тем не менее, в 2020 году есть бесчисленное множество причин продолжать выбирать SQL.

    IBM Cloud поддерживает размещенные в облаке версии ряда баз данных SQL и NoSQL через предложения IBM Cloud Databases. Дополнительную информацию о том, как выбрать подходящий вариант, можно найти в разделах «Краткий обзор ландшафта базы данных» и «Как выбрать базу данных в IBM Cloud».

    .

    CCNA 2 RSE 6.0 Глава 4 Ответы на экзамен 2018 2019 100%

    Последнее обновление 2 апреля 2019 г., автор Admin

    CCNA 2 RSE 6.0 Глава 4 Ответы на экзамен 2018 2019 100%

    1. Разработчик сети должен предоставить заказчику обоснование для проекта, который переместит предприятие от плоской топологии сети к иерархической топологии сети. Какие две особенности иерархического дизайна делают его лучшим выбором? (Выберите два.)
      • более низкие требования к пропускной способности
      • снижение затрат на оборудование и обучение пользователей
      • проще обеспечить резервные ссылки для обеспечения более высокой доступности
      • На
      • меньше необходимого оборудования для обеспечения того же уровня производительности
      • Более простое развертывание для дополнительного коммутационного оборудования
        Пояснение:

        Иерархическая структура коммутаторов помогает администраторам сети при планировании и развертывании расширения сети, выполнении изоляции сбоев при возникновении проблемы и обеспечении отказоустойчивости при высоком уровне трафика.Хорошая иерархическая структура имеет избыточность, когда она может быть предоставлена ​​так, чтобы один коммутатор не приводил к отключению всех сетей.

    2. Что такое свернутое ядро ​​в конструкции сети?
      • сочетание функциональности уровней доступа и распределения
      • сочетание функциональности распределительного и основного уровней
      • сочетание функциональных возможностей уровня доступа и ядра
      • комбинация функциональных возможностей уровней доступа, распределения и ядра
        Пояснение:

        Конструкция с разрушенным сердечником подходит для небольшого индивидуального строительного бизнеса.В этом типе дизайна используются два уровня (свернутые уровни ядра и распределения, объединенные в один уровень, и уровень доступа). Более крупные предприятия используют традиционную модель трехуровневого коммутатора.

    3. Каково определение двухуровневой сети LAN?
      • Уровни доступа и ядра свернуты на один уровень, а уровень распределения на отдельный уровень
      • уровней доступа и распределения свернуты на один уровень, а основной уровень на отдельный уровень
      • уровни распределения и ядра свернуты в один уровень, а уровень доступа — на отдельный уровень
      • уровней доступа, распределения и ядра свернуты в один уровень с отдельным уровнем магистрали
        Пояснение:

        Поддержание трех отдельных уровней сети не всегда требуется или экономически эффективно.Для всех сетевых проектов требуется уровень доступа, но двухуровневый дизайн может свести уровни распределения и ядра в один уровень, чтобы удовлетворить потребности небольшого местоположения с небольшим количеством пользователей.

    4. Какова основная функция уровня распространения архитектуры без границ Cisco?
      • действует как магистраль
      • , объединяющие все блоки кампуса
      • агрегация границ маршрутизации уровня 3
      • предоставление доступа к устройствам конечных пользователей
        Пояснение:

        Одна из основных функций уровня распределения архитектуры Cisco Borderless Architecture — выполнение маршрутизации между различными VLAN.Действуя в качестве основы и агрегирование кампуса блоков являются функциями базового уровня. Предоставление доступа к устройствам конечного пользователя является функцией уровня доступа.

    5. Какие две ранее независимые технологии следует попытаться объединить сетевому администратору после перехода на конвергентную сетевую инфраструктуру? (Выберите два.)
      • трафик пользовательских данных
      • Телефонный трафик VoIP
      • сканеры и принтеры
      • трафик сотовой связи
      • электрическая система
        Пояснение:

        Конвергентная сеть обеспечивает единую инфраструктуру, объединяющую голос, видео и данные.Аналоговые телефоны, пользовательские данные и двухточечный видеотрафик — все это содержится в единой сетевой инфраструктуре конвергентной сети.

    6. Какой тип сети использует одну общую инфраструктуру для передачи голоса, данных и видеосигналов?
      • переключено
      • без полей
      • конвергентный
      • управляемый
        Пояснение:

        Конвергентная сеть требует установки и управления только одной физической сетью.Это приводит к существенной экономии на установке и управлении отдельными сетями для передачи голоса, видео и данных.

    7. Местная юридическая фирма модернизирует сеть компании, чтобы все 20 сотрудников могли быть подключены к локальной сети и Интернету. Юридическая фирма предпочла бы дешевое и простое решение для проекта. Какой тип переключателя выбрать?
      • фиксированная конфигурация
      • модульная конфигурация
      • штабелируемая конфигурация
      • StackPower
      • StackWise
        Пояснение:

        Глядя на график в 1.1.2.2 № 2 и № 3 и сравнивая эти фотографии с графикой, использованной в модели проектирования коммутатора Cisco, показанной в 1.1.1.5 № 2, вы можете видеть, что коммутатор фиксированной конфигурации меньшего блока стойки используется в качестве коммутатора уровня доступа. Переключатель модульной конфигурации будет использоваться на уровне распределения и ядра.

    8. Каковы два преимущества модульных коммутаторов по сравнению с коммутаторами фиксированной конфигурации? (Выберите два.)
      • более низкая стоимость переключателя
      • повышенная масштабируемость
      • более низкие тарифы на экспедирование
      • Требуется меньшее количество розеток
      • наличие нескольких портов для агрегирования полосы пропускания
        Пояснение:

        Коммутаторы с фиксированной конфигурацией, хотя и дешевле, имеют определенное количество портов и не имеют возможности добавлять порты.Они также обычно предоставляют меньше высокоскоростных портов. Чтобы масштабировать коммутацию в сети, состоящей из коммутаторов с фиксированной конфигурацией, необходимо приобрести больше коммутаторов. Это увеличивает количество розеток, которые необходимо использовать. Модульные коммутаторы можно масштабировать, просто приобретая дополнительные линейные карты. Агрегирование полосы пропускания также упрощается, поскольку объединительная плата шасси может обеспечить полосу пропускания, необходимую для линейных карт портов коммутатора.

    9. Какой тип адреса коммутатор использует для построения таблицы MAC-адресов?
      • IP-адрес назначения
      • IP-адрес источника
      • MAC-адрес назначения
      • MAC-адрес источника
        Пояснение:

        Когда коммутатор получает кадр с исходным MAC-адресом, которого нет в таблице MAC-адресов, коммутатор добавит этот MAC-адрес в таблицу и сопоставит этот адрес с конкретным портом.Коммутаторы не используют IP-адресацию в таблице MAC-адресов.

    10. Какое сетевое устройство можно использовать для устранения конфликтов в сети Ethernet?
      • межсетевой экран
      • ступица
      • роутер
      • переключатель
      • Навигация
        Пояснение:

        Коммутатор обеспечивает микросегментацию, чтобы никакое другое устройство не конкурировало за ту же полосу пропускания сети Ethernet.

    11. Какие два критерия используются коммутатором Cisco LAN для принятия решения о пересылке кадров Ethernet? (Выберите два.)
      • Стоимость пути
      • выходной порт
      • входной порт
      • IP-адрес назначения
      • MAC-адрес назначения
        Пояснение: Коммутаторы Cisco LAN

        используют таблицу MAC-адресов для принятия решений о пересылке трафика. Решения основываются на входном порту и MAC-адресе назначения кадра.Информация о входном порте важна, поскольку она передает VLAN, к которой принадлежит порт.

    12. См. Выставку. Считайте, что основное питание только что восстановили. ПК3 выдает широковещательный запрос DHCP IPv4. На какой порт SW1 перенаправит этот запрос?

      CCNA 2 RSE 6.0 Глава 4 Ответы на экзамен 2018 2019 01

      • только по Fa0 / 1
      • только для Fa0 / 1 и Fa0 / 2
      • только для Fa0 / 1, Fa0 / 2 и Fa0 / 3
      • — Fa0 / 1, Fa0 / 2, Fa0 / 3 и Fa0 / 4
      • только для Fa0 / 1, Fa0 / 2 и Fa0 / 4
        Пояснение:

        Поскольку это широковещательный кадр, SW1 отправит его на все порты, кроме входящего (порт, в котором был получен запрос).

    13. Какова одна функция коммутатора уровня 2?
      • пересылает данные на основе логической адресации
      • дублирует электрический сигнал каждого кадра на каждый порт
      • изучает порт, назначенный хосту, проверяя MAC-адрес назначения
      • определяет, какой интерфейс используется для пересылки кадра на основе MAC-адреса назначения
        Объяснение:

        Коммутатор создает таблицу MAC-адресов из MAC-адресов и связанных номеров портов, исследуя MAC-адрес источника, обнаруженный во входящих кадрах.Для пересылки кадра вперед коммутатор проверяет MAC-адрес назначения, ищет в MAC-адресе номер порта, связанный с этим MAC-адресом назначения, и отправляет его на определенный порт. Если MAC-адрес назначения отсутствует в таблице, коммутатор пересылает кадр на все порты, кроме входящего порта, из которого был создан кадр.

    14. См. Выставку. Как кадр, отправленный из PCA, пересылается в PCC, если таблица MAC-адресов на коммутаторе SW1 пуста?

      CCNA 2 RSE 6.0 Глава 4 Экзамен Ответы 2018 2019 02

      • SW1 лавинно рассылает фрейм по всем портам коммутатора, за исключением взаимосвязанного порта для коммутатора SW2 и порта, через который фрейм поступил в коммутатор.
      • SW1 лавинно рассылает фрейм по всем портам SW1, за исключением порта, через который фрейм поступил в коммутатор.
      • SW1 пересылает рамку прямо на SW2. SW2 рассылает фрейм всем портам, подключенным к SW2, за исключением порта, через который фрейм поступил в коммутатор.
      • SW1 отбрасывает кадр, потому что ему неизвестен MAC-адрес назначения.
        Пояснение:

        Когда коммутатор включается, таблица MAC-адресов пуста. Коммутатор создает таблицу MAC-адресов, проверяя исходный MAC-адрес входящих кадров. Коммутатор выполняет переадресацию на основе MAC-адреса назначения, указанного в заголовке кадра. Если коммутатор не имеет записей в таблице MAC-адресов или если MAC-адрес назначения отсутствует в таблице коммутаторов, коммутатор перенаправит кадр на все порты, кроме порта, который доставил кадр в коммутатор.

    15. У небольшой издательской компании есть такая структура сети, что, когда широковещательная передача отправляется по локальной сети, 200 устройств принимают передаваемую широковещательную передачу. Как администратор сети может уменьшить количество устройств, получающих широковещательный трафик?
      • Добавьте больше коммутаторов, чтобы на одном коммутаторе было меньше устройств.
      • Замените коммутаторы коммутаторами с большим количеством портов на коммутатор. Это позволит использовать больше устройств на определенном коммутаторе.
      • Сегментируйте локальную сеть на меньшие локальные сети и маршрутизируйте между ними.
      • Замените по крайней мере половину коммутаторов концентраторами, чтобы уменьшить размер широковещательного домена.
        Пояснение:

        Разделив одну большую сеть на две меньшие сети, сетевой администратор создал два меньших широковещательных домена. Когда широковещательная рассылка отправляется по сети сейчас, широковещательная рассылка будет отправлена ​​только на устройства в той же локальной сети Ethernet. Другая локальная сеть не получит широковещательную передачу.

    16. См. Выставку. Сколько отображается широковещательных доменов?

      CCNA 2 RSE 6.0 Глава 4 Ответы на экзамен 2018 2019 03

      • 1
      • 4
      • 8
      • 16
      • 55
        Пояснение:

        Маршрутизатор определяет границу широковещательной рассылки, поэтому каждое соединение между двумя маршрутизаторами является широковещательным доменом. На выставке 4 канала между маршрутизаторами составляют 4 широковещательных домена.Кроме того, каждая локальная сеть, подключенная к маршрутизатору, является широковещательным доменом. 4 LAN на выставке приводят к появлению еще 4 широковещательных доменов, то есть всего 8 широковещательных доменов.

    17. Какое решение поможет колледжу уменьшить перегрузку сети из-за коллизий?
      • межсетевой экран, который подключается к двум интернет-провайдерам
      • коммутатор с высокой плотностью портов
      • роутер с двумя портами Ethernet
      • маршрутизатор с тремя портами Ethernet
        Пояснение: Коммутаторы

        обеспечивают микросегментацию, так что одно устройство не конкурирует за одну и ту же полосу пропускания сети Ethernet с другим сетевым устройством, что практически исключает конфликты.Коммутатор с высокой плотностью портов обеспечивает очень быстрое подключение многих устройств.

    18. Какое сетевое устройство может служить границей для разделения широковещательного домена уровня 2?
      • маршрутизатор
      • Мост Ethernet
      • Концентратор Ethernet
      • точка доступа
        Пояснение:

        Устройства уровня 1 и 2 (коммутатор LAN и концентратор Ethernet) и устройства точек доступа не фильтруют широковещательные кадры MAC.Только устройство уровня 3, такое как маршрутизатор, может разделить домен вещания уровня 2.

    19. Какой адрес назначения в заголовке широковещательного кадра?
      • 0,0.0.0
      • 255.255.255.255
      • 11-11-11-11-11-11
      • FF-FF-FF-FF-FF-FF
        Пояснение:

        В кадре широковещательной передачи уровня 2 MAC-адрес назначения (содержащийся в заголовке кадра) устанавливается на все двоичные единицы, поэтому формат FF-FF-FF-FF-FF-FF.Двоичный формат 11 в шестнадцатеричном формате — 00010001. 255.255.255.255 и 0.0.0.0 — это IP-адреса.

    20. Какое утверждение описывает результат после соединения нескольких коммутаторов Cisco LAN?
      • Широковещательный домен распространяется на все коммутаторы.
      • Для каждого коммутатора существует один домен конфликтов.
      • Число коллизий кадров увеличивается на сегментах, соединяющих переключатели.
      • Для каждого коммутатора существует один домен широковещательной рассылки и один домен конфликтов.
        Пояснение:

        В коммутаторах Cisco LAN микросегментация позволяет каждому порту представлять отдельный сегмент, и, таким образом, каждый порт коммутатора представляет отдельный домен конфликтов. Этот факт не изменится при соединении нескольких коммутаторов. Однако коммутаторы LAN не фильтруют широковещательные кадры. Кадр широковещательной рассылки рассылается по всем портам. Подключенные коммутаторы образуют один большой широковещательный домен.

    21. Что означает термин «плотность портов» для коммутатора Ethernet?
      • пространство памяти, выделенное каждому порту коммутатора
      • количество доступных портов
      • количество хостов, которые подключены к каждому порту коммутатора
      • скорость каждого порта
        Пояснение:

        Термин «плотность портов» обозначает количество портов, доступных в коммутаторе.Коммутатор доступа к одной стойке может иметь до 48 портов. Более крупные коммутаторы могут поддерживать сотни портов.

    22. По каким двум причинам сетевой администратор сегментирует сеть с помощью коммутатора уровня 2? (Выберите два.)
      • для создания меньшего количества коллизионных доменов
      • для увеличения пропускной способности пользователя
      • для создания дополнительных широковещательных доменов
      • для исключения виртуальных цепей
      • для изоляции трафика между сегментами
      • для изоляции сообщений запроса ARP от остальной сети
        Пояснение:

        Коммутатор имеет возможность создавать временные двухточечные соединения между напрямую подключенными передающими и принимающими сетевыми устройствами.Два устройства имеют полнодуплексное соединение с полной полосой пропускания во время передачи.

    23. Сопоставьте описание рекомендаций по коммутируемой сети без границ с принципом. (Используются не все варианты.)

      CCNA 2 RSE 6.0 Глава 4 Ответы на экзамен 2018 2019 001

    24. Сопоставьте функции с соответствующими слоями. (Используются не все варианты.)

      CCNA 2 RSE 6.0 Глава 4 Ответы на экзамен 2018 2019 002

    25. Сопоставьте характеристику пересылки с ее типом.(Используются не все варианты.)

      CCNA 2 RSE 6.0 Глава 4 Ответы на экзамен 2018 2019 003

    .

    Внесение в базу рса осаго


    возможно ли, онлайн-изменения — Рамблер/авто

    Человеческий фактор никто не отменял даже в электронной системе хранения информации. Российский союз автостраховщиков (РСА), будучи связующим звеном между страховщиками и владельцами автомобилей, выступает одновременно и в качестве носителя данных о них, располагая требуемой информационной базой.

    Но если автовладелец факт получения нового удостоверения водителя скроет от страховой компании, то в информационной базе РСА могут оказаться ошибочные данные. Подробнее об этом процессе читайте далее.

    Как внести изменения в базу данных РСА при смене водительского удостоверения

    Гражданское автострахование берёт под свою защиту человека, а не транспортное средство. Отсюда следует, что в информационный банк РСА должны вноситься все изменения, которые происходят с автовладельцем, особенно после смены им удостоверения водителя, хотя у его автомобиля никаких метаморфоз не наблюдается. Если необходимые поправки в базу не будут внесены, это чревато для автовладельца потерей им скидок, предоставляемых посредством коэффициента бонус-малус (КБМ), и некоторыми другими неприятностями.

    Знаете ли вы? Как свидетельствует статистика, семейные водители на 10% реже попадают в автомобильной аварии, нежели холостые, а женщины в любом семейном статусе становятся виновницами ДТП на 10% чаще, чем мужчины.

    Куда нужно обращаться

    После замены документов, дающих право на вождение автомобиля, необходимо направить заявление об этом своим страховщикам, имеющим право доступа к информационному банку РСА. Если страхователи не осуществили действия по необходимой корректировке в информационной базе, нужно адресовать жалобу прямо в РСА. К ней нужно присовокупить копии документов, подававшихся параллельно с заявлением, а также копию самого заявления с зарегистрированным входящим номером.

    Имеется также возможность подачи аналогичной жалобы в Центральный банк. Если и эти жалобы останутся без удовлетворения и без указания причин этого, тогда имеется возможность адресовать свои претензии в суд. Для этого придётся заново подготовить требующиеся документы.

    Кто вносит новые права в базу РСА Полномочиями обновления сведений в связи с заменой водительских прав располагают исключительно страховые компании. РСА и ЦБ имеют лишь возможность воздействовать на них при наличии соответствующих жалоб на их ошибки.

    Знаете ли вы? Впервые автомобильную страховку выписали ещё в позапрошлом веке — в 1898 г. Тогда американский автомобилист застраховал своё авто от столкновения с транспортом на конной тяге.

    Список необходимых документов

    Заявление страховщикам в связи с заменой ВУ об обновлении данных в информационном банке РСА сопровождается:

    действующим страховочным договором;паспортной копией;удостоверением водителя;копией или оригиналом прежних страховых договоров.

    Как внести изменения в базу данных РСА после замены прав

    Каждый из страховщиков располагает своей формой написания заявлений. Однако автовладельцы вольны составлять прошения и произвольно. Закон предписывает изучение заявлений, длящееся не дольше 30 суток. На протяжении этого периода страховые менеджеры обязаны изучить все поданные документы. Затем изменённые сведения поступают в банк данных РСА, а КБМ восстанавливается.

    Важно! Восстановление КБМ имеет своим следствием возврат средств, переплаченных автовладельцем из-за случившихся искажений в базе данных. Эти деньги переводятся на банковскую карту водителя.

    Что нужно для сохранения КБМ Сохранность КБМ после смены свидетельства о вождении гарантирует сообщение об этом страховщикам.

    Сервисы для восстановления КБМ в базе РСА онлайн

    Сегодня практически все фирмы, занимающиеся страхованием, располагают в Сети своими сайтами, посредством которых можно общаться со страховыми менеджерами онлайн. Имеется официально зарегистрированный сайт и у РСА, на котором автовладелец имеет возможность получить стандартный образец заявления на реабилитацию прежнего коэффициента. После заполнения этого заявления оно отсылается на электронную почту, где и рассматривается.

    Онлайн-сервисы страховых компаний

    Как уже говорилось, большинство страховщиков располагают собственными сайтами со специализированными онлайн-сервисами. Посредством их после заполнения требуемых образцов имеется возможность в онлайн-режиме решить вопрос возвращения КБМ.

    Как внести данные в базу РСА самостоятельно

    Уже подчёркивалось, что полномочиями изменять сведения в базе союза страховщиков располагает исключительно страховая компания. Сам союз страховщиков подобных прав не имеет. Водитель имеет возможность самостоятельно лишь рассчитать величину КБМ. Во всех остальных случаях нужно решать вопрос только со страховщиками.

    Узнайте, какие бывают страховки на автомобиль.

    Внесение исправлений в КБМ через страховую компанию

    В случае, когда автовладелец уверен, что в отношении него в процессе вычисления величины КБМ допущено искажение фактов, ему нужно направить ходатайство своим страховщикам. Это можно осуществить посредством специальных онлайн-сервисов восстановления величины КБМ, исправляющих допущенные огрехи бесплатно.

    Как с гарантией сделать восстановление КБМ за несколько дней

    Лучше всего это осуществить посредством платных услуг, оказываемых профессиональными юристами.

    Куда подавать заявление о восстановлении КБМ через РСА Имеется возможность посредством Интернета отправить ходатайство о восстановлении КБМ на электронную почту РСА: [email protected] Отослать документы можно и с помощью заказного письма по адресу: ул. Люсиновская, 27, кор. 3, Москва, 115093. По этому же адресу имеется возможность лично принести заявление и требуемые документы.

    Важно! По статистике, наиболее часто искажённые размеры КБМ возникают вследствие именно замены водительских удостоверений и несвоевременного сообщения об этом событии страховщикам.

    Откуда берётся ошибка значения КБМ в базе АИС В качестве коэффициента поправок в процессе составления страховочного договора ОСАГО КБМ предоставляет дисциплинированным автомобилистам, не допустившим ДТП, скидки на покупку договора страхования по 5% ежегодно (но не свыше 50% совокупно). Инициаторы автоаварий, наоборот, наказываются увеличивающими коэффициентами в пределах от 1,4 до 2,45.

    Однако при изменившихся данных паспорта, выдаче нового удостоверения водителя или завершении функционирования страховой фирмы информация о скидочных коэффициентах способна быть в банке данных в искажённом виде.

    Видео: как восстановить исправить неправильный КБМ в базе РСА Для дисциплинированного водителя, накопившего солидные страховочные бонусы благодаря безаварийной езде, способна стать досадным ударом потеря этих цифр вследствие искажения данных в информационной базе РСА. Но этого легко избежать, если сразу вслед за заменой прав на вождение автомобиля сообщить об этом своим страховщикам.

    Как внести изменения в базу данных РСА

    Dmitry | 19 Апрель 2016‚ 19:28 |

    Как внести изменения в базу данных РСА

    Итак, водительское удостоверение получено. О предварительных этапах, непосредственно о получении водительского удостоверения возможно прочитать в записях «Замена водительских прав», «Новое водительское удостоверение и медицинская справка».

    Но если хотите сохранить коэффициент бонус-малус при получении очередного полиса ОСАГО, необходимо обратиться в страховую компанию после замены водительского удостоверения, чтобы внести в базу данных РСА серию, номер нового водительского удостоверения. В моём случае в базу данных также надо внести данные нового паспорта РФ.

    Если не заявить о новых данных до момента, как будете оформлять новый полис ОСАГО, потеряете скидку при оплате полиса. В свете подорожаний полисов в последнее время, думаю, скидка никому не помешает.

    Самое первое, поискал информацию на сайте страховой компании. Ничего не нашёл. Придётся ехать в офис страховой.

    Так случилось, что появилось время в первой половине рабочего дня. Приехал в офис. Ни одного посетителя. Пришлось поискать кабинет, где возможно получить консультацию по интересующему меня вопросу. Оказалось, что внесением данных в базу данных РСА занимается отдел продаж полисов ОСАГО.

    Предоставил менеджеру новый паспорт, водительское удостоверение, копию полиса ОСАГО, так как у меня электронный полис.

    Процедура заняла примерно 10 минут. Менеджер распечатала заявление о внесении изменений в базу данных, в котором надо поставить только подпись.

    Также мне оформили полис на фирменном бланке. Теперь нет необходимости объяснять сотрудникам ГИБДД, почему я предоставляю копию полиса, а не оригинальный бланк.

    Вся процедура совершенно бесплатная.

    Перед уходом ещё раз уточнил, сохранится ли у меня КБМ при оформлении электронного полиса на очередной год. На что получил утвердительный ответ.

    Но несмотря на утвердительный ответ, решил проверить сам по базе данных в личном кабинете. Проверил. Всё точно. Новые данные паспорта и водительского удостоверения занесены в базу данных.

    Ещё записи по теме:

    ПОДЕЛИТЕСЬ НАШЕЙ СТАТЬЕЙ С ДРУЗЬЯМИ

    Рубрика: Практические советы, Экономика и деньги | Комментариев: 6 »

    Как изменить данные в РСА: возможно ли, онлайн-изменения

    Человеческий фактор никто не отменял даже в электронной системе хранения информации. Российский союз автостраховщиков (РСА), будучи связующим звеном между страховщиками и владельцами автомобилей, выступает одновременно и в качестве носителя данных о них, располагая требуемой информационной базой. Но если автовладелец факт получения нового удостоверения водителя скроет от страховой компании, то в информационной базе РСА могут оказаться ошибочные данные. Подробнее об этом процессе читайте далее.

    Как внести изменения в базу данных РСА при смене водительского удостоверения

    Гражданское автострахование берёт под свою защиту человека, а не транспортное средство. Отсюда следует, что в информационный банк РСА должны вноситься все изменения, которые происходят с автовладельцем, особенно после смены им удостоверения водителя, хотя у его автомобиля никаких метаморфоз не наблюдается. Если необходимые поправки в базу не будут внесены, это чревато для автовладельца потерей им скидок, предоставляемых посредством коэффициента бонус-малус (КБМ), и некоторыми другими неприятностями.

    Знаете ли вы? Как свидетельствует статистика, семейные водители на 10% реже попадают в автомобильной аварии, нежели холостые, а женщины в любом семейном статусе становятся виновницами ДТП на 10% чаще, чем мужчины.

    Куда нужно обращаться

    После замены документов, дающих право на вождение автомобиля, необходимо направить заявление об этом своим страховщикам, имеющим право доступа к информационному банку РСА. Если страхователи не осуществили действия по необходимой корректировке в информационной базе, нужно адресовать жалобу прямо в РСА. К ней нужно присовокупить копии документов, подававшихся параллельно с заявлением, а также копию самого заявления с зарегистрированным входящим номером. Имеется также возможность подачи аналогичной жалобы в Центральный банк. Если и эти жалобы останутся без удовлетворения и без указания причин этого, тогда имеется возможность адресовать свои претензии в суд. Для этого придётся заново подготовить требующиеся документы.

    Кто вносит новые права в базу РСА

    Полномочиями обновления сведений в связи с заменой водительских прав располагают исключительно страховые компании. РСА и ЦБ имеют лишь возможность воздействовать на них при наличии соответствующих жалоб на их ошибки.

    Знаете ли вы? Впервые автомобильную страховку выписали ещё в позапрошлом веке — в 1898 г. Тогда американский автомобилист застраховал своё авто от столкновения с транспортом на конной тяге.

    Список необходимых документов

    Заявление страховщикам в связи с заменой ВУ об обновлении данных в информационном банке РСА сопровождается:

    • действующим страховочным договором;
    • паспортной копией;
    • удостоверением водителя;
    • копией или оригиналом прежних страховых договоров.
    Как внести изменения в базу данных РСА после замены прав

    Каждый из страховщиков располагает своей формой написания заявлений. Однако автовладельцы вольны составлять прошения и произвольно. Закон предписывает изучение заявлений, длящееся не дольше 30 суток. На протяжении этого периода страховые менеджеры обязаны изучить все поданные документы. Затем изменённые сведения поступают в банк данных РСА, а КБМ восстанавливается.

    Важно! Восстановление КБМ имеет своим следствием возврат средств, переплаченных автовладельцем из-за случившихся искажений в базе данных. Эти деньги переводятся на банковскую карту водителя.

    Что нужно для сохранения КБМ

    Сохранность КБМ после смены свидетельства о вождении гарантирует сообщение об этом страховщикам.

    Сервисы для восстановления КБМ в базе РСА онлайн

    Сегодня практически все фирмы, занимающиеся страхованием, располагают в Сети своими сайтами, посредством которых можно общаться со страховыми менеджерами онлайн. Имеется официально зарегистрированный сайт и у РСА, на котором автовладелец имеет возможность получить стандартный образец заявления на реабилитацию прежнего коэффициента. После заполнения этого заявления оно отсылается на электронную почту, где и рассматривается.

    Онлайн-сервисы страховых компаний

    Как уже говорилось, большинство страховщиков располагают собственными сайтами со специализированными онлайн-сервисами. Посредством их после заполнения требуемых образцов имеется возможность в онлайн-режиме решить вопрос возвращения КБМ.

    Как внести данные в базу РСА самостоятельно

    Уже подчёркивалось, что полномочиями изменять сведения в базе союза страховщиков располагает исключительно страховая компания. Сам союз страховщиков подобных прав не имеет. Водитель имеет возможность самостоятельно лишь рассчитать величину КБМ. Во всех остальных случаях нужно решать вопрос только со страховщиками.

    Внесение исправлений в КБМ через страховую компанию

    В случае, когда автовладелец уверен, что в отношении него в процессе вычисления величины КБМ допущено искажение фактов, ему нужно направить ходатайство своим страховщикам. Это можно осуществить посредством специальных онлайн-сервисов восстановления величины КБМ, исправляющих допущенные огрехи бесплатно.

    Как с гарантией сделать восстановление КБМ за несколько дней

    Лучше всего это осуществить посредством платных услуг, оказываемых профессиональными юристами.

    Куда подавать заявление о восстановлении КБМ через РСА

    Имеется возможность посредством Интернета отправить ходатайство о восстановлении КБМ на электронную почту РСА: [email protected] Отослать документы можно и с помощью заказного письма по адресу: ул. Люсиновская, 27, кор. 3, Москва, 115093. По этому же адресу имеется возможность лично принести заявление и требуемые документы.

    Важно! По статистике, наиболее часто искажённые размеры КБМ возникают вследствие именно замены водительских удостоверений и несвоевременного сообщения об этом событии страховщикам.

    Откуда берётся ошибка значения КБМ в базе АИС

    В качестве коэффициента поправок в процессе составления страховочного договора ОСАГО КБМ предоставляет дисциплинированным автомобилистам, не допустившим ДТП, скидки на покупку договора страхования по 5% ежегодно (но не свыше 50% совокупно). Инициаторы автоаварий, наоборот, наказываются увеличивающими коэффициентами в пределах от 1,4 до 2,45.

    Однако при изменившихся данных паспорта, выдаче нового удостоверения водителя или завершении функционирования страховой фирмы информация о скидочных коэффициентах способна быть в банке данных в искажённом виде.

    Видео: как восстановить исправить неправильный КБМ в базе РСА

    Для дисциплинированного водителя, накопившего солидные страховочные бонусы благодаря безаварийной езде, способна стать досадным ударом потеря этих цифр вследствие искажения данных в информационной базе РСА. Но этого легко избежать, если сразу вслед за заменой прав на вождение автомобиля сообщить об этом своим страховщикам.

    Подписывайтесь на наши ленты в таких социальных сетях как, Facebook, Вконтакте, Instagram, Pinterest, Yandex Zen, Twitter и Telegram: все самые интересные автомобильные события собранные в одном месте.

    База рса осаго — советы адвокатов и юристов

    Советы юристов:

    1. Можете ли вы внести меня в базу данных РСА, для дальнейшего оформления мною электронного ОСАГО.

    1.1. В данном случае вам необходимо обратиться в страховую компанию. Желаю вам удачи в решении вашего вопроса.

    Вам помог ответ? Да Нет

    2. У меня вопрос, я после приобретения нового автомобиля застраховал по ОСАГО свой автомобиль, на протяжении 11 месяцев я ездил и не думал что полис не числится в базах РСА и в страховой, выяснилось это после того как я приехал продлевать полис ОСАГО в том месте где приобретал автомобиль, получается что я всё это время ездил по не существующему полису, в страховой компании говорят что он действующий хотя он ни где не числится даже у них в базе подскажите куда жаловаться?

    2.1. Сергей! В Российский Союз автостраховщиков.

    Вам помог ответ? Да Нет

    2.2. В рса и пишите жалобу.

    Вам помог ответ? Да Нет

    3. 15.03.2018 г. я заключил электронный договор ОСАГО с АО «АльфаСтрахование» 15.08.2018 г. я получил уведомление о досрочном прекращении договора руководствуясь п. 1.15 (Правил ОСАГО), т.е. выявление ложных или неполных сведений, предоставленных страхователем при заключении договора. Ни какой конкретики, все требуемые документы при заключении электронного полиса ОСАГО проверялись по базе РСА. Это законно?

    3.1. Нет, не законно. Вам необходимо в суде оспорить односторонний отказ от исполнения обязательств со стороны страховой компании.

    С Уважением, адвокат в г. Волгограде – Степанов Вадим Игоревич.

    Вам помог ответ? Да Нет

    3.2. Если сведения предоставлялись достоверные, то не законно. Подавайте в СК заявление с требованием разъяснений. Если не согласны можете обратиться в суд с иском и подать жалобу в РСА.

    Вам помог ответ? Да Нет

    4. У меня ситуация такая. Продал автомобиль, хотел сдать полис ОСАГО. Выяснилось, что полис «поддельный» — сам бланк оригинальный, в базе РСА числится за Росгосстрахом, но в базе Росгосстраха его нет. Могу ли я вернуть свои деньги?

    4.1. упустили самое главное, где вы приобрели данный полис? Если у официального представителя страховой компании или в их офисе, то требуйте письменный отказ и обращайтесь в суд.
    Удачи вам и всего наилучшего.

    Вам помог ответ? Да Нет

    5. Покупаем ТС по договору купли-продажи. Чтобы поставить ТС на учёт в ГИБДД нужна страховка ОСАГО. Электронный полис ОСАГО не можем оформить т.к. в ПТС вписан только прежний собственник. Документ соответственно не проходит проверку в базе РСА. Замкнутый круг какой-то
    Вопрос: можно ли в ПТС внести запись о новом собственнике самостоятельно, ручкой?
    Не накажут ли за это в ГИБДД?
    И поможет ли это получить эл.полис ОСАГО?

    5.1. Можно внести самостоятельно, ручкой написав все данные. В графах расписаться.
    А, вот по поводу электронного полиса, нет, ведь от записи не появится в базе сведения.
    Попробуйте у другого СК получить электронный полис.

    Вам помог ответ? Да Нет

    6. При расчёте ОСАГО на грузовой автомобиль расчёт был сделан без учёта КБМ =0,5 (результат запроса в базу РСА), в результате страховка вместо 1050 р. обошлась 2105 р.. Подскажите, что делать, что бы произвели перерасчёт?!

    6.1. Напишите претензию с требованием сделать перерасчет в страховую компанию, где оформляли полис. В случае отказа обращайтесь в суд.

    Вам помог ответ? Да Нет

    7. Я купил подержанный автомобиль и хочу его зарегистрировать. Оформил ОСАГО в ООО «Дальакфес», деньги с карты списали, пришло смс с РСА с номером полиса, сроком действия и названием СК. Но на электронную почту так ничего и не пришло. В базе РСА полис пробивается, а на сайте СК пусто в личном кабинете. Вопрос: могу ли я поставить на учет авто без бланка ОСАГО если он есть в базе?

    7.1. Если в БАЗЕ РСА полис виден — то вне зависимости от распечатки — ВЫ можете поставить авто на учет
    Удачи ВАМ! Всегда рады помочь.

    Вам помог ответ? Да Нет

    8. пожалуйста если есть полис ОСАГО в СК»Московия» которая на данный момент не осуществляет больше свою деятельность с 20,07,2017, мы поменяли права, каким образом теперь внести новые права в базу данных РСА, что бы не потерять скидку по КБМ?

    8.1. Вы ее итак не должны потерять, в данном случае должны быть история в базе, если у Вас не было страхового случая, то информация должна быть отображена, и скидки у Вас будут действовать.

    Вам помог ответ? Да Нет

    9. Получилась такая ситуация в 2014 году при страховании машины полисом ОСАГО в компании Росгосстрах и страховой агент в базу РСА внёс совершенно не ту дату моего рождения. После чего начались проблемы со страховкой потому что как только я хотел получить полис ОСАГО онлайн проверка в РСА выдавала ошибку в связи с этим мне приходилось страховать машину у агентов где сумма страховки получалась больше. Будет любезный подскажите как поступить и что делать. Заранее благодарен.

    9.1. Попробуйте обратиться в РСА с заявлением о приведении сведений о Вас и Ваши страховках в соответствие с фактической информацией. Удачи Вам!

    Вам помог ответ? Да Нет

    10. Хотел спросить, какая ответственность за продажу полиса ОСАГО (не поддельный, но без внесения в базу РСА)?

    10.1. Продажа заведомо подложного документа не Влечет никакой уголовной ответственности, ответственность наступает только тогда, когда этот полис официально пытаются использовать, например предъявляют сотрудникам ГИБДД. Поэтому в данном случае будет ответственность по статье 327 часть 3 УК РФ.

    Вам помог ответ? Да Нет

    10.2. Если полис не внесен в базу, у водителя могут возникнуть проблемы, в то же время
    ст.15 ФЗ «Об ОСАГО»
    7.1. Страховщик обеспечивает контроль за использованием бланков страховых полисов обязательного страхования страховыми брокерами и страховыми агентами и несет ответственность за их несанкционированное использование. Для целей настоящего Федерального закона под несанкционированным использованием бланков страховых полисов обязательного страхования понимается возмездная или безвозмездная передача чистого или заполненного бланка страхового полиса владельцу транспортного средства без отражения в установленном порядке факта заключения договора обязательного страхования, а также искажение представляемых страховщику сведений об условиях договора обязательного страхования, отраженных в бланке страхового полиса, переданного страхователю.
    страховщик и водитель, которому продали полис может обратиться в полицию с заявлением.

    Вам помог ответ? Да Нет

    11. Я купила машину по дкп. Могу ли я сделать онлайн ОСАГО, внести данные, что собственник еще старый (иначе база РСА не пропустит полис), сама выступлю страхователем. И с этим полисом поехать в ГИБДД ставить на учет авто?

    11.1. В этом случае Ваш полис не будет соответствовать другим документам, так как указан старый собственник. Кстати в течении 10 дней Вы вообще можете ездить без полиса.

    Вам помог ответ? Да Нет

    12. Выписали не правильно полис ОСАГО (со старыми датами) ДПС вменяют отсутствие полиса и по базе отказались проверять. Выписывают постановление и объясняют, что после того как переделаю полис постановление можно отменить. По факту в ГИБДД отказались отменять постановление и сказали надо в судебном порядке отменять. Подскажите, как быть без вины виноватый. (в базе РСА с датами всё в порядке)

    12.1. Вы сами виноваты в случившемся, если в вашем полисе ОСАГО есть ошибки и вы их предварительно не исправили

    Желаю Вам удачи и всех благ!

    Вам помог ответ? Да Нет

    12.2. Вы вправе обжаловать данное постановление в течение 10 суток с момента его вынесения и признать его незаконным Обратитесь с жалобой в суд. Хорошего приятного дня.

    Вам помог ответ? Да Нет

    13. Оформил онлайн страховку ОСАГО в Росгосстрахе, прикладывал полностью копии документов для проверки в базе РСА. Оплатил, в итоге приходит полис, где указана другая модель автомобиля. В ПТС SUV T11 TIGGO, в страховке Chery T11 TIGGO. Будут ли вопросы при постановке на учет в ГИБДД и что делать, если будут.
    Заранее спасибо.
    Александр.

    13.1. Конечно будут проблемы. Фактически страховка оформлена на другой автомобиль. Обращайтесь в СК и меняйте страховку.

    Вам помог ответ? Да Нет

    13.2. ГИБДД как правило не особенно присматривается к данным огрехам. Главное чтобы ПТС и остальные данные были в порядке. Поэтому пока не сходите не узнаете.

    Вам помог ответ? Да Нет

    14. По базе АИС РСА восстановил КБМ, который дает значительную скидку. За какие оформленные ранее полисы ОСАГО я смогу вернуть со страховой компании излишне уплаченную сумму. В страховой сказали, что возможен возврат средств только по действующим полисам! Возможно ли взыскать переплату по ранним полисам ОСАГО через суд в случае отказа СК?

    14.1. Пишите заявление. Установленного образца не существует. Пишется в свободной форме с изложением и пояснением обстоятельств по делу. От кого, ваши адрес и телефон, кому (ФИО или название организации, должности), что, где, когда, что просите… Дата, подпись. Но лучше обратиться за составлением к юристу.

    Вам помог ответ? Да Нет

    15. Как восстановить КБМ в базе РСА при оформлении договора ОСАГО, который обнулили в 2014 или 2015 годах?

    15.1. Если страховая компания отказывается менять КБМ, напишите жалобу в РСА либо сразу в Центробанк, через сайт в интернете.
    Удачи Вам.

    Вам помог ответ? Да Нет

    16. При заключения договора электронного полиса ОСАГО пишет, что населенный пункт не соответствует данным базы РСА. Но населенный пункт и регистрация указанна верна, как в паспорте, что делать и как проверить базу данных РСА.

    16.1. К сожалению, это распространенная проблема при получении электронного полиса. Вам необходимо позвонить на горячую линию и выяснить как необходимо ввести ваш населенный пункт.

    Вам помог ответ? Да Нет

    16.2. Анастасия, если при оформлении электронного полиса вам пишет программа, что указанный населенный пункт не соответствует данным базы РСА, попробуйте выбрать из их списка свой населенный пункт. Название населенного пункта в паспорте может не соответствовать названию указанному в базе данных РСА. Желаю удачи!

    Вам помог ответ? Да Нет

    16.3. Федеральный закон от 2 мая 2006 г. N 59-ФЗ «О порядке рассмотрения обращений граждан Российской Федерации» (с изменениями и дополнениями)

    Вы можете запросить причину.

    Вам помог ответ? Да Нет

    16.4. Анастасия
    Вопрос не юридического характера, если база данных не воспринимает ваш населенный пункт.
    Только в страховой компании вам подскажут, что необходимо делать в этом случае

    Желаю Вам удачи и всех благ!

    Вам помог ответ? Да Нет

    17. Я уже задавал свой вопрос, но к сожалению мнения разделились и я ничего не понял. Попробую еще раз более подробно.. . оформил электронный полис ОСАГО, через брокера СК, переплаты не было, все согласно расчета, в базе РСА полис значится как — действующий.. . смущает то, что строка СТРАХОВАЯ ПРЕМИЯ не заполнена, т.е. сумма не отражена. Могут ли в дальнейшем быть претензии со стороны ГИБДД, СК. спасибо.

    17.1. несущественно если полис действующий в базе РСА тарифы они стандартные

    С уважением к Вам, Филатов Евгений Павлович.

    Вам помог ответ? Да Нет

    17.2. Если в базе РСА полис значится как действующий, никто внимание на отсутствие записей в этой строке внимания не обратит, не переживайте.

    Вам помог ответ? Да Нет

    18. Могу ли я возвратить излишне уплаченную часть страховой премии по завершенному договору ОСАГО, ТК на время заключения договора в базе РСА содержались ошибочные сведения по КБМ? На сегодняшний день КБМ верный.

    18.1. Да, вы можете вернуть излишне уплаченные вами деньги, для этого нужно обратиться с заявлением в страховую компанию. Удачи вам.

    Вам помог ответ? Да Нет

    19. В полисе ОСАГО не указана сумма страховой премии, это нормально? Полис электронный, в базе РСА числится, а вот на самом полисе не указана сумма…

    19.1. В полисе обязательно должны быть заполнены и указаны все реквизиты, в том числе сумма страховой премии. Попросите СК внести все необходимые данные в базу РСА. Успешно решить Ваш вопрос можно с юридической помощью.
    Спасибо за то, что воспользовались услугами сайта!

    Вам помог ответ? Да Нет

    19.2. ЭТО не криминально — ГЛАВНОЕ ЧТО полис действующий и выплаты по нем получить можно
    Удачи ВАМ! Всегда рады помочь.

    Вам помог ответ? Да Нет

    19.3. Нет, конечно ненормально. Но вам достаточно иметь документы свидетельствующие об оплате полиса ОСАГО и наличие полиса в базе РСА.

    Вам помог ответ? Да Нет

    20. Пытаюсь оформить полис ОСАГО постоянно пишет адрес не соответствует базе РСА.

    20.1. Это значит, что страховщик не правильно указал или вы уже имеете другой адрес места регистрации. В этом случае самостоятельно оформить полис не получиться: сначала обратитесь к страховщику с заявлением о снесении изменений в базу данных.

    Вам помог ответ? Да Нет

    20.2. Андрей! Такое возможно, если ранее вы не были вписаны в страховку. Попробуйте написать им на сайте. Всего доброго!

    Вам помог ответ? Да Нет

    21. 114.03.17. оформила полис ОСАГО на машину мужа через Альфастрахование онлайн. Полис получила на электронику. Но в базе РСА полис с таким номером не значится. Как быть? Ведь деньги заплачены не малые.

    21.1. Значит еще не внесли данные полиса. Напишите жалобу в Альфа банк с просьбой разобраться и провести проверку по данному факту.

    Вам помог ответ? Да Нет

    22. 13.03.2017. оформила полис ОСАГО на машину мужа через Альфастрахование онлайн. Бланк полиса получила на электронику. Проверяю полис по базе РСА, полис с таким номером не значится. Как быть? Деньги заплачены не малые.

    22.1. Заявление в полицию пишите по факту мошенничества
    Спасибо, что посетили наш сайт.
    Всегда рады помочь! Удачи Вам.

    Вам помог ответ? Да Нет

    23. Через какое время после оформления полиса ОСАГО, он должен отражаться в базе РСА. Спасибо.

    23.1. Через какое время после оформления полиса ОСАГО, он должен отражаться в базе РСА. Спасибо. Здравствуйте. Полис. В базу заносится сразу, при оформлении в автоматическом режиме.

    Вам помог ответ? Да Нет

    24. Вопрос по ОСАГО. Заканчивается на днях срок полиса ОСАГО. Хочу оформить Е-ОСАГО. Но при этом новый полис хочу оформить на нового собственника (супругу). Сделал договор дарения. Подскажите пожал. Алгоритм моих действий. Дело в том, что на сайте любой страховой не оформят ОСАГО на супругу, т.к. в базе РСА собственником числюсь я. Спасибо.

    24.1. Для начала необходимо обратиться в ГИБДД и переоформить авто автотранспортного средства на У вашего мужа после этого он может оформить страховку путем внесения своих данных в базу. Всего хорошего вам.

    Вам помог ответ? Да Нет

    25. Вопрос по КБМ. Действующий полис ОСАГО у меня с КБМ 1. Ранее (до его заключения) на другом авто было ДТП, я — виновник. Информация о ДТП в базе РСА появилась позже заключения действующего полиса ОСАГО. Подходит время делать новый полис. Теперь, из-за данных о ДТП при расчете КБМ-1,4. Вопрос: КБМ-1 в действующем полисе ОСАГО можно/нет использовать для корректировки моего КБМ в базе РСА. На бланке действующего полиса в доп. отметках есть указание о КБМ-1.

    25.1. Вся информация по КБМ содержится в общей базе РСА, если данные о ДТП внесены, то на увеличение данного коэффициента рассчитывать не придется.

    Вам помог ответ? Да Нет

    26. В какой срок СК должна разместить данные о продаже полиса ОСАГО в базу РСА?

    26.1. Сведения о владельце полиса ОСАГО размещаются сразу же после его оформления, так как при оформлении полиса все ваши данные проходят проверку в РСА.

    Вам помог ответ? Да Нет


    27. В течении какого времени полис ОСАГО вводиться в базу РСА.

    27.1. В день страхования, Сергей.

    Вам помог ответ? Да Нет

    28. При электронном страховании ОСАГО дает ошибку год начала стажа по базе РСА.

    28.1. Обратитесь страховую.

    Вам помог ответ? Да Нет

    29. Как внести данные в базу РСА, для оформления электронного полиса ОСАГО?

    29.1. Сотрудники перечисленных организаций могут Вам в этом помочь, т.к. имеют доступ к рабочему пространству и базе на сайте РСА:
    Страховые организации – члены РСА, осуществляющие заключение договоров ОСАГО в виде электронных документов:

    «АльфаСтрахование» ОАО
    «ВСЕ» САО
    «Группа Ренессанс Страхование» ООО
    «ИНТАЧ СТРАХОВАНИЕ» АО
    Либерти Страхование (ОАО)
    «РЕСО-Гарантия» СПА
    «Росгосстрах» ООО
    РСО «ЕВРОИНС» ООО
    «САК «ЭНЕРГОГАРАНТ» ОАО
    СГ «ТОСКА» ПО
    СК «Паритет-СК» ООО
    «Страховая группа «УралСиб» АО
    «Тинькофф Страхование» АО
    АРГО САО.

    Вам помог ответ? Да Нет

    30. При электронном страховании ОСАГО дает ошибку год начала стажа по базе РСА.

    30.1. Владислав, это нормально, т.к. база РСА еще не наполнена даже на треть. Обращайтесь в РСА, на их сайте есть форма обратной связи.

    Вам помог ответ? Да Нет

    «Проблема с внесением данных полиса ОСАГО в РСА»

    Виктор (гость)

    Проблема с внесением данных полиса ОСАГО в РСА

    До страхового случая, к счастью, дело не дошло.

    Так получилось, что на 2013 год оформил осаго в страховой компании Согласие (полис 0627187352), на следующий год обратился в предыдущую страховую компанию. Выяснилось, что за год данные полиса так и не были внесены в базу РСА, в связи с чем оформить полис со скидкой за безубыточное вождение не удается. Конечно можно жаловаться в РСА, но это займет месяц, а времени уже нет. Много раз звонил в Согласие, дважды они приняли мое заявление на внесение в базу, но данные так и не появились. При общении по телефону стойкое ощущение, что от меня хотят отделаться, специалист коллцентра говорит, что ничего не может сделать, кроме как принять мое заявление в третий раз. Другой специалист утверждает, что данные в РСА поступают через неделю после внесения (позвонил в РСА, объяснили что это чушь, данные поступают в реальном времени). Так что, похоже, плакала моя скидка, придется заключать первичный договор. Обходите эту «страховую компанию» стороной.

    Качество обслуживания

    Администратор: Считаем справедливым не засчитать самую низкую оценку, поскольку ситуация разрешилась. Кроме того, как правило, мы оцениваем работу компании в урегулировании убытка.

    Ответ на отзыв

    Представитель СК

    Виктор Юрьевич, Добрый день!

    Как и было условлено нами, в ходе телефонного разговора, ответ направлен Вам на электронный адрес.
    Повторно хотелось бы сообщить, что все необходимые данные были переданы Страховой Компанией «Согласие» в РСА.
    Обращаю внимание, что Страховая Компания «Согласие» единственная из Вашей страховой истории передала верные данные, с хэшем, который определяется при выгрузке. Данная информация была предоставлена сотрудником РСА в ходе телефонного разговора.

    С уважением,
    Оганисян Арсен Александрович,
    Начальник Отдела
    по работе с обращениями клиентов.
    ООО «СК „Согласие“
    г. Москва, ул.Гиляровского, д.42
    тел.: +7(495) 739-01-01
    e-mail: [email protected]
    www.soglasie.ru

    Особенности работы единой базы ОСАГО

    С введением в 2013 году единой базы ОСАГО (АИС РСА) многие

    автовладельцы столкнулись с проблемами:то лапы ломит, то хвост отваливается, то КБм в базе неверный, то данных по водителю вообще нет в базе.

    Для начала стоит дать краткую справку. Что такое КБм? КБм (коэффициент бонус-малус) – это система скидок за безаварийную езду; один из коэффициентов, применяемых для расчета стоимости полиса ОСАГО. Первоначально водителю присваивается коэффициент 1 (КБм=1). За каждый год без ДТП (по вине данного водителя) КБм уменьшается на 0,05. При виновности водителя в ДТП его КБм увеличивается в соответствии с таблицей КБм. Следовательно, те, кто с момента введения ОСАГО в 2003 году проездил без ДТП, должны сейчас иметь наименьший КБм=0,5.

    Раньше при оформлении полиса ОСАГО достаточно было предъявить предыдущий полис ОСАГО, чтобы получить скидку по КБм. И хотя по Закону об ОСАГО для этого необходимо было предоставить справку из страховой компании о значении КБм, все закрывали на это глаза.

    Теперь же полис для оформления ОСАГО необходимо получить данные из АИС РСА.  Как я уже сказала, с базой постоянно возникают проблемы. Вместо маленького КБм в базе стоит 1 или другое неверное значение, по многим водителям данных в базе вообще нет. Проще всего сказать, что это страховые компании мошенничают, чтобы получить побольше денег. Давайте разберемся, почему же так происходит на самом деле.

    Прежде всего, стоит отметить, что информация в базу вводится операторами, т.о. здесь присутствует простой человеческий фактор. Каждый может допустить ошибку. А если допущена ошибка хоть в одной букве или цифре, то Вы уже не сможете найти информацию о себе в базе.

    Этим аспектом часто пользуются некоторые страховые компании, в особенности «Росгосстрах», специально делая ошибку в фамилии/имени или номере водительского удостоверения. В таком случае на следующий год водителю придется страховаться с КБм=1.

    Еще одной причиной возникновения подобной ситуации может стать смена водительского удостоверения. Агент будет искать Вашу информацию в базе по номеру новых прав, а в базе указаны старые.  Опять-таки данные агент не найдет. Если Вы поменяли в течение года водительское удостоверение, стоит попробовать сделать запрос в АИС по номеру старых прав.

    На мой взгляд, самой обидной причиной ошибки в базе является банкротство страховой компании, в которой Вы застрахованы по ОСАГО. Такие компании чаще всего не успевают или просто не передают данные в базу, в которой не будет никакой информации о Вашем КБм.

    Если Вы вписаны в несколько полисов ОСАГО с разными значениями КБм и информация по всем полисам занесена в базу, то при повторном страховании база выдаст наибольший коэффициент. Например, Вы вписаны в свой полис с КБМ=0,5 и в полис друга, у которого КБм=0,9 (при расчете стоимости полиса учитывается наибольший КБм по водителям) и в базу занесены оба полиса. В данном случае база присвоит Вам КБм=0,9.

    Но чаще всего возникает совсем другая ситуация. К примеру, Вы застрахованы в страховой компании «А». Через год Вы решаете застраховаться в страховой компании «Б», которая не находит Ваши данные в АИС РСА и предлагает Вам застраховаться с КБм=1. Тогда Вы идете обратно в СК «А», которая не смотрит в единую базу, а смотрит куда-то в свою собственную базу данных и видит там реальные данные, по которым уже и страхует Вас. Этим очень часто промышляет уже названный выше «Росгосстрах».

    Но не стоит расстраиваться раньше времени, если Вы попали в одну из таких ситуаций. Есть 2 пути решения:

    1. Вы можете обратиться в Российский союз автостраховщиков (РСА) и подать жалобу. Необходимо будет также предоставить копии предыдущих полисов ОСАГО, справки о безубыточности из страховых компаний, в которых Вы были застрахованы. На сайте РСА можно скачать бланк претензии.

    2. Вы можете обратиться в страховую компанию, в которой был оформлен последний полис и получить справку по форме №4 с указанием действующего КБм. Такую справку Вам обязаны выдать в страховой компании в течение 5 рабочих дней. На основании этой справки Вы сможете застраховаться в другой компании с реальным коэффициентом.

    В заключении хочу отметить, что в связи со сложившейся практикой по определению КБМ. Некоторые недобросовестные агенты предлагают Вам оформить полис ОСАГО лишь на основании данных из предыдущего полиса. Соглашаясь с таким заманчивым предложением, Вы рискуете тем, что Ваш полис будет фальшивым.

    Дорожные камеры не видят ОСАГО – Авто – Коммерсантъ

    Российский союз автостраховщиков (РСА) почистил базу данных ОСАГО по требованию Госавтоинспекции. Ранее ведомство утверждало, что система содержит миллионы некорректных записей, из-за чего невозможно нормально проверять ОСАГО с помощью камер. В РСА говорят, что таких записей в действительности «единицы», но теперь их нет. ГИБДД должна будет протестировать обновленную базу данных страховщиков: в случае успешного тестирования новый вид фиксации нарушений наконец запустят, хотя обсуждается это уже третий год подряд. Ускорить работы не получилось даже после поручения правительства, сроки исполнения которого давно истекли.

    РСА направил в ГИБДД разъяснения по поводу сведений, содержащихся в базе данных АИС ОСАГО, рассказал “Ъ” директор Союза по информационным технологиям Алексей Самошин. «Мы провели проверку. Ошибки в базе данных были найдены, но их число некритично, их исправили»,— пояснил он “Ъ”.

    Возможность проверки «автогражданки» с помощью камер обсуждается с 2015 года, эксперимент планируется запустить в Москве. При этом даты запуска назывались минимум четыре раза. В конце 2018 года тема обсуждалась на заседании правительственной комиссии по безопасности движения, вице-премьер Максим Акимов дал МВД и РСА поручение разобраться с проблемой. Использование камер для контроля ОСАГО сопряжено с рядом проблем.

    В Москве каждый комплекс (а их 1,5 тыс.) фиксирует до 40 тыс. проездов машин в сутки: если делать столько же запросов в базу данных АИС ОСАГО и ГИБДД, то системы не выдержат. Была придумана многоступенчатая схема: РСА передает ГИБДД список действующих на конкретную дату полисов, ГИБДД привязывает их к номерам машин и передает получившийся реестр в столичный ЦОДД (обрабатывает постановления перед превращением их в «письма счастья»). Если выявляется машина, которая не пробивается по реестру, то проводится повторная проверка.

    Первая выгрузка данных из системы РСА произошла еще в конце 2018 года, она выявила множество ошибок, рассказывали источники “Ъ” в ГИБДД: нехватка символов в VIN-номерах, дубли полисов, отсутствие данных о номерах. Примерно 6 млн записей из 38 млн в АИС РСА Госавтоинспекция оценила как некорректные. Президент РСА Игорь Юргенс обещал исправить все ошибки к 1 марта.

    Алексей Самошин назвал заявления о нескольких миллионах ошибок некорректными. «Два полиса на одну и ту же машину — совершенно нормальная ситуация,— пояснил он “Ъ”.— К примеру, один человек продал другому машину, при этом старый полис продолжает действовать, а новый владелец оформил новую страховку». Также, по словам господина Самошина, «законной» является ситуация, когда в страховом полисе нет данных о госномере. «Гражданин, к примеру, купил новую машину в салоне без номера, оформил ОСАГО и в течение десяти дней зарегистрировал автомобиль в ГИБДД,— пояснил он.— Хоть по закону обязанность информировать страховщика об этом и лежит на автовладельце, но не предусмотрено никакого наказания за неисполнение этой нормы. Однако мы призываем клиентов в таких случаях вписывать номер в полис. Есть и другие идентификаторы кроме регистрационного знака, с которыми может работать ГИБДД, например VIN».

    По словам господина Самошина, РСА продолжит предоставлять Госавтоинспекции перечень всех действующих полисов.

    Более того, у РСА уже есть специальный сервис, через который ГИБДД может перепроверить актуальность информации.

    В ГИБДД в курсе, что РСА «почистил» базу, говорит источник “Ъ”, знакомый с ситуацией. «Сказать о качестве можно только после очередной проверки нового массива»,— говорит собеседник “Ъ”. Другой источник, знакомый с ходом переговоров, утверждает, что на данный момент ни ЦОДД ни ГИБДД «не перешли к активным действиям» по внедрению сервисов. Напомним, согласно поручению вице-премьера Максима Акимова, объединение баз данных РСА и МВД для проверки ОСАГО должно было произойти еще до 1 февраля, но поручение это выполнено не было.

    Иван Буранов


    КБМ не найден или Почему пропала скидка по ОСАГО

    На чтение 3 мин. Просмотров 19.1k. Опубликовано

    Проверяя свою скидку по ОСАГО, вы обнаруживаете, что скидки нет или она меньше, чем должна быть? Система проверки КБМ выдает ошибку «801 — КБМ не найден, возвращен стандартный класс»? Возможно, все проще, чем Вы думаете — может Вы были участником ДТП? Но если Вы все-таки уверены, что КБМ у Вас неправильный, ознакомьтесь с возможными причинами ошибки, которые изложены в этой статье.

    Вы неправильно проверяете свой КБМ

    Для начала убедитесь насколько верно Вы оцениваете свой потенциальный КБМ.

    • За каждый год безаварийной езды скидка увеличивается на 5%, а класс на один. Именно за ГОД! Если вы отъездили только полгода, скидки Вам не положено. Например, если Вы вписали супругу или друга в середине действия своего полиса.
    • Скидка действует в течение одного года после окончания полиса ОСАГО, а после этого она сгорает. Если Вы накопили хорошую скидку, а потом взяли перерыв в страховании больше года, то копить КБМ придется заново.
    • Максимальная скидка 50%, что соответствует 13 классу КБМ. Поэтому не удивляйтесь, если предыдущий класс 13, и следующий такой же.

    При самостоятельной проверке КБМ обратите внимание на дату запроса: она должна соответствовать дате начала действия нового полиса, и быть не раньше дня, следующего за днем окончания действия старого полиса. Также обратите внимание на серию и номер водительского удостоверения. Быть может Вы меняли права? Попробуйте вбить старый номер в/у (он указан в графе «Особые отметки» нового в/у).

    Вы внесены в несколько полисов ОСАГО

    Вспомните, есть ли у Вас друзья или родственники, которые вписывали Вас в свои страховки. Возможно, они не обратили внимание на размер КБМ, а агент не уделил должного внимания этому вопросу и сделал всем 3 класс (обнулил скидку). Теперь Вы в базе РСА с обнуленной скидкой. На странице проверки КБМ Вы можете посмотреть с какого полиса берется скидка.

    Дорогое ОСАГО? Восстанови КБМ сейчас

    и перестань уже переплачивать страховщикам!

    Сервис отправит заявку в РСА. Срок восстановления КБМ: от 12 часов. Узнать подробнее

    Ошибка данных в базе РСА

    Вы все проверили, но скидка так и не находится? Самая распространенная проблема заключена в том, что в базу РСА Ваши данные занесли с ошибкой. Например, в дате рождения, или в серии водительского удостоверения. Иногда (не часто), страховые специально делают незаметную ошибку (например в серии прав меняют «О» на ноль). Вы ведь не читали заявление, когда оформляли предыдущий полис? Скорее всего нет. И очень зря. Большинство исчезновений скидки происходит именно из-за ошибки в дате рождения. Она не прописывается в полисе ОСАГО и Вы не сможете ее обнаружить без помощи страховой компании (запросите у нее справку о безубыточности по этому полису, там будут все Ваши данные, по которым Вы занесены в базу РСА).

    Страховая не передала данные в базу РСА

    На самом деле, сейчас такое случается очень редко, потому что договоры ОСАГО заключаются на компьютере и данные сразу попадают в систему. Но если агент полис выписал вручную, он может случайно (но маловероятно) потерять свой экземпляр, не успев донести его до страховой компании. Есть еще вероятность, что Вы приобрели поддельный полис ОСАГО, поэтому и данные никуда не попали. Проверить свой полис Вы можете на странице Проверка полиса ОСАГО.

    Агент или менеджер специально скрывает Вашу скидку

    Естественно, сотрудникам страховой компании выгоднее продать Вам страховку подороже, чтобы получить увеличенную комиссию. Поэтому они пользуются финансовой безграмотностью клиентов и просто не ставят полагающуюся Вам скидку, ссылаясь на отсутствие связи с базой РСА.

    Что делать если КБМ обнулили

    Подробно об этом написано в статье «Как восстановить КБМ».

    Продлевай ОСАГО по лучшей цене!

    Как исправить Кбм ОСАГО в базе АИС РСА и восстановить скидку

    В предыдущей статье «Как правильно определить Кбм» мы рассмотрели законодательные аспекты применения коэффициента бонус-малус и особенности работы базы АИС РСА. Но часто наши пользователи сталкиваются с ситуацией, когда база выдает ошибку или коэффициент, которые не соответствует реальному положению дел. Страхователь в течение многих лет оформлял полисы ОСАГО, убытков по его вине не происходило, а значение Кбм либо равно единице, либо не соответствует количеству лет безубыточного страхования. Как же восстановить Кбм?


    Почему значение Кбм может быть не верным и какие шаги необходимо сделать, чтобы восстановить справедливость?

    Итак, рассмотрим причины возможных ошибок.

    Замена водительского удостоверения

    Первое, что нужно сделать, это проверить, не менялось ли водительское удостоверение за последние несколько лет. Так как данные о Кбм передаются на основании уже закончившихся полисов, в базе АИС РСА может быть запись о водителе со старыми правами. Если водительское удостоверение менялось, проверьте кбм, указав старые серию и номер прав. Серию и номер старых прав вы можете найти на обороте водительского удостоверения. Если ваша скидка по старым правам находится в базе, ее можно восстановить.

    Ошибка при вводе данных

    Как мы уже отмечали, страховая компания передает данные о водителях из своей базы данных, а вносят эту информацию в базу люди (операторы по вводу полисов). Тут может иметь место человеческий фактор – при вводе фамилии, имени, отчества или даты рождения водителя оператор мог допустить опечатку. Если хотя бы 1 буква или цифра в базе данных не совпадает с той информацией, которую вы вводите при обращении к АИС РСА, система вернет ошибку и ваша скидка пропадет.

    Управление несколькими автомобилями

    Водитель мог быть вписан в качестве лица, допущенного к управлению в несколько страховых полисов. При этом значение Кбм могло быть разным в каждом из этих полисов, так как до 01.01.2013 агент не обращался к единой базе для определения Кбм, а давал скидку на основании предыдущего полиса. Например: Иванов И. И. имеет собственный автомобиль, а также допущен к управлению автомобилем супруги, у которой стаж вождения равен 2 года. В своем полисе у него Кбм 0,5, в полисе супруги – 0,9 (так как страховая история супруги насчитывает всего 2 года, по количеству лет стажа). Если страховая компания передала данные по обоим полисам, значение Кбм для Иванова И. И. будет максимальным из двух, то есть 0,9.

    Банкротство страховой компании

    Страховая компания обанкротилась и не передала данные в систему АИС РСА. В этом случае в единой базе просто нет сведений о страховой истории водителя.

    Недобросовестный агент или сотрудник страховой компании

    По закону агент перед оформлением полиса должен в обязательном порядке проверить вашу скидку в базе РСА. Однако часто агент не делает этого, пользуясь неграмотностью клиента. Завышая Кбм, агент увеличивает стоимость полиса и тем самым зарабатывает больше. В этом случае в базу РСА передается кбм = 1, то есть так же, если бы страхователь оформлял полис впервые.

    Что же делать, чтобы не потерять накопленную скидку за безубыточное страхование и восстановить утраченный Кбм?

    До 1 июля 2014 страховщики могли использовать для определения значения Кбм «справку о безубыточности». П 35 правил ОСАГО гласит: «При досрочном прекращении или по окончании действия договора обязательного страхования страховщик предоставляет страхователю сведения о страховании по форме, установленной в соответствии с законодательством Российской Федерации. Сведения о страховании предоставляются страховщиком бесплатно в письменной форме в 5-дневный срок с даты соответствующего обращения страхователя и вносятся в автоматизированную систему страхования». Таким образом достаточно было обратиться в страховую компанию, где был оформлен последний полис ОСАГО, получить справку по форме № 4 и на ее основании оформить следующий полис ОСАГО. При очередной передаче данных о значении Кбм в систему АИС РСА Кбм обновлялся.

    С 1 июля 2014 года вступили в силу поправки в законодательство, которые не позволяют применять Кбм на основании справки о безубыточности, а именно:

    Подпункт «з» пункта 3 статьи 29 Федерального закона от 1 июля 2011 г. N 170-ФЗ «О техническом осмотре транспортных средств и о внесении изменений в отдельные законодательные акты Российской Федерации» (с изменениями и дополнениями) вносит изменения в Федеральный закон «Об обязательном страховании гражданской ответственности владельцев транспортных средств»

    з) дополнить пунктом 10.1 следующего содержания:

    «10.1. Заключение договора обязательного страхования без внесения сведений о страховании в автоматизированную информационную систему обязательного страхования, созданную в соответствии со статьей 30 настоящего Федерального закона, и проверки соответствия представленных страхователем сведений содержащейся в автоматизированной информационной системе обязательного страхования и в единой автоматизированной информационной системе технического осмотра информации не допускается.»;

    Таким образом, при оформлении полиса ОСАГО Страховщик в обязательном порядке должен проверить ваш Кбм по базе АИС РСА, а также проверить наличие действующего талона техосмотра в единой информационной системе ЕАИСТО. Без этого оформление полиса ОСАГО не допускается.

    Как восстановить кбм? Можно пойти 2 путями:

    Вариант 1.
    • Определите, в какой момент времени пропал ваш кбм. Для этого нужно сделать проверки Кбм на разные даты, и найти, какая страховая компания оформила ваш полис с неправильной скидкой.
    • Найдите и отсканируйте копии полисов с правильным значением кбм
    • Напишите жалобы в Центробанк, РСА, страховую компанию, в которой вы в настоящее время застрахованы. К жалобе приложите сканы полисов, на основании которых вы требуете пересчета скидки.
    • В течение месяца вашу жалобу должны рассмотреть и в зависимости от комплекта документов, которые вы направите вместе с жалобой принимается решение о восстановлении Кбм.
    Вариант 2
    • Проверьте кбм. В результатах проверки вы увидите кнопку «Не устраивает кбм? Восстановим». Наши специалисты сделают всю работу за вас, и в течение 1-5 дней ваш кбм будет восстановлен и вы сможете оформить полис ОСАГО с положенной скидкой или запросить возврат излишне уплаченной страховой премии в вашей страховой компании.

    Автолюбитель 73 » Архив блога Как внести изменения в базу данных РСА

    Dmitry | 19 апреля 2016‚ 19:28 |

    Как внести изменения в базу данных РСА

    Итак, водительское удостоверение получено. О предварительных этапах, непосредственно о получении водительского удостоверения возможно прочитать в записях «Замена водительских прав», «Новое водительское удостоверение и медицинская справка».

    Но если хотите сохранить коэффициент бонус-малус при получении очередного полиса ОСАГО, необходимо обратиться в страховую компанию после замены водительского удостоверения, чтобы внести в базу данных РСА серию, номер нового водительского удостоверения. В моём случае в базу данных также надо внести данные нового паспорта РФ.

    Если не заявить о новых данных до момента, как будете оформлять новый полис ОСАГО, потеряете скидку при оплате полиса. В свете подорожаний полисов в последнее время, думаю, скидка никому не помешает.

    Самое первое, поискал информацию на сайте страховой компании. Ничего не нашёл. Придётся ехать в офис страховой.

    Так случилось, что появилось время в первой половине рабочего дня. Приехал в офис. Ни одного посетителя. Пришлось поискать кабинет, где возможно получить консультацию по интересующему меня вопросу. Оказалось, что внесением данных в базу данных РСА занимается отдел продаж полисов ОСАГО.

    Предоставил менеджеру новый паспорт, водительское удостоверение, копию полиса ОСАГО, так как у меня электронный полис.

    Процедура заняла примерно 10 минут. Менеджер распечатала заявление о внесении изменений в базу данных, в котором надо поставить только подпись.

    Также мне оформили полис на фирменном бланке. Теперь нет необходимости объяснять сотрудникам ГИБДД, почему я предоставляю копию полиса, а не оригинальный бланк.

    Вся процедура совершенно бесплатная.

    Перед уходом ещё раз уточнил, сохранится ли у меня КБМ при оформлении электронного полиса на очередной год. На что получил утвердительный ответ.

    Но несмотря на утвердительный ответ, решил проверить сам по базе данных в личном кабинете. Проверил. Всё точно. Новые данные паспорта и водительского удостоверения занесены в базу данных.

    Ещё записи по теме:


    ПОДЕЛИТЕСЬ НАШЕЙ СТАТЬЕЙ С ДРУЗЬЯМИ


    Рубрика: Практические советы, Экономика и деньги | комментариев 6 »

    Как, где и когда следует использовать PCA | by Bartosz Szabłowski

    Давайте вычислим ковариационную матрицу для нашего набора данных:

     array ([[1.01010101, 0.97727597, -0.01747925, -0.04152546], 
    [0.97727597, 1.01010101, -0.039

    , -01716913] -0.039

    , 1.01010101, 0.87546278],
    [-0.04152546, -0.06169213, 0.87546278, 1.01010101]])

    3. Разложение по собственным значениям.

    · Собственные векторы ➞ направления PCA
    · Собственные значения ➞ важность направлений
    Ковариационная матрица симметрична, а собственные векторы симметричных матриц ортогональны.Таким образом, первый главный компонент объясняет большую часть дисперсии. Ортогонален ему второй главный компонент, который объясняет большую часть оставшейся дисперсии и так далее. Теперь пора выполнить разложение ковариационной матрицы.

     собственных значений: 
    [2,0243665 1,87865542 0,03358615 0,10379597]

    собственных векторов:
    [[-0,62202904 -0,33364184 -0,69970849 -0,11032236]
    [-0.6031103 -0,11032236]
    [-0.6031103 0,7013473343 0,67237343 0,67237343 0,67237343 0,67237343 0,67297343 0,67297343 0,6723737436 -0,6273703 0,67237343 0,6723734369859992]
    [-0,37974529 0,59558444 -0,05764294 0,70551399]]

    Мы получили вектор (собственные значения), состоящий из 4 собственных значений и матрицы 4 × 4, хранящей собственные векторы.

    4. Объяснение общей дисперсии.

    Цель PCA — уменьшить количество измерений. Мы сжимаем текущие функции в новые функции, которые являются собственными векторами (главными компонентами), содержащими наибольшее количество информации. Информация эквивалентна дисперсии. Собственные значения — это размер собственных векторов.Следовательно, их следует расположить в порядке убывания. Объясняемый процент дисперсии — это собственное значение, деленное на общую сумму всех собственных значений. Исходя из этого, мы можем вычислить процент объясненной дисперсии для каждого главного компонента нашего набора:

     [0,501, 0,465, 0,026, 0,008] 

    Как мы видим, сумма первых двух основных компонентов составляет более 95%. дисперсии.

    5. Преобразование признаков.

    Мы преобразуем наш 4-мерный набор данных в сжатый 2-мерный набор данных.Используя первые два собственных вектора, мы создадим матрицу проекции и будем использовать ее для перемещения нашего набора данных в подпространство, состоящее из двух измерений.

    Мы создаем пару кортежей собственных значений и собственных векторов, а затем сортируем их по убыванию собственных значений. Мы выбираем первые два собственных вектора, на которые приходится около 95% дисперсии. Мы создали матрицу проекции w , на которую перенесли наблюдения из набора данных. Наконец, мы визуализируем преобразованный набор данных.

    Визуализация работы PCA, изображение автора

    Приведенный выше пример демонстрирует алгоритм PCA [ 3 ]. Теперь перейдем к практическому применению.

    Мы больше не будем выполнять все шаги алгоритма PCA, мы будем использовать его реализацию в scikit-learn. Мы познакомимся с популярным набором данных iris и посмотрим, поможет ли PCA улучшить классификацию.

    Давайте загрузим данные и посмотрим первые 5 и последние 5 строк:

     + ----- + ----------- + ----------- + - ---------- + ----------- + ----------- + 
    | | sep_len | sep_wid | pet_len | pet_wid | виды |
    | ----- + ----------- + ----------- + ----------- + ------ ----- + ----------- |
    | 0 | 5.1 | 3.5 | 1.4 | 0,2 | сетоса |
    | 1 | 4.9 | 3 | 1.4 | 0,2 | сетоса |
    | 2 | 4.7 | 3.2 | 1.3 | 0,2 | сетоса |
    | 3 | 4.6 | 3.1 | 1.5 | 0,2 | сетоса |
    | 4 | 5 | 3.6 | 1.4 | 0,2 | сетоса |
    | 145 | 6,7 | 3 | 5.2 | 2.3 | вирджиника |
    | 146 | 6.3 | 2,5 | 5 | 1.9 | вирджиника |
    | 147 | 6.5 | 3 | 5.2 | 2 | вирджиника |
    | 148 | 6.2 | 3.4 | 5.4 | 2.3 | вирджиника |
    | 149 | 5,9 | 3 | 5.1 | 1.8 | вирджиника |
    + ----- + ----------- + ----------- + ----------- + ------ ----- + ----------- +

    Как видите, у нас есть четыре измерения, и каждому цветку присвоено название вида (вид в столбце). Всего цветов в базе 150. Давайте посчитаем базовую статистику для нашего набора данных:

     + ------- + ------------ + -------- ---- + ----------- + ------------ + 
    | | sep_len | sep_wid | pet_len | pet_wid |
    | ------- + ------------ + ------------ + ----------- + - ---------- |
    | счет | 150 | 150 | 150 | 150 |
    | означает | 5.84333 | 3.05733 | 3.758 | 1.19933 |
    | std | 0.828066 | 0.435866 | 1.7653 | 0.762238 |
    | мин | 4.3 | 2 | 1 | 0,1 |
    | 25% | 5.1 | 2,8 | 1.6 | 0,3 |
    | 50% | 5.8 | 3 | 4.35 | 1.3 |
    | 75% | 6.4 | 3.3 | 5.1 | 1.8 |
    | макс | 7,9 | 4.4 | 6,9 | 2,5 |
    + ------- + ------------ + ------------ + ----------- + - ---------- +
     virginica 50 
    setosa 50
    versicolor 50
    Имя: разновидности, dtype: int64

    Конечно, в реальном проекте Data Science на этом этапе наш анализ данных не должен заканчиваться, но в этой статье главный герой — PCA.Давайте попробуем визуализировать наши данные:

    Визуализация набора данных Iris, изображение автора

    · Избавление от «избыточных» данных (коррелированные переменные)

    Некоторые переменные несут схожую информацию. Посмотрим, так ли это в наших данных.

    Pairplot, Image by Author

    Как видите, некоторые переменные коррелируют друг с другом, в первую очередь длина лепестка и ширина лепестка. Оба они также коррелируют с длиной чашелистника. Наименее полезной кажется ширина чашелистника. Можно сделать вывод, что с помощью только одной переменной разделить классы несложно, еще проще разделить классы по парам переменных.Теперь давайте проверим корреляции:

    Коррелограмма набора данных радужки, изображение автора

    Наша предыдущая гипотеза подтвердилась, переменные длина чашелистика, длина лепестка и ширина лепестка сильно коррелированы друг с другом. В некоторых моделях машинного обучения коррелированные переменные ухудшают результат, поскольку они придают больший вес одному фрагменту информации. Пришло время применить PCA, но мы не сможем сделать это для всего набора данных, если позже построим модель для классификации видов. Если бы мы применили PCA ко всему набору данных, произошла бы утечка информации.Давайте создадим фрейм данных X, содержащий функции и вектор меток y, а затем разделим данные на обучающие и тестовые данные. Мы должны стандартизировать наш обучающий набор, как я писал ранее. Среднее значение будет равно 0 для каждой переменной, и данные будут в той же шкале — стандартное отклонение. После этой операции мы можем выполнить PCA на нашем наборе.

     В обучающей выборке 100 строк. 
    Тестовый набор состоит из 50 рядов.
    + ----- + -------------- + ------------- + ------------- - + -------------- +
    | | PC1 | PC2 | PC3 | PC4 |
    | ----- + -------------- + ------------- + ------------- - + -------------- |
    | PC1 | 1 | 6.45038e-17 | 2.13745e-17 | -4.80269e-17 |
    | PC2 | 6.45038e-17 | 1 | 6.07219e-17 | 1.28115e-17 |
    | PC3 | 2.13745e-17 | 6.07219e-17 | 1 | -5.57337e-17 |
    | PC4 | -4.80269e-17 | 1.28115e-17 | -5.57337e-17 | 1 |
    + ----- + -------------- + ------------- + ------------- - + -------------- +

    Как мы видим, переменные больше не коррелированы.

    · Группировка признаков (признаки представляют собой один фрагмент информации)

    В некотором смысле это продолжение предыдущего раздела, поскольку коррелированные переменные несут одну часть информации.PCA — это не алгоритм, который объединяет наблюдения в кластеры, но вместо этого он может определить, какие функции в наименьшей степени способствуют объяснению структуры компонентов. Давайте теперь создадим распределение функций по компонентам. Чем больше вклад исходного элемента в компонент, тем темнее его цвет на графике.

    Распределение функций по основным компонентам, изображение автора

    Отлично! Подтверждаем то, о чем вы читали ранее. Первый главный компонент был создан из коррелированных переменных.Второй главный компонент интересен тем, что мы не обнаружили значительной корреляции между длиной чашелистника и его шириной. Интересно.

    · Уменьшение размеров без значительной потери информации

    Объясненный график дисперсии показывает, сколько информации содержится в каждом основном компоненте. Мы можем использовать метод локтя, известный как выбор гиперпараметров в других моделях машинного обучения, чтобы выбрать подходящее количество компонентов. Еще одна форма визуализации — совокупный график.

    Объясненная дисперсия и Кумулятивная объясненная дисперсия, Изображение автора
     + ----------- + ---------------------- + - ----------------------------- + 
    | Компонент | Объясненное отклонение | Кумулятивная объясненная дисперсия |
    + ----------- + ---------------------- + ------------- ------------------ +
    | 1 | 0.712014337051845000 | 0.7120143370518450 |
    | 2 | 0.2396536428780 | 0.9516679799429029 |
    | 3 | 0.043160458797882550 | 0.9948284387407854 |
    | 4 | 0.0051715612521 | 1.0000000000000000 |
    + ----------- + ---------------------- + ------------- ------------------ +

    График показывает, что отклонение данных на 95% объясняется двумя компонентами.

    · Визуализация многомерных данных

    Мы живем в трехмерной реальности. Наш мозг очень хорошо это понимает. Однако все, что выходит за рамки трех измерений, нам обычно очень трудно представить.Используя методы уменьшения размерности, мы можем «сгладить» количество измерений нашего набора данных радужной оболочки глаза и визуализировать его в двухмерном пространстве. В следующем примере представлена ​​эта визуализация. Цвета точек на графике указывают на вид вида.

    Как мы видим, сетоса хорошо отделена от других классов. Virginica и Versicolor имеют нечеткую границу, которая при разделении этих классов может снизить точность, но я не ошибаюсь, глядя на это двумерное представление данных.

    · Часть процесса контролируемого обучения

    Мы можем с уверенностью сказать, что 4-я промышленная революция — это время данных, которые нас окружают. Мы можем использовать PCA для сжатия данных, сделав наши алгоритмы машинного обучения «быстрее» и уменьшив набор данных. Меньшее количество входных переменных может привести к более простой модели прогнозирования, которая может иметь лучшую производительность при прогнозировании новых данных. Пришло время обучить нашу модель на обучающем наборе и проверить ее возможности на тестовом наборе. Применим логистическую регрессию! Мы обучим модель на исходном наборе, последовательно на стандартизированном наборе и всех основных компонентах.

     + ------------------------ + ---------- + ----------- ------------------- + 
    | Модель | Точность | Время обучения (микросекунды) |
    + ------------------------ + ---------- + ------------ ------------------ +
    | немасштабированные данные | 1.0 | 48403 |
    | масштабированные данные | 0,98 | 8973 |
    | 4 основных компонента | 0,98 | 8977 |
    | 3 основных компонента | 0,98 | 8008 |
    | 2 основных компонента | 0.94 | 5985 |
    | 1 Основные компоненты | 0,92 | 5983 |
    + ------------------------ + ---------- + ------------ ------------------ +

    Набор данных Iris довольно мал по стандартам машинного обучения. Таким образом, разница в точности между 1,00 и 0,98 на тестовой выборке незначительна. Мы видим, что использование стандартизации оказывает большое влияние на время изучения модели. Если бы я внедрил модель в производство, это было бы 3 основных компонента, поскольку она уже имеет уменьшенную размерность, которая объясняет 0.99 дисперсии.

    В этой статье я обсуждал применение PCA для уменьшения размерности, визуализации многомерных данных и его использование в контролируемом обучении. Метод PCA может применяться только к числовым данным, как для анализа исходных данных, так и для уменьшения признаков (размеров). Это может помочь получить первые приблизительные очертания закономерностей, лежащих в основе данного явления. Он основан на корреляции, которая может вводить в заблуждение (помните: корреляция не подразумевает причинно-следственную связь!).Я надеюсь, что уменьшение размерности с помощью анализа главных компонентов теперь стало для вас более ясным. Другие используемые методы уменьшения размерности:
    · ICA
    · LLE
    · ISOMAP
    · t-SNE
    Если вы хотите что-то еще в этой статье, дайте мне знать, я отредактирую ее или вы хотите, чтобы я написал статью о конкретном алгоритме, дайте мне знать.

    [ 1 ] Дж. Джеймс, Д. Виттен, Т. Хасти, Р. Тибширани, Введение в статистическое обучение: с приложениями в R (2013)

    [ 2 ] A.Герон, Практическое машинное обучение с помощью Scikit ‑ Learn, Keras и TensorFlow (2017 г.), O’Reilly Media

    [ 3 ] С. Рашка, В. Мирджалили, Машинное обучение Python: машинное обучение и глубокое обучение с помощью Python , scikit-learn и TensorFlow 2, 2-е издание (2017 г.), Packt Publishing

    Полное руководство по анализу основных компонентов — PCA в машинном обучении | by Ashutosh Tripathi

    Пошаговое объяснение PCA с использованием python на примере

    Анализ главных компонентов или PCA — широко используемый метод для уменьшения размерности большого набора данных.Уменьшение количества компонентов или функций требует некоторой точности, а с другой стороны, оно делает большой набор данных более простым, легким для исследования и визуализации. Кроме того, это снижает вычислительную сложность модели, что ускоряет работу алгоритмов машинного обучения. Это всегда вопрос и спорный вопрос, насколько точностью жертвуют, чтобы получить менее сложный и уменьшенный набор данных размеров. у нас нет однозначного ответа на этот вопрос, однако мы стараемся сохранить большую часть дисперсии при выборе окончательного набора компонентов.

    В этой статье мы обсудим пошаговый подход к достижению уменьшения размерности с помощью PCA, а затем я также покажу, как все это можно сделать с помощью библиотеки Python.

    1. Стандартизируйте данные. (со средним значением = 0 и дисперсией = 1)
    2. Вычислите матрицу ковариации размеров.
    3. Получите собственные векторы и собственные значения из ковариационной матрицы (мы также можем использовать корреляционную матрицу или даже разложение по одному значению, однако в этом посте мы сосредоточимся на ковариационной матрице).
    4. Отсортируйте собственные значения в порядке убывания и выберите k верхних собственных векторов, которые соответствуют k наибольшим собственным значениям (k станет числом измерений подпространства новых признаков k≤d, d — числом исходных измерений).
    5. Постройте матрицу проекции W из выбранных k собственных векторов.
    6. Преобразуйте исходный набор данных X через W, чтобы получить новое k-мерное подпространство Y.

    Давайте импортируем некоторые из необходимых библиотек, а также набор данных Iris, который я буду использовать для подробного объяснения каждой точки.

     импортировать панды как pd 
    импортировать numpy как np
    импортировать matplotlib.pyplot как plt
    из sklearn.decomposition импортировать PCA
    из sklearn.preprocessing import standardScaler
    % matplotlib in Linef = pd.read_csv (filepath = 'https://www.pder.read_csv/https: //www.pd.read_csv/ ics.uci.edu/ml/machine-learning-databases/iris/iris.data ', header = None, sep =', ') df.columns = [' sepal_len ',' sepal_wid ',' petal_len ',' petal_wid ',' class '] print (df.isnull (). values.any ()) df.dropna (how = "all", inplace = True) # удаляет пустую строку в конце файла # if inplace = False, то мы необходимо назначить обратно в фрейм данных, поскольку это копия #df = df.some_operation (inplace = False) # Нет необходимости возвращать данные фрейму данных, когда inplace = True # df.some_operation (inplace = True) #Print Последние пять строк. df.tail ()

    Разделите столбец Target, который представляет собой значения столбца класса в массиве y, и остальные значения независимых функций в переменных массива X, как показано ниже.

     X = df.iloc [:, 0: 4] .values ​​
    y = df.iloc [:, 4] .values ​​

    Набор данных радужной оболочки теперь хранится в виде матрицы размером 150 × 4, где столбцы различные особенности, и каждая строка представляет отдельный образец цветка.Каждую пробную строку x можно изобразить как 4-мерный вектор, как мы можем видеть на приведенном выше снимке экрана с выходными значениями x.

    Теперь давайте разберемся по каждому пункту подробно.

    Когда для измерения значений характеристик используются разные шкалы, рекомендуется выполнить стандартизацию, чтобы привести все пространства функций со средним значением = 0 и дисперсией = 1.

    Причина, по которой стандартизация очень важна. Перед выполнением PCA необходимо, чтобы PCA очень чувствительно к отклонениям.Это означает, что если есть большие различия между масштабами (диапазонами) признаков, то объекты с более крупными масштабами будут преобладать над объектами с более мелкими масштабами.

    Например, объект в диапазоне от 0 до 100 будет преобладать над объектом, который находится в диапазоне от 0 до 1, и это приведет к смещенным результатам. Таким образом, преобразование данных в одинаковые масштабы предотвратит эту проблему. Вот где мы используем стандартизацию, чтобы привести функции со средним значением 0 и дисперсией 1.

    Итак, вот формула для расчета стандартизованного значения функций:

    В этой статье я использую набор данных Iris.Хотя все функции в наборе данных Iris измеряются в сантиметрах, я все же продолжу преобразование данных в единичную шкалу (среднее значение = 0 и дисперсия = 1), что является требованием для оптимальной производительности многих алгоритмов машинного обучения. . Кроме того, это поможет нам понять, как работает этот процесс.

     из sklearn.preprocessing import StandardScaler 
    X_std = StandardScaler (). Fit_transform (X)

    На выходном снимке экрана ниже вы видите, что все значения X_std стандартизированы в диапазоне от -1 до +1.

    Собственные векторы и собственные значения ковариационной (или корреляционной) матрицы представляют собой «ядро» PCA:

    • Собственные векторы (главные компоненты) определяют направления нового пространства признаков, а собственные значения определяют их величину.
    • Другими словами, собственные значения объясняют разброс данных по осям новых признаков. Это означает, что соответствующее собственное значение сообщает нам, какая дисперсия включена в эту новую преобразованную функцию.
    • Чтобы получить собственные значения и собственные векторы, нам нужно вычислить ковариационную матрицу.Итак, на следующем шаге давайте вычислим это.

    Классический подход к PCA заключается в выполнении разложения по собственным значениям ковариационной матрицы Σ, которая является матрицей d × d, где каждый элемент представляет ковариацию между двумя функциями. Обратите внимание: d — это количество исходных измерений набора данных. В наборе данных Iris у нас есть 4 характеристики, поэтому матрица ковариаций будет иметь порядок 4 × 4.

     #mean_vec = np.mean (X_std, axis = 0) 
    #cov_mat = (X_std - mean_vec) .T.dot ((X_std - mean_vec)) / (X_std.shape [0] -1)
    #print ('Матрица ковариации \ n% s'% cov_mat)
    print ('Матрица ковариации \ n')
    cov_mat = np.cov (X_std, rowvar = False)
    cov_mat

    Здесь если мы знаем концепции линейной алгебры и способы вычисления собственных векторов и собственных значений матрицы, то это будет очень полезно для понимания приведенных ниже концепций. Поэтому было бы целесообразно пройти через некоторые из основных концепций линейной алгебры, чтобы глубже понять, как все работает.

    Здесь я использую массив numpy для вычисления собственных векторов и собственных значений значений стандартизованного пространства функций следующим образом:

     cov_mat = np.cov (X_std.T) 
    eig_values, eig_vecs = np.linalg.eig (cov_mat)
    print ('Eigenvectors \ n% s'% eig_vecs)
    print ('\ nEigenvalues ​​\ n% s'% eig_val)

    As we знайте, что сумма квадрата каждого значения в собственном векторе равна 1. Итак, давайте посмотрим, выполняется ли оно, что означает, что мы правильно вычислили собственные векторы.

     sq_eig = [] для i в eig_vecs: sq_eig.append (i ** 2) 
    print (sq_eig)
    sum (sq_eig)
    print ("сумма квадратов каждого значения в собственном векторе равна \ n", 0,27287211 + 0.13862096 + 0.51986524 + 0.06864169)
    для ev в eig_vecs: np.testing.assert_array_almost_equal (1.0, np.linalg.norm (ev))
    • Типичная цель PCA — уменьшить размерность исходного пространства функций путем проецирования это на меньшее подпространство, где собственные векторы будут формировать оси.
    • Однако собственные векторы определяют только направления новой оси, поскольку все они имеют одинаковую единицу длины 1.

    Итак, теперь возникает вопрос, как выбрать новый набор основных компонентов.Основное правило состоит в том, что мы сортируем собственные значения в порядке убывания, а затем выбираем верхние k характеристик, относящиеся к верхним k собственным значениям.

    Идея здесь в том, что, выбирая top k, мы решили, что дисперсия, которая соответствует этим k пространствам признаков, достаточна для описания набора данных. И потеря оставшейся дисперсии тех невыбранных функций не приведет к значительным потерям в точности, или мы можем потерять такую ​​большую точность, которая стоит затрат из-за пренебрежения дисперсией.

    Итак, это решение, которое мы должны принять на основании поставленной задачи, а также на основе экономического обоснования.Не существует идеального правила, чтобы решить эту проблему.

    Теперь давайте определим Главные компоненты, выполнив следующие шаги:

    Чтобы решить, какой собственный вектор (ы) можно отбросить, не теряя слишком много информации для построения подпространства меньшей размерности, нам нужно проверить соответствующие собственные значения:

    • Собственные векторы с наименьшими собственными значениями несут наименьшую информацию о распределении данных; это те, которые можно отбросить.
    • Для этого общий подход заключается в ранжировании собственных значений от наивысшего к наименьшему, чтобы выбрать верхние k собственных векторов.
     # Составьте список кортежей (собственных значений, собственных векторов) 
    eig_pairs = [(np.abs (eig_val [i]), eig_vecs [:, i])
    for i in range (len (eig_val))]
    print (type (eig_pairs))
    # Сортировать кортежи (eigenvalue, eigenvector) от старшего к младшему eig_pairs.sort ()
    eig_pairs.reverse ()
    print ("\ n", eig_pairs)
    # Визуально подтвердить правильность списка отсортировано по убыванию собственных значений
    print ('\ n \ n \ nСобственные значения в порядке убывания:')
    для i в eig_pairs:
    print (i [0])
    • После сортировки собственных пар следующий вопрос: «сколько основных компоненты, которые мы собираемся выбрать для нашего нового подпространства функций? »
    • Полезной мерой является так называемая «объясненная дисперсия», которую можно вычислить по собственным значениям.
    • Объясненная дисперсия говорит нам, сколько информации (дисперсии) можно отнести к каждому из основных компонентов.
     tot = sum (eig_val) 
    print ("\ n", tot)
    var_exp = [(i / tot) * 100 для i в отсортированном (eig_val, reverse = True)] print ("\ n \ n1. Объяснение отклонения \ n ", var_exp)
    cum_var_exp = np.cumsum (var_exp)
    print (" \ n \ n2. Объяснение совокупной дисперсии \ n ", cum_var_exp) print (" \ n \ n3. Процент отклонения первых двух основных каждый компонент содержит \ n ", var_exp [0: 2])
    print (" \ n \ n4.Процент отклонения первых двух основных компонентов вместе содержит \ n ", sum (var_exp [0: 2]))
    • Матрица проекции будет использоваться для преобразования данных радужной оболочки в новое подпространство функций или мы говорим, что недавно преобразованный набор данных с уменьшенные размеры.
    • Это матрица наших сцепленных верхних k собственных векторов.

    Здесь мы сокращаем 4-мерное пространство признаков до 2-мерного подпространства признаков, выбирая «верхние 2» собственных вектора с наивысшими собственными значениями для построения нашей d × k-мерной матрицы собственных векторов W.

     print (eig_pairs [0] [1]) 
    print (eig_pairs [1] [1])
    matrix_w = np.hstack ((eig_pairs [0] [1] .reshape (4,1), eig_pairs [1]] [1] .reshape (4,1)))
    #hstack: Объединяет массивы последовательно по горизонтали (по столбцам). print ('Matrix W: \ n', matrix_w)

    На этом последнем шаге мы будем использовать матрицу проекции W размером 4 × 2 для преобразования наших выборок в новое подпространство с помощью уравнения Y = X × W, где Выходная матрица Y будет матрицей 150 × 2 наших преобразованных выборок.

     Y = X_std.dot (matrix_w) 
    PrincipalDf = pd.DataFrame (data = Y, columns = ['основной компонент 1', 'основной компонент 2'])
    PrincipalDf.head ()

    Теперь давайте объединим переменную целевого класса, которую мы разделили в самое начало поста.

     finalDf = pd.concat ([PrincipalDf, pd.DataFrame (y, columns = ['sizes'])], axis = 1) 
    finalDf.head ()

    Используйте проекцию PCA на 2d для визуализации всех данных установленный. Вы должны нарисовать разные классы, используя разные цвета или формы.Классы должны быть хорошо отделены друг от друга.

     fig = plt.figure (figsize = (8,5)) 
    ax = fig.add_subplot (1,1,1)
    ax.set_xlabel ('Главный компонент 1', fontsize = 15) ax.set_ylabel ('Principal Компонент 2 ', fontsize = 15) ax.set_title (' 2 Component PCA ', fontsize = 20)
    target = [' Iris-setosa ',' Iris-versicolor ',' Iris-virginica '] colors = [' r ' , 'g', 'b']
    для цели, цвет в zip (цели, цвета):
    indexToKeep = finalDf ['разновидности'] == target ax.scatter (finalDf.loc [indexToKeep, 'основной компонент 1'], finalDf.loc [indexToKeep, 'основной компонент 2'], c = color, s = 50) ax.legend (цели) ax.grid ()

    В качестве альтернативы, есть прямые библиотеки на Python, которые вычисляют основные компоненты напрямую и не требуют выполнения всех вышеперечисленных вычислений. Вышеупомянутые шаги должны были дать вам представление о том, как все работает.

     pca = PCA (n_components = 2) 
    # Здесь мы также можем указать процент в качестве параметра функции PCA как pca = PCA (.95). .95 означает, что мы хотим включить 95% дисперсии. Следовательно, PCA вернет количество компонентов, которые описывают 95% дисперсии. Однако из приведенных выше вычислений мы знаем, что 2 компонентов достаточно, поэтому мы передали 2 компонента .principalComponents = pca.fit_transform (X_std)
    PrincipalDf = pd.DataFrame (data = PrincipalComponents, columns = ['main component 1', 'main component 2 ']) PrincipalDf.head (5) # выводит верхние 5 строк
     finalDf = pd.concat ([PrincipalDf, finalDf [[' sizes ']]], axis = 1) finalDf.head (5) 

    Вместе первые два основных компонента содержат 95,80% информации. Первый главный компонент содержит 72,77% дисперсии, а второй главный компонент содержит 23,03% дисперсии. Третий и четвертый основные компоненты содержали остальную дисперсию набора данных.

    Вот и все об анализе главных компонентов. В следующем посте я напишу, как PCA ускоряет алгоритмы машинного обучения, и проведу сравнительный анализ с PCA и без него.

    Надеюсь, это дало вам хорошее понимание концепции PCA. Пожалуйста, поделитесь своими мыслями / идеями, используя раздел комментариев ниже. Вы также можете связаться со мной, используя ссылку для связи.

    Первоначально опубликовано по адресу http://ashutoshtripathi.com 11 июля 2019 г.

    Анализ основных компонентов неполных данных — простое решение старой проблемы

    https://doi.org/10.1016 /j.ecoinf.2021.101235Получить права и контент

    Основные

    Стандартный алгоритм PCA изменен для учета неполных данных.

    Метод позволяет получать оценки ординации для переменных и наблюдений одновременно.

    Информация максимально исчерпана, при этом вменение данных не требуется.

    Переменные, которые логически невозможны для определенных наблюдений, разрешены.

    Имеет значение количество переменных, а не процент неизвестных оценок.

    Abstract

    Давняя проблема анализа биологических данных — это непреднамеренное отсутствие значений для некоторых наблюдений или переменных, что препятствует использованию стандартных многомерных исследовательских методов, таких как анализ главных компонент (PCA).Решения включают удаление частей данных, из-за которых информация теряется, вменение данных, которое всегда является произвольным, и ограничение анализа либо переменными, либо наблюдениями, тем самым теряя преимущества двух диаграмм. Мы описываем небольшую модификацию PCA на основе собственного анализа, в которой корреляции или ковариации вычисляются с использованием разного количества наблюдений для каждой пары переменных, а полученные собственные значения и собственные векторы используются для вычисления оценок компонентов, так что пропущенные значения пропускаются.Эта процедура позволяет избежать искусственного вменения данных, исчерпывает всю информацию из данных и позволяет подготовить двумерные графики для одновременного отображения ординации переменных и наблюдений. Использование модифицированного PCA, называемого InDaPCA (PCA неполных данных), продемонстрировано на реальных биологических примерах: функциональные признаки листьев растений, функциональные признаки беспозвоночных, морфометрия черепа крокодилов и данные гибридизации рыб — с биологически значимыми результатами. Наше исследование показывает, что значение имеет не процент пропущенных записей в матрице данных; На успех InDaPCA в основном влияет минимальное количество наблюдений, доступных для сравнения данной пары переменных.Однако в настоящем исследовании не было препятствий для интерпретации результатов в пространстве первых двух компонентов.

    Ключевые слова

    Биплот

    Корреляция

    Функциональный признак

    Отсутствующие данные

    Морфометрия

    Порядок

    Сокращения

    InDaPCA

    Анализ основных компонентов

    Парные корреляции

    0003 © 2021 Автор (ы).Опубликовано Elsevier B.V.

    Рекомендуемые статьи

    Цитирующие статьи

    Руководство по анализу основных компонентов (PCA) для машинного обучения

    Узнайте больше о PCA для машинного обучения в этом кратком руководстве.

    Анализ главных компонентов (PCA) — один из наиболее часто используемых алгоритмов неконтролируемого машинного обучения в различных приложениях: исследовательский анализ данных, уменьшение размерности, сжатие информации, уменьшение шума данных и многое другое!

    Создайте бесплатную учетную запись и попробуйте себя в PCA.

    Интуиция, лежащая в основе PCA

    Давайте лучше разберемся в PCA, прежде чем углубляться в его внутреннюю работу. Представьте, что у нас есть двухмерный набор данных. Каждое измерение может быть представлено в виде столбца характеристик:

    Мы можем представить тот же набор данных в виде диаграммы рассеяния:

    Основная цель PCA — найти такие основные компоненты, которые могут описывать точки данных с помощью набора … ну , основные компоненты.

    Главные компоненты — это векторы, но они не выбраны случайным образом.Первый главный компонент вычисляется таким образом, чтобы объяснить наибольшую разницу в исходных характеристиках. Второй компонент , ортогонален первому, и он объясняет наибольшую величину отклонения, оставшуюся после после первого главного компонента.

    Исходные данные могут быть представлены как векторы признаков. PCA позволяет нам пойти дальше и представить данные в виде линейных комбинаций основных компонентов. Получение главных компонентов эквивалентно линейному преобразованию данных из оси feature1 x feature2 в ось PCA1 x PCA2.

    Почему это полезно?

    В небольшом двумерном примере, приведенном выше, мы не особо выиграем от использования PCA, поскольку вектор признаков формы (feature1, feature2) будет очень похож на вектор формы (первый главный компонент (PCA1), второй главный компонент (PCA2)). Но в очень больших наборах данных (где количество измерений может превышать 100 различных переменных) основных компонентов устраняют шум, сокращая большое количество функций до пары основных компонентов .Главные компоненты — это ортогональные проекции данных на пространство меньшей размерности.

    Теоретически PCA производит такое же количество главных компонентов, какое имеется в обучающем наборе данных. Однако на практике мы не сохраняем все основные компоненты. Каждый последующий главный компонент объясняет дисперсию, которая остается после его предыдущего компонента, поэтому выбор лишь нескольких из первых компонентов в достаточной степени приближает исходный набор данных без необходимости в дополнительных функциях.

    Результатом является новый набор функций в виде основных компонентов, которые имеют множество практических приложений.

    2. Для чего используется PCA?

    Алгоритм может использоваться сам по себе, или он может служить в качестве метода очистки или предварительной обработки данных, используемого перед другим алгоритмом машинного обучения.

    Сам по себе PCA используется в различных сценариях использования:

    1. Визуализировать многомерные данные . Визуализация данных — отличный инструмент для передачи многомерных данных в виде 2- или 3-мерных графиков.
    2. Сжать информацию . Анализ основных компонентов используется для сжатия информации для более эффективного хранения и передачи данных. Например, его можно использовать для сжатия изображений без потери качества или при обработке сигналов. Этот метод успешно применяется для решения широкого круга задач сжатия при распознавании образов (в частности, распознавании лиц), распознавании изображений и т. Д.
    3. Упростите сложные бизнес-решения . PCA используется для упрощения традиционно сложных бизнес-решений.Например, трейдеры используют более 300 финансовых инструментов для управления портфелями. Алгоритм оказался успешным в управлении рисками портфелей процентных деривативов, снизив количество финансовых инструментов с более чем 300 до всего лишь 3-4 основных компонентов.
    4. Разъяснить запутанные научные процессы . Алгоритм широко применяется для понимания запутанных и разнонаправленных факторов, которые увеличивают вероятность запуска нейронных ансамблей потенциалов действия.

    Когда PCA используется как часть предварительной обработки, алгоритм применяется к:

    1. Уменьшите количество измерений в наборе обучающих данных.
    2. De-noise data. Поскольку PCA вычисляется путем нахождения компонентов, которые объясняют наибольшую дисперсию, он улавливает сигнал в данных и пропускает шум.

    Давайте посмотрим, как вычисляется анализ главных компонентов.

    3.Как рассчитывается PCA?

    Существует несколько способов вычисления PCA:

    1. Собственное разложение ковариационной матрицы
    2. Разложение по сингулярным значениям матрицы данных
    3. Аппроксимация собственных значений посредством итерационного вычисления мощности
    4. Нелинейное итерационное вычисление частичных наименьших квадратов (NIPALS)
    5. … и более.

    Давайте подробнее рассмотрим первый метод — собственное разложение ковариационной матрицы — чтобы лучше понять PCA.Вычисление PCA состоит из нескольких этапов:

    1. Стандартизация функций . Мы стандартизируем каждую функцию, чтобы иметь среднее значение 0 и дисперсию 1. Как мы объясним позже в допущениях и ограничениях, функции со значениями, которые находятся на разных порядках величины, не позволяют PCA вычислять лучшие основные компоненты.
    2. Получить расчет ковариационной матрицы . Ковариационная матрица представляет собой квадратную матрицу с размерами d x d , где d означает «размер» (или признак или столбец, если наши данные являются табличными).Он показывает попарную корреляцию признаков между каждым признаком.
    3. Вычислить собственное разложение ковариационной матрицы . Мы вычисляем собственные векторы (единичные векторы) и связанные с ними собственные значения (скаляры, на которые мы умножаем собственный вектор) ковариационной матрицы. Если вы хотите освежить свою линейную алгебру, это хороший ресурс, чтобы освежить свои знания о собственном разложении.
    4. Отсортируйте собственные векторы от самого высокого собственного значения до самого низкого .Собственный вектор с наивысшим собственным значением является первым главным компонентом. Более высокие собственные значения соответствуют большему количеству объясненной общей дисперсии.
    5. Выберите количество основных компонентов . Выберите верхние N собственных векторов (на основе их собственных значений), чтобы они стали N главными компонентами. Оптимальное количество основных компонентов субъективно и зависит от проблемы. Обычно мы смотрим на совокупную величину общей дисперсии, объясняемую комбинацией основных компонентов, и выбираем то количество компонентов, которое по-прежнему в значительной степени объясняет общую дисперсию.

    Имейте в виду, что большинство специалистов по данным не будут вычислять PCA вручную, а скорее будут реализовывать его на Python с помощью ScikitLearn или использовать R для его вычисления. Эти математические основы обогащают наше понимание PCA, но не являются необходимыми для его реализации. Понимание PCA позволяет нам лучше понять его преимущества и недостатки.

    4. Каковы преимущества и недостатки PCA?

    PCA обладает множеством преимуществ, но также страдает некоторыми недостатками.

    Преимущества PCA:

    1. Простота вычислений . PCA основан на линейной алгебре, которую легко решить с помощью компьютеров.
    2. Ускоряет другие алгоритмы машинного обучения . Алгоритмы машинного обучения сходятся быстрее при обучении на основных компонентах, а не на исходном наборе данных.
    3. Противодействует проблемам с данными большой размерности . Данные высокой размерности приводят к тому, что алгоритмы, основанные на регрессии, легко перестраиваются.Заранее используя PCA для уменьшения размеров обучающего набора данных, мы предотвращаем переоснащение алгоритмов прогнозирования.

    Недостатки PCA:

    1. Низкая интерпретируемость основных компонентов . Основные компоненты — это линейные комбинации характеристик из исходных данных, но их не так легко интерпретировать. Например, после вычисления основных компонентов трудно сказать, какие функции являются наиболее важными в наборе данных.
    2. Компромисс между потерей информации и уменьшением размерности . Хотя уменьшение размерности полезно, за это приходится платить. Потеря информации — необходимая часть PCA. К сожалению, баланс между уменьшением размерности и потерей информации является необходимым компромиссом, на который мы должны пойти при использовании PCA.

    5. Каковы допущения и ограничения PCA?

    PCA относится к набору операций в корреляции Пирсона, поэтому наследует аналогичные предположения и ограничения:

    1. PCA предполагает корреляцию между функциями .Если элементы (или измерения, или столбцы в табличных данных) не коррелированы, PCA не сможет определить основные компоненты.
    2. PCA чувствителен к масштабу элементов . Представьте, что у нас есть две функции: одна принимает значения от 0 до 1000, а другая принимает значения от 0 до 1. PCA будет чрезвычайно склонен к тому, чтобы первая функция была первым основным компонентом, независимо от фактического максимального отклонения в данных. . Вот почему так важно сначала стандартизировать ценности.
    3. PCA не устойчив к выбросам . Как и в предыдущем пункте, алгоритм будет смещен в наборах данных с сильными выбросами. Вот почему рекомендуется удалить выбросы перед выполнением PCA.
    4. PCA предполагает линейную зависимость между элементами . Алгоритм не подходит для фиксации нелинейных отношений. Вот почему рекомендуется преобразовывать нелинейные объекты или отношения между объектами в линейные, используя стандартные методы, такие как логарифмическое преобразование.
    5. Технические реализации часто предполагают отсутствие пропущенных значений . При вычислении PCA с использованием статистических программных средств они часто предполагают, что набор функций не имеет пропущенных значений (пустых строк). Обязательно удалите эти строки и / или столбцы с пропущенными значениями или вменяйте отсутствующие значения с близким приближением (например, средним значением столбца).

    6. PCA на практике

    Способы использования PCA на практике зависят от того, насколько вы знаете обо всем процессе обработки и анализа данных.

    Мы рекомендуем новичкам начинать с моделирования данных на наборах данных, которые уже были собраны и очищены, в то время как опытные специалисты по данным могут масштабировать свои операции, выбирая подходящее программное обеспечение для поставленной задачи.

    6.1 Проекты для начинающих для опробования анализа главных компонентов

    Бесчисленные многомерные наборы данных можно использовать для опробования PCA на практике. Среди лучших из них:

    1. Предварительная обработка рентгеновских снимков и передача данных в другие алгоритмы машинного обучения, чтобы предсказать, есть ли у пациента пневмония.
    2. Избавьтесь от шума нерелевантных функций, чтобы создать лучший набор тренировочных данных для прогнозирования результатов футбольных матчей.
    3. Прогнозирование цен на биткойны. Используйте исходный набор данных Биткойн для вычисления обычных торговых показателей, а затем примените PCA для повышения производительности вашего алгоритма прогнозирования.

    6.2 Производственное программное обеспечение для передовой науки о данных

    Наука о производственных данных означает, что более 80% вашего времени тратится на сбор и очистку данных.Если вы хотите ускорить весь конвейер данных, используйте программное обеспечение, которое автоматизирует задачи, чтобы дать вам больше времени для моделирования данных.

    Keboola предлагает платформу для специалистов по данным, которые хотят создавать свои собственные модели машинного обучения. Он поставляется с блокнотами Jupyter, развертываемыми одним щелчком мыши, с помощью которых все моделирование может выполняться с использованием Julia, R или Python.

    Погрузитесь в процесс обработки данных с помощью Keboola:

    1. Соберите необходимые данные.
    2. Изучите и очистите данные, чтобы обнаружить закономерности.
    3. Предварительно обработайте данные с помощью PCA.
    4. Обучите свою модель машинного обучения.
    5. Оцените модель с помощью различных показателей.

    Хотите сделать еще один шаг вперед? Keboola может помочь вам использовать весь конвейер операций с данными.

    Будучи платформой, ориентированной на данные, Keboola также позволяет создавать собственные конвейеры ETL и согласовывать задачи, чтобы подготовить данные для алгоритмов машинного обучения. Вы можете развернуть несколько моделей с разными алгоритмами, чтобы модифицировать свою работу и сравнить, какие из них работают лучше всего.Начните создавать модели сегодня, создав бесплатную учетную запись

    Использование анализа главных компонентов (PCA) для проводника данных. Шаг за шагом

    Когда мы работаем с машинным обучением для анализа данных, мы часто сталкиваемся с огромными наборами данных, которые обладают сотнями или тысячами различных функций или переменных. Как следствие, размер пространства переменных значительно увеличивается, что затрудняет анализ данных для получения выводов.Для решения этой проблемы удобно уменьшить количество переменных таким образом, чтобы с меньшим количеством переменных мы по-прежнему могли охватить большую часть информации, необходимой для анализа данных.

    Простой способ уменьшить размерность пространства переменных — это применить некоторые методы матричной факторизации. Математические методы факторизации матриц имеют множество приложений в различных задачах, связанных с искусственным интеллектом, поскольку уменьшение размерности является сутью познания.

    В этой статье мы показываем на некоторых игрушечных примерах, как использовать методы матричной факторизации для анализа многомерных наборов данных, чтобы получить из них некоторые выводы, которые могут помочь нам принимать решения. В частности, мы объясняем, как использовать метод анализа главных компонентов (PCA) для уменьшения размерности пространства переменных.

    В этой статье рассматриваются основные концепции PCA и то, как этот метод может быть применен в качестве полезного инструмента для анализа многомерных данных.Тем не менее, мы хотели бы подчеркнуть, что в этой статье мы не собираемся строго разрабатывать математические методы, используемые для PCA. Предполагается, что читатели должны понимать все концепции и процедуры, связанные с этим методом.

    Что такое анализ главных компонентов (PCA)?

    Анализ главных компонентов (PCA) — это статистическая процедура, в которой используется ортогональное преобразование для преобразования набора наблюдений возможно коррелированных переменных в набор значений линейно некоррелированных переменных, называемых главными компонентами (или иногда, главными модами вариации).

    PCA используется почти во всех научных дисциплинах и, вероятно, представляет собой самый популярный метод многомерной статистики. PCA применяется к таблице данных, представляющей наблюдения, описанные несколькими зависимыми переменными, которые, как правило, взаимосвязаны. Цель состоит в том, чтобы извлечь соответствующую информацию из таблицы данных и выразить эту информацию в виде набора новых ортогональных переменных. PCA также представляет образец сходства в наблюдениях и переменных, отображая их в виде точек на картах (см. Ссылки Jolliffe I.T., Jackson J.E, Saporta G, Niang N. для получения более подробной информации).

    Количество главных компонентов меньше или равно количеству исходных переменных или количеству наблюдений. Это преобразование определяется таким образом, что первый главный компонент имеет наибольшую возможную дисперсию (т. Е. Учитывает как можно большую вариативность данных), а каждый последующий компонент, в свою очередь, имеет наивысшую возможную дисперсию при ограничении что он ортогонален предыдущим компонентам.Результирующие векторы образуют некоррелированный ортогональный базисный набор (подробнее см. Ссылку)

    PCA в основном используется в качестве инструмента для исследовательского анализа данных и для создания прогнозных моделей. PCA может выполняться путем разложения по собственным значениям ковариационной (или корреляционной) матрицы данных или разложения по сингулярным значениям матрицы данных, обычно после центрирования по среднему (и нормализации или использования Z-показателей) матрицы данных для каждого атрибута (см. Ссылку Abdi. H ., И Уильямс, Л.Дж.). Результаты PCA обычно обсуждаются в терминах оценок компонентов, иногда называемых факторными оценками (преобразованные значения переменных, соответствующих конкретной точке данных), и нагрузок (вес, на который следует умножить каждую стандартизованную исходную переменную, чтобы получить оценку компонента. ) (см. ссылку Шоу П.J.A. )

    Вкратце можно сказать, что PCA является самым простым из многомерного анализа на основе собственных векторов, и его часто используют в качестве метода для выявления внутренней структуры данных таким образом, чтобы лучше всего объясняла их дисперсию. Ниже приведены некоторые цели метода PCA:

    • Уменьшение размерности.
    • Определение линейных комбинаций переменных.
    • Выбор характеристик или свойств: выбор наиболее полезных переменных.
    • Визуализация многомерных данных.
    • Идентификация основных переменных.
    • Идентификация групп объектов или выбросов.

    Теперь на игрушечном примере мы подробно и шаг за шагом опишем, как сделать PCA. После этого мы покажем, как использовать библиотеку [scikit -learn] в качестве ярлыка для той же процедуры анализа данных.

    Подготовка набора данных Iris в качестве первого примера

    Об Ирис

    В следующем примере мы будем работать со знаменитым набором данных Iris, который был размещен в репозитории машинного обучения UCI (https: // archive.ics.uci.edu/ml/datasets/Iris).

    Набор данных ириса содержит измерения для 150 цветков ириса трех разных видов.

    Три класса в наборе данных Iris:

    • Ирис сетоса (n = 50)
    • Ирис разноцветный (n = 50)
    • Ирис виргинский (n = 50)

    И четыре характеристики в наборе данных Iris:

    • Длина чашелистика в см
    • Ширина чашелистника, см
    • длина лепестка в см
    • ширина лепестка в см

    Краткое изложение подхода PCA

    • Стандартизируйте данные.
    • Получите собственные векторы и собственные значения из ковариационной матрицы или корреляционной матрицы.
    • Отсортируйте собственные значения в порядке убывания и выберите $ k $ собственных векторов, которые соответствуют $ k $ наибольшим собственным значениям, где $ k $ — количество измерений подпространства новых признаков ($ k \ le d $).
    • Постройте матрицу проекции $ \ mathbf {W} $ из выбранных $ k $ собственных векторов.
    • Преобразуйте исходный набор данных $ \ mathbf {X} $ с помощью $ \ mathbf {W} $, чтобы получить $ k $ -мерное подпространство признаков $ \ mathbf {Y} $.

    Загрузка набора данных

    Чтобы загрузить данные Iris непосредственно из репозитория UCI, мы собираемся использовать превосходную библиотеку pandas. Если вы еще не использовали pandas, я хочу посоветовать вам ознакомиться с руководствами по pandas. Если бы мне пришлось назвать одну библиотеку Python, которая делает работу с данными удивительно простой задачей, это определенно были бы pandas!

      импорт панд как pd
    df = pd.read_csv (
        filepath_or_buffer = 'https: //archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.данные',
        заголовок = Нет,
        sep = ',')
    
    df.columns = ['sepal_len', 'sepal_wid', 'petal_len', 'petal_wid', 'класс']
    df.dropna (how = "all", inplace = True) # удаляет пустую строку в конце файла
    
    df.tail ()  

    Разделить таблицу данных на данные X и метки классов y

      X = df.ix [:, 0: 4] .values
    y = df.ix [:, 4] .values ​​ 

    Наш набор данных по радужной оболочке теперь хранится в форме матрицы размером $ 150 \ times 4 $, в которой столбцы представляют собой различные характеристики, а каждая строка представляет собой отдельный образец цветка.T} = \ begin {pmatrix} x_1 \ newline x_2 \ newline x_3 \ newline x_4 \ end {pmatrix} = \ begin {pmatrix} \ text {длина чашелистика} \ newline \ text {ширина чашелистика} \ newline \ text {длина лепестка} \ newline \ text {ширина лепестка} \ end {pmatrix} $

    Исследовательская визуализация

    Чтобы получить представление о том, как 3 разных класса цветов распределены по 4 различным объектам, позвольте нам визуализировать их с помощью гистограмм.

      из matplotlib import pyplot as plt
    импортировать numpy как np
    импортная математика
    
    label_dict = {1: 'Ирис-Сетоса',
                  2: 'Ирис-разноцветный',
                  3: 'Iris-Virgnica'}
    
    feature_dict = {0: 'длина чашелистика [см]',
                    1: 'ширина чашелистника [см]',
                    2: 'длина лепестка [см]',
                    3: 'ширина лепестка [см]'}
    
    с plt.style.context ('seaborn-whitegrid'):
        plt.figure (figsize = (8, 6))
        для cnt в диапазоне (4):
            plt.subplot (2, 2, cnt + 1)
            для лаборатории в ('Iris-setosa', 'Iris-versicolor', 'Iris-virginica'):
                plt.hist (X [y == lab, cnt],
                         label = lab,
                         бункеры = 10,
                         альфа = 0,3,)
            plt.xlabel (feature_dict [cnt])
        plt.legend (loc = 'верхний правый', fancybox = True, fontsize = 8)
    
        plt.tight_layout ()
        plt.savefig ('PREDI.png', format = 'png', dpi = 1200)
        plt.показать ()  

    Стандартизация данных

    Следует ли стандартизировать данные до PCA по ковариационной матрице, зависит от шкалы измерений исходных функций. Поскольку PCA дает подпространство признаков, которое максимизирует дисперсию по осям, имеет смысл стандартизировать данные, особенно если они были измерены в разных масштабах. Хотя все функции в наборе данных Iris были измерены в сантиметрах, давайте продолжим преобразование данных в единичную шкалу (среднее значение = 0 и дисперсия = 1), что является требованием для оптимальной производительности многих алгоритмов машинного обучения.Для стандартизации данных мы можем использовать библиотеку scikit learn.

      из sklearn.preprocessing import StandardScaler
    X_std = StandardScaler (). Fit_transform (X)  

    1 — Собственное разложение — Вычисление собственных векторов и собственных значений

    Собственные векторы и собственные значения ковариационной (или корреляционной) матрицы представляют собой «ядро» PCA: собственные векторы (главные компоненты) определяют направления нового пространства признаков, а собственные значения определяют их величину.n x_ {i}. $

    Вектор среднего — это $ d $ -мерный вектор, где каждое значение в этом векторе представляет собой выборочное среднее значение столбца признаков в наборе данных.

    с номером:

      импортировать numpy как np
    mean_vec = np.mean (X_std, ось = 0)
    cov_mat = (X_std - mean_vec) .T.dot ((X_std - mean_vec)) / (X_std.shape [0] -1)
    print ('Матрица ковариации \ n% s'% cov_mat)
    
    Ковариационная матрица
    [[1,00671141 -0,11010327 0,87760486 0,82344326]
     [-0,11010327 1,00671141 -0,42333835 -0,358937]
     [0.87760486 -0,42333835 1,00671141 0,965]
     [0,82344326 -0,358937 0,965 1,00671141]]  

    Более подробный способ, приведенный выше, был просто использован для демонстрационных целей, эквивалентно, мы могли бы использовать функцию numpy cov:

      print ('Ковариационная матрица NumPy: \ n% s'% np.cov (X_std.T))  

    Затем мы выполняем собственное разложение ковариационной матрицы:

      cov_mat = np.cov (X_std.T)
    eig_val, eig_vecs = np.linalg.eig (cov_mat)
    
    print ('Собственные векторы \ n% s'% eig_vecs)
    print ('\ nСобственные значения \ n% s'% eig_val)
    
    Собственные векторы
    [[0.52237162 -0,37231836 -0,72101681 0,26199559]
     [-0,26335492 -0,649 0,24203288 -0,12413481]
     [0,58125401 -0,02109478 0,14089226 -0,80115427]
     [0,56561105 -0,06541577 0,6338014 0,52354627]]
    
    Собственные значения
    [2,

    378 0,362 0,14834223 0,02074601]

    Корреляционная матрица

    В частности, в области «Финансы» корреляционная матрица обычно используется вместо ковариационной матрицы. Однако собственное разложение ковариационной матрицы (если входные данные были стандартизированы) дает те же результаты, что и собственное разложение корреляционной матрицы, поскольку корреляционная матрица может пониматься как нормализованная ковариационная матрица.

    Собственное разложение стандартизованных данных на основе корреляционной матрицы:

      cor_mat1 = np.corrcoef (X_std.T)
    
    eig_val, eig_vecs = np.linalg.eig (cor_mat1)
    
    Print ('Собственные векторы \ n% s'% eig_vecs)
    print ('\ nСобственные значения \ n% s'% eig_val)
    
    Собственные векторы
    [[0,52237162 -0,37231836 -0,72101681 0,26199559]
     [-0,26335492 -0,649 0,24203288 -0,12413481]
     [0,58125401 -0,02109478 0,14089226 -0,80115427]
     [0,56561105 -0,06541577 0,6338014 0,52354627]]
    
    Собственные значения
    [2.808 0,093 0,14735328 0,02060771]  

    Собственное разложение исходных данных на основе корреляционной матрицы:

      cor_mat2 = np.corrcoef (X.T)
    eig_val, eig_vecs = np.linalg.eig (cor_mat2)
    
    print ('Собственные векторы \ n% s'% eig_vecs)
    print ('\ nСобственные значения \ n% s'% eig_val)
    
    Собственные векторы
    [[0,52237162 -0,37231836 -0,72101681 0,26199559]
     [-0,26335492 -0,649 0,24203288 -0,12413481]
     [0,58125401 -0,02109478 0,14089226 -0,80115427]
     [0,56561105 -0,06541577 0.6338014 0,52354627]]
    
    Собственные значения
    [2,808 0,093 0,14735328 0,02060771]  

    Мы можем ясно видеть, что все три подхода приводят к одним и тем же собственным векторам и парам собственных значений:

    • Собственное разложение ковариационной матрицы после стандартизации данных.
    • Собственное разложение корреляционной матрицы.
    • Собственное разложение корреляционной матрицы после стандартизации данных.

    2 — Выбор основных компонентов

    Сортировка собственных пар

    Типичная цель PCA — уменьшить размерность исходного пространства признаков за счет его проецирования на меньшее подпространство, где собственные векторы будут формировать оси.Однако собственные векторы определяют только направления новой оси, поскольку все они имеют одинаковую единицу длины 1, что может быть подтверждено следующими двумя строками кода:

      для ev в eig_vecs:
        np.testing.assert_array_almost_equal (1.0, np.linalg.norm (ev))
    print ('Все в порядке!')  

    Все ок!

    Чтобы решить, какой собственный вектор (ы) можно отбросить, не теряя слишком много информации для построения подпространства меньшей размерности нам необходимо проверить соответствующие собственные значения: собственные векторы с наименьшими собственными значениями несут наименьшую информацию о распределении данных; это те, которые можно отбросить.

    Обычный подход заключается в ранжировании собственных значений от наибольшего к наименьшему, чтобы выбрать верхние $ k $ собственных векторов.

      # Составьте список кортежей (собственное значение, собственный вектор)
    eig_pairs = [(np.abs (eig_val [i]), eig_vecs [:, i]) для i в диапазоне (len (eig_val))]
    
    # Сортировать кортежи (собственное значение, собственный вектор) от большего к меньшему
    eig_pairs.sort (ключ = лямбда x: x [0], обратный = True)
    
    # Визуально подтверждаем, что список правильно отсортирован по уменьшению собственных значений
    print ('Собственные значения в порядке убывания:')
    для i в eig_pairs:
        print (i [0])  

    Собственные значения в порядке убывания:

    • 2.808375
    • 0,0930707
    • 0,147353278305
    • 0,0206077072356

    Объясненное отклонение

    После сортировки собственных пар возникает следующий вопрос: «Сколько главных компонентов мы собираемся выбрать для нашего нового подпространства функций?» Полезной мерой является так называемая «объясненная дисперсия», которую можно вычислить по собственным значениям. Объясненная дисперсия говорит нам, сколько информации (дисперсии) можно отнести к каждому из основных компонентов.

      tot = сумма (eig_val)
    var_exp = [(i / tot) * 100 для i в отсортированном (eig_val, reverse = True)]
    cum_var_exp = np.cumsum (var_exp)  

    , затем

      с plt.style.context ('seaborn-whitegrid'):
        plt.figure (figsize = (6, 4))
    
        plt.bar (диапазон (4), var_exp, alpha = 0.5, align = 'center',
                label = 'индивидуальное объясненное отклонение')
        plt.step (диапазон (4), cum_var_exp, где = 'mid',
                 label = 'кумулятивная объясненная дисперсия')
        plt.ylabel ('Коэффициент объясненной дисперсии')
        plt.xlabel ('Основные компоненты')
        plt.legend (loc = 'лучший')
        plt.tight_layout ()
    plt.savefig ('PREDI2.png', format = 'png', dpi = 1200)
    plt.show ()  

    График выше ясно показывает, что большая часть дисперсии (72,77% дисперсии, если быть точным) может быть объяснена только первым главным компонентом. Второй главный компонент все еще несет некоторую информацию (23,03%), в то время как третий и четвертый основные компоненты можно безопасно отбросить, не теряя слишком много информации.Вместе первые два основных компонента содержат 95,8% информации.

    Матрица проекции

    Пришло время перейти к действительно интересной части: построению матрицы проекции, которая будет использоваться для преобразования данных Iris в новое подпространство функций. Несмотря на то, что в названии «матрица проекции» есть приятное звучание, в основном это просто матрица наших объединенных верхних собственных векторов k .

    Здесь мы сокращаем 4-мерное пространство признаков до 2-мерного подпространства признаков, выбирая "два верхних" собственных вектора с наивысшими собственными значениями для построения нашей $ d \ times k $ -мерной матрицы собственных векторов $ \ mathbf {W } $.

      matrix_w = np.hstack ((eig_pairs [0] [1] .reshape (4,1),
                          eig_pairs [1] [1] .reshape (4,1)))
    print ('Матрица W: \ n', matrix_w)  

      Матрица W:
       [[0,52237162 -0,37231836]
       [-0,26335492 -0,649]
       [0,58125401 -0,02109478]
       [0,56561105 -0,06541577]]  

    3 - Проекция в пространство новых функций

    На этом последнем шаге мы будем использовать $ 4 \ times 2 $ -мерную матрицу проекции $ \ mathbf {W} $ для преобразования наших выборок в новое подпространство с помощью уравнения
    $ \ mathbf {Y} = \ mathbf {X} \ times \ mathbf {W} $, где $ \ mathbf {Y} $ - это матрица размером $ 150 \ times 2 $ наших преобразованных выборок.

      Y = X_std.dot (матрица_w)
    
    с plt.style.context ('seaborn-whitegrid'):
        plt.figure (figsize = (6, 4))
        для лаборатории, col in zip (('Iris-setosa', 'Iris-versicolor', 'Iris-virginica'),
                            ('синий', 'красный', 'зеленый')):
            plt.scatter (Y [y == lab, 0],
                        Д [y == lab, 1],
                        label = lab,
                        c = col)
        plt.xlabel ('Основной компонент 1')
        plt.ylabel ("Основной компонент 2")
        plt.legend (loc = 'нижний центр')
        plt.tight_layout ()
        plt.show ()  

    , тогда мы получаем следующий график

    На этом графике мы идентифицировали каждый вид разным цветом для облегчения наблюдения. Здесь мы можем увидеть, как метод разделяет разные виды цветов и как использование PCA позволяет идентифицировать структуру данных.

    В образовательных целях и для того, чтобы показать пошагово всю процедуру, мы прошли долгий путь, чтобы применить PCA к набору данных Iris. Однако, к счастью, уже существует реализация, в которой с помощью нескольких строк кода мы можем реализовать ту же процедуру, используя scikit-learn, который представляет собой простые и эффективные инструменты для интеллектуального анализа данных и анализа данных.

      из sklearn.decomposition импорт PCA как sklearnPCA
    sklearn_pca = sklearnPCA (n_components = 2)
    Y_sklearn = sklearn_pca.fit_transform (X_std)
    
    с plt.style.context ('seaborn-whitegrid'):
        plt.figure (figsize = (8, 6))
        для лаборатории, col in zip (('Iris-setosa', 'Iris-versicolor', 'Iris-virginica'),
                            ('синий', 'красный', 'зеленый')):
            plt.scatter (Y_sklearn [y == lab, 0],
                        Y_sklearn [y == lab, 1],
                        label = lab,
                        c = col)
        plt.xlabel ('Основной компонент 1')
        plt.ylabel ("Основной компонент 2")
        plt.legend (loc = 'нижний центр')
        plt.tight_layout ()
        plt.savefig ('PREDI3.png', format = 'png', dpi = 1200)
        plt.show ()  

    Еще один пример

    Наконец, чтобы проиллюстрировать использование PCA, мы приводим еще один пример. В этом случае мы показываем результаты, но не предлагаем детали расчетов, так как этапы расчета были подробно объяснены в предыдущем примере.Цель этого примера - зафиксировать концепции метода PCA.

    Предположим, что у нас есть средняя оценка, которую 1000 респондентов сделали для семи марок автомобилей по трем характеристикам. Для простоты мы рассмотрим несколько переменных (только три), чтобы зафиксировать некоторые концепции; однако в реальном исследовании мы можем рассмотреть десять или двадцать характеристик, поскольку PCA имеет преимущества, когда размер анализируемого набора данных очень велик.

    В следующей таблице показаны средние значения, которые респонденты присвоили каждому из брендов по трем рассматриваемым характеристикам:

    После применения процедуры PCA к набору данных мы получаем это представление в новом пространстве (Comp1, Comp.2):

    Основной результат отражен на графике баллов на приведенном выше рисунке, где мы представили наблюдения или бренды на осях, образованных первыми двумя основными компонентами (Comp.1 и Comp.2). Облако отдельных точек центрировано в начале координат, чтобы облегчить анализ данных. Все точки переменных могут быть расположены на одной стороне Comp1., Как в этом случае, то есть Comp.1> 0. Это происходит потому, что характеристики рассматриваемых переменных положительно коррелированы, и когда индивидуум (бренды) получает высокую Значения одной характеристики высоки и у других.

    Помните, что главные компоненты - это искусственные переменные, которые были получены как линейные комбинации из характеристик, рассмотренных в исследовании, так что каждый бренд (отдельные лица) принимает значение в этом новом пространстве, которое состоит из проекции исходных переменных.

    Чтобы интерпретировать результаты, мы можем провести следующий анализ:

    В первом квадранте (см. Метку I на рисунке выше) мы отмечаем, что все значения Comp.1 принимают только положительные значения.Таким образом, Комп.1 квадранта I отличается элегантностью и комфортом, тогда как Комп. 2 отличается высокой мощностью. Тогда марка F, расположенная в этом квадранте II, имеет три изученных характеристики, и в этом смысле она будет лучшей маркой (обратите внимание на направление стрелок).

    В четвертом квадранте (IV) значения Comp.1 больше 0; следовательно, размещенный на нем бренд (E) характеризуется элегантностью и комфортом, но не мощностью, поскольку в этом квадранте все значения Comp.2 принимают отрицательные значения.

    В третьем квадранте (III) находятся как C, так и D, которые похожи, но не характеризуются ни одной из этих переменных. Поскольку они принимают очень низкие значения по всем рассматриваемым характеристикам, они являются худшими брендами.

    Во втором квадранте (II) бренд А характеризуется высокой мощностью, но не элегантностью или комфортом. Это связано с тем, что проекция A на Comp.2> 0, а его проекция на Comp1 <0.

    Наконец, после анализа PCA мы можем сделать вывод, что лучшей автомобильной маркой является F, второй лучшей автомобильной маркой является E и третьей лучшей маркой является A.Остальные бренды худшие, по мнению респондентов.

    Резюме:

    В этой статье мы представили краткое введение в методы матричной факторизации для уменьшения размерности многомерных наборов данных. В частности, мы описали основные этапы и основные концепции анализа данных с помощью анализа главных компонентов (PCA). Мы показали универсальность метода PCA на двух примерах из разных контекстов и описали, как можно интерпретировать результаты применения этого метода.

    В APSL мы рассматриваем анализ данных как фундаментальную часть бизнеса. Работая над одними и теми же проектами, дизайнеры, программисты, специалисты по обработке данных и разработчики понимают, что каждый проект рассматривается как единое целое, а не как отдельные части. Аналитик данных получает все данные в соответствующем формате, а системы, участвующие в этих задачах, настроены на поглощение нагрузки в записи всей информации.

    Если вам нужна дополнительная информация о том, что мы делаем или о наших знаниях в области обработки данных и о том, как мы можем помочь в ваших проектах, не стесняйтесь обращаться к нам.

    Номер ссылки

    1. Jolliffe I.T. Анализ главных компонентов. Нью-Йорк: Спрингер; 2002.

    2. Джексон Дж. Э. Руководство пользователя по основным компонентам. Нью-Йорк: John Wiley & Sons; 1991.

    3. Сапорта Г., Нианг Н. Анализ главных компонентов: приложение для статистического управления процессами. В: Govaert G, ed. Анализ данных. Лондон: John Wiley & Sons; 2009, 1-23.

    4. Abdi. Х. и Уильямс Л.Дж. (2010). "Анализ главных компонентов". Междисциплинарные обзоры Wiley: вычислительная статистика. 2 (4): 433–459. DOI: 10.1002 / wics.101.

    5. Шоу П.Дж.А. (2003) Многомерная статистика для наук об окружающей среде, Ходдер-Арнольд. ISBN 0-340-80763-6.

    обзор и последние разработки

    (a) Анализ главных компонентов как исследовательский инструмент для анализа данных

    Стандартный контекст для PCA как исследовательского инструмента анализа данных включает набор данных с наблюдениями на p числовых переменных для каждой из n юридических или физических лиц.Эти значения данных определяют p Вектор x j наблюдений за j -й переменной. Ищем линейную комбинацию столбцов матрицы X с максимальной дисперсией. Такие линейные комбинации задаются формулой, где a - вектор констант a 1 , a 2 ,…, a p .Дисперсия любой такой линейной комбинации определяется как var ( X a ) = a ' S a , где S - это выборочная ковариационная матрица, связанная с набором данных, а' обозначает транспонирование. Следовательно, определение линейной комбинации с максимальной дисперсией эквивалентно получению p -мерного вектора a , который максимизирует квадратичную форму a ' S a . Чтобы эта проблема имела четко определенное решение, необходимо наложить дополнительное ограничение, и наиболее распространенное ограничение связано с работой с векторами единичной нормы, т.е.е. требуя a a = 1. Задача эквивалентна максимизации a S a - λ ( a a −1), где λ - множитель Лагранжа. Дифференцирование относительно вектора a и приравнивание к нулевому вектору дает уравнение

    2,1

    Таким образом, a должен быть (единичная норма) собственным вектором, а λ - соответствующим собственным значением ковариационной матрицы S .В частности, нас интересует наибольшее собственное значение , λ 1 (и соответствующий собственный вектор a 1 ), поскольку собственные значения представляют собой дисперсии линейных комбинаций, определяемых соответствующим собственным вектором a : var ( X a ) = a S a = λ a a = λ . Уравнение (2.1) остается в силе, если собственные векторы умножаются на -1, и поэтому знаки всех нагрузок (и оценок) являются произвольными, и только их относительные величины и образцы знаков имеют смысл.

    Любая p × p вещественная симметричная матрица, такая как ковариационная матрица S , имеет ровно p действительных собственных значений, λ k ( k = 1,…, p ), и их соответствующие собственные векторы могут быть определены для формирования ортонормированного набора векторов, то есть a k a k = 1, если k = k ′ и ноль иначе. Подход с использованием множителей Лагранжа с дополнительными ограничениями на ортогональность различных векторов коэффициентов также можно использовать, чтобы показать, что полный набор собственных векторов S является решением проблемы получения до p новых линейных комбинаций, которые последовательно увеличивайте дисперсию с учетом некоррелированности с предыдущими линейными комбинациями [4].Некоррелированность возникает из-за того, что ковариация между двумя такими линейными комбинациями, X a k и X a k , определяется как a k S a k = λ k a k a k = 0, если k ′ ≠ k .

    Именно эти линейные комбинации X a k называются основными компонентами набора данных, хотя некоторые авторы сбивают с толку также термин `` главные компоненты '', когда ссылаются на собственные векторы a к . В стандартной терминологии PCA элементы собственных векторов a k обычно называются загрузками ПК , тогда как элементы линейных комбинаций X a k называются ПК . набирает , так как это значения, которые каждый человек мог бы получить на данном ПК.

    В стандартном подходе принято определять ПК как линейные комбинации центрированных переменных x * j , с общим элементом, где обозначает среднее значение наблюдений по переменной j . Это соглашение не меняет решения (кроме центрирования), поскольку ковариационная матрица набора центрированных или нецентрированных переменных одинакова, но имеет то преимущество, что обеспечивает прямую связь с альтернативным, более геометрическим подходом к PCA.

    Обозначив X * матрицу n × p , столбцы которой являются центрированными переменными x * j , мы имеем

    2,2

    Уравнение (2.2) связывает собственное разложение ковариационной матрицы S с разложением по сингулярным значениям матрицы данных с центром по столбцам X *. Любая произвольная матрица Y размерности n × p и ранга r (обязательно) может быть записана (например,грамм. [4]) как

    2.3

    где U , A - это матрицы n × r и p × r с ортонормированными столбцами ( U U = I r = A A , с I r единичная матрица r × r ) и L представляет собой диагональную матрицу r × r . Столбцы A называются правыми сингулярными векторами Y и являются собственными векторами матрицы p × p Y Y , связанной с ее ненулевыми собственными значениями.Столбцы U называются левыми сингулярными векторами Y и являются собственными векторами матрицы n × n Y Y ′, которые соответствуют ее ненулевым собственным значениям. Диагональные элементы матрицы L называются сингулярными значениями Y и являются неотрицательными квадратными корнями из (общих) ненулевых собственных значений как матрицы Y Y , так и матрицы Y Y ′. Мы предполагаем, что диагональные элементы L расположены в порядке убывания, и это однозначно определяет порядок столбцов U и A (за исключением случая одинаковых сингулярных значений [4]).Следовательно, принимая Y = X *, правые сингулярные векторы матрицы данных с центрированием по столбцам X * являются векторами a k загрузок ПК. Из-за ортогональности столбцов A , столбцы матричного продукта X * A = ULA A = UL являются ПК X *. Дисперсии этих ПК представлены квадратами сингулярных значений X *, деленных на n -1.Эквивалентно, учитывая (2.2) и указанные выше свойства,

    2,4

    , где L 2 - диагональная матрица с возведенными в квадрат сингулярными значениями (т. Е. Собственными значениями ( n −1) S ). Уравнение (2.4) дает спектральное разложение или собственное разложение матрицы ( n -1) S . Следовательно, PCA эквивалентен SVD матрицы данных с центром по столбцам X *.

    Свойства SVD предполагают интересные геометрические интерпретации PCA.Для любого ранга r матрица Y размером n × p , матрица Y q того же размера, но ранга q < r , элементы которой минимизируют сумма квадратов разностей с соответствующими элементами Y дается [7] как

    2,5

    где L q - это диагональная матрица q × q с первым (наибольшим) q диагональные элементы L и U q , A q - это матрицы n × q и p × q , полученные путем сохранения соответствующих столбцов q в U и A .

    В нашем контексте n строк ранга r столбцовой матрицы данных X * определяют диаграмму рассеяния n точек в r -мерном подпространстве, с центром в центре силы тяжести диаграммы рассеяния. Приведенный выше результат подразумевает, что `` наилучшее '' приближение n точек к этой диаграмме рассеяния в подпространстве размерности q дается строками X * q , определенными как в уравнении (2 .5), где «лучший» означает, что сумма квадратов расстояний между соответствующими точками на каждой диаграмме рассеяния минимизирована, как в оригинальном подходе Пирсона [1]. Система осей q в этом представлении задается первыми ПК q и определяет главное подпространство . Следовательно, PCA - это, по сути, метод уменьшения размерности, посредством которого набор исходных переменных может быть заменен оптимальным набором производных переменных , ПК.Когда q = 2 или q = 3, возможна графическая аппроксимация диаграммы рассеяния n точек, которая часто используется для начального визуального представления полного набора данных. Важно отметить, что этот результат является инкрементным (следовательно, адаптивным) по своим размерам в том смысле, что лучшее подпространство размерности q +1 получается путем добавления дополнительного столбца координат к тем, которые определяли наилучшие q -мерное решение.

    Качество любой аппроксимации размеров q можно измерить по изменчивости, связанной с набором сохраненных ПК.Фактически, сумма дисперсий исходных переменных p является следом (суммой диагональных элементов) ковариационной матрицы S . Используя результаты простой теории матриц, легко показать, что это значение также является суммой дисперсий всех p ПК. Следовательно, стандартной мерой качества данного ПК является доля от общей дисперсии , которую он составляет,

    2,6

    где tr ( S ) обозначает след S .Инкрементальный характер ПК также означает, что мы можем говорить о доле общей дисперсии, объясняемой набором ПК (обычно, но не обязательно, первые q ПК), которая часто выражается как процентов общей дисперсии. приходилось: .

    Обычной практикой является использование некоторого предопределенного процента от общей дисперсии, объясненного, чтобы решить, сколько ПК следует сохранить (70% общей изменчивости является общей, если субъективной, точкой отсечения), хотя требования графического представления часто приводят к к использованию только первых двух или трех ПК.Даже в таких ситуациях процент от общей учтенной дисперсии является фундаментальным инструментом для оценки качества этих низкоразмерных графических представлений набора данных. Акцент в PCA почти всегда делается на первых нескольких ПК, но есть обстоятельства, при которых последние несколько могут представлять интерес, например, при обнаружении выбросов [4] или некоторых приложениях анализа изображений (см. §3c).

    ПК

    также могут быть предложены как оптимальное решение множества других проблем. Критерии оптимальности для PCA подробно обсуждаются в многочисленных источниках (см., Среди прочего, [4,8,9]).МакКейб [10] использует некоторые из этих критериев для выбора оптимальных подмножеств исходных переменных, которые он называет основных переменных . Это другая, более сложная в вычислительном отношении проблема [11].

    (b) Пример: данные по ископаемым зубам

    PCA был применен и признан полезным во многих дисциплинах. Два примера, рассмотренные здесь и в § 3b, очень различаются по своей природе. В первом изучается набор данных, состоящий из девяти измерений 88 ископаемых зубов раннего насекомоядного млекопитающего Kuehneotherium, а второй, в § 3b, взят из атмосферных наук.

    Kuehneotherium - одно из самых ранних млекопитающих, останки которого были обнаружены во время добычи известняка в Южном Уэльсе, Великобритания [12]. Кости и зубы были вымыты в трещины в скале около 200 миллионов лет назад, и все нижние коренные зубы, использованные в этом анализе, взяты из одной трещины. Однако казалось возможным, что в образце присутствовали зубы более чем одного вида Kuehneotherium.

    Из девяти переменных три измеряют длину зуба, а остальные шесть измеряют высоту и ширину.PCA был выполнен с использованием команды prcomp статистической программы R [13]. На первые два ПК приходится 78,8% и 16,7%, соответственно, от общего разброса в наборе данных, поэтому двумерная диаграмма рассеяния для 88 зубов, представленная на рисунке, является очень хорошим приближением к исходной диаграмме рассеяния для девяти зубов. пространственное пространство. Это, по определению, лучший двумерный график данных с сохранением дисперсии, представляющий более 95% общей вариации. Все загрузки на первом ПК имеют один и тот же знак, поэтому это средневзвешенное значение всех переменных, представляющее «общий размер».В России большие зубы находятся слева, а маленькие - справа. Второй ПК имеет отрицательные нагрузки для трех переменных длины и положительные нагрузки для других шести переменных, что представляет собой аспект «формы» зубов. Окаменелости в верхней части имеют меньшую длину по сравнению с их высотой и шириной, чем в нижней части. Относительно компактный кластер точек в нижней половине, как полагают, соответствует виду Kuehneotherium, в то время как более широкая группа вверху не может быть отнесена к Kuehneotherium, а к некоторым родственным, но еще не идентифицированным животным.

    Двумерное главное подпространство для данных ископаемых зубов. Координаты на одном или обоих компьютерах могут переключаться между знаками при использовании другого программного обеспечения.

    (c) Некоторые ключевые вопросы

    (i) Анализ главных компонентов ковариационной и корреляционной матрицы

    До сих пор ПК были представлены как линейные комбинации (центрированных) исходных переменных. Однако свойства PCA имеют некоторые нежелательные особенности, когда эти переменные имеют разные единицы измерения.Хотя со строго математической точки зрения нет ничего принципиально неправильного в линейных комбинациях переменных с разными единицами измерения (их использование широко распространено, например, в линейной регрессии), тот факт, что PCA определяется критерием (дисперсия ), который зависит от единиц измерения, подразумевает, что ПК, основанные на ковариационной матрице S , изменятся, если единицы измерения одной или нескольких переменных изменятся (если только не все Переменные p претерпевают общее изменение масштаба , и в этом случае новая ковариационная матрица является просто скалярным кратным старой, следовательно, с теми же собственными векторами и той же долей общей дисперсии, объясняемой каждым ПК).Чтобы преодолеть эту нежелательную особенность, обычно начинают со стандартизации переменных. Каждое значение данных x ij центрируется и делится на стандартное отклонение s j наблюдений n переменной j ,

    2,7

    Таким образом, матрица исходных данных X заменяется стандартизированной матрицей данных Z , чей столбец j -й столбец представляет собой вектор z j со стандартизованными наблюдениями переменной n . j (2.7). Стандартизация полезна, потому что большинство изменений масштаба - это линейные преобразования данных, которые используют один и тот же набор стандартизованных значений данных.

    Поскольку ковариационная матрица стандартизованного набора данных является просто корреляционной матрицей R исходного набора данных, PCA стандартизированных данных также известен как PCA корреляционной матрицы. Собственные векторы a k корреляционной матрицы R определяют некоррелированные линейные комбинации максимальной дисперсии стандартизованных переменных z 1 ,…, z p .Такие ПК корреляционной матрицы не идентичны и не связаны напрямую с ПК ковариационной матрицы , определенными ранее. Кроме того, процентная дисперсия, приходящаяся на каждый ПК, будет отличаться, и довольно часто требуется больше ПК корреляционной матрицы, чем ПК ковариационной матрицы, чтобы учесть тот же процент общей дисперсии. След корреляционной матрицы R - это просто число p переменных, используемых в анализе, следовательно, доля общей дисперсии, приходящаяся на любую корреляционную матрицу PC, представляет собой просто дисперсию этого PC, деленную на p .Подход SVD также применим в этом контексте. Поскольку ( n -1) R = Z Z , SVD стандартизованной матрицы данных Z составляет корреляционную матрицу PCA набора данных в соответствии с линиями, описанными после уравнения (2.2).

    ПК с корреляционной матрицей инвариантны к линейным изменениям единиц измерения и, следовательно, являются подходящим выбором для наборов данных, где для каждой переменной возможны различные изменения масштаба.Некоторое статистическое программное обеспечение по умолчанию предполагает, что PCA означает PCA корреляционной матрицы и, в некоторых случаях, нормализация, используемая для векторов нагрузок a k ПК с корреляционной матрицей, не является стандартной a k a k = 1. В корреляционной матрице PCA коэффициент корреляции между j -й переменной и k -й PC равен (см. [4])

    2.8

    Таким образом, если нормализация используется вместо a k a = 1, коэффициенты новых векторов нагрузки являются корреляциями между каждой исходной переменной и k -м ПК.

    В данных по ископаемым зубам в § 2b все девять измерений даны в одних и тех же единицах, поэтому ковариационная матрица PCA имеет смысл. Корреляционная матрица PCA дает аналогичные результаты, поскольку дисперсии исходной переменной не сильно различаются.На первые две корреляционные матрицы ПК приходится 93,7% общей дисперсии. Для других наборов данных различия могут быть более существенными.

    (ii) Биплоты

    Одним из наиболее информативных графических представлений многомерного набора данных является двухпозиционный график [14], который фундаментально связан с SVD соответствующей матрицы данных и, следовательно, с PCA. Ранг q приближение X * q полной матрицы данных с центрированием по столбцам X *, определенной формулой (2.5), записывается как X * q = GH ′, где G = U q и H = A q L q (хотя возможны и другие варианты, см. [4]). n строк g i матрицы G определяют графические маркеры для каждого человека, которые обычно представлены точками. p строки h j матрицы H определяют маркеры для каждой переменной и обычно представлены векторами.Свойства двумерного графика лучше всего обсуждать, предполагая, что q = p , хотя двунаправленный график определяется на приближении низкого ранга (обычно q = 2), что позволяет графическое представление маркеров. Когда q = p двумерный график имеет следующие свойства:

    • - Косинус угла между любыми двумя векторами, представляющими переменные, является коэффициентом корреляции между этими переменными; это прямой результат того факта, что матрица внутренних продуктов между этими маркерами имеет вид HH ′ = AL 2 A ′ = ( n −1) S (2.4), так что скалярные произведения между векторами пропорциональны ковариациям (дисперсиям для общего вектора).

    • - Точно так же косинус угла между любым вектором, представляющим переменную, и осью, представляющей данный ПК, является коэффициентом корреляции между этими двумя переменными.

    • - Внутреннее произведение между маркерами для индивидуального i и переменной j дает (центрированное) значение индивидуального i по переменной j .Это прямой результат того факта, что GH ′ = X *. Практическое значение этого результата состоит в том, что ортогональное проецирование точки, представляющей индивидуальный i , на вектор, представляющий переменную j , восстанавливает (центрированное) значение.

    • - Евклидово расстояние между маркерами для индивидов i и i ′ пропорционально расстоянию Махаланобиса между ними (подробнее см. [4]).

    Как указано выше, эти результаты являются точными только в том случае, если используются все размеры q = p .Для q < p результаты являются лишь приблизительными, и общее качество таких приближений можно измерить процентным соотношением дисперсии, объясненной ПК с наибольшей дисперсией q , которые использовались для построения матриц маркеров G и H .

    дает график корреляционной матрицы PCA данных ископаемых зубов из § 2b. Маркеры переменных отображаются в виде стрелок, а маркеры зубов - в виде чисел. Группа из трех почти горизонтальных и очень тесно связанных переменных маркеров для двух переменных ширины и одной переменной высоты, WIDTH , HTMDT и TRIWIDTH , предлагает группу сильно коррелированных переменных, которые также сильно коррелированы с первым ПК. (представлен горизонтальной осью).Очень высокая доля изменчивости, объясняемая двумерным главным подпространством, дает веские основания для этих выводов. Фактически, наименьший из трех истинных коэффициентов корреляции между этими тремя переменными составляет 0,944 ( HTMDT и TRIWIDTH ), а наименьшая корреляция между PC1 и любой из этих переменных составляет 0,960 ( TRIWIDTH ). Разница знаков в нагрузках PC2 между тремя переменными длины (в нижнем левом углу графика) и другими переменными четко видна.Проецирование маркера для индивидуума 58 на положительные направления всех переменных маркеров предполагает, что ископаемый зуб 58 (слева от двунаправленной диаграммы) является большим зубом. Проверка матрицы данных подтверждает, что это самый крупный индивид по шести из девяти переменных и близкий к самому большому по оставшимся трем. Точно так же у людей 85–88 (справа) зубы небольшого размера. Лица, маркеры которых близки к исходной точке, имеют значения, близкие к среднему для всех переменных.

    Биплот для данных ископаемых зубов (корреляционная матрица PCA), полученный с помощью команды R’s biplot .(Онлайн-версия в цвете.)

    (iii) Centrings

    Как было показано в § 2, PCA представляет собой SVD матрицы данных с центром в столбцах. В некоторых приложениях [15] центрирование столбцов матрицы данных может считаться неуместным. В таких ситуациях может быть предпочтительным избежать любой предварительной обработки данных и подвергнуть матрицу нецентрированных данных SVD или, что эквивалентно, выполнить собственное разложение матрицы нецентрированных секундных моментов, T , чьи собственные векторы определяют линейные комбинации нецентрированных переменных.Его часто называют нецентрированным PCA , и в некоторых областях была неудачная тенденция приравнивать имя SVD только к этой нецентрированной версии PCA.

    Нецентральные ПК представляют собой линейные комбинации нецентрированных переменных, которые последовательно максимизируют нецентральные вторые моменты, при условии, что их пересекающиеся нецентральные вторые моменты равны нулю. За исключением случаев, когда вектор средних значений столбца (т.е. центр тяжести исходной диаграммы рассеяния n точек в пространстве p ) близок к нулю (в этом случае центрированный и нецентрированный моменты одинаковы), это не сразу интуитивно понятно. что между обоими вариантами PCA должно быть сходство.Cadima и Jolliffe [15] исследовали отношения между стандартным (центрированным по столбцам) PCA и нецентрированным PCA и обнаружили, что они ближе, чем можно было ожидать, в частности, когда размер вектора большой. Часто бывает, что существует большое сходство между многими собственными векторами и (абсолютными) собственными значениями ковариационной матрицы S и соответствующей матрицы нецентрированных вторых моментов, T .

    В некоторых приложениях подходящим считалось центрирование строк или центрирование строк и столбцов (известное как двойное центрирование) матрицы данных.SVD таких матриц приводят к центрированным строкам и дважды центрированным PCA соответственно.

    (iv) Когда
    n < p

    Наборы данных, в которых наблюдаемых объектов меньше, чем переменных ( n < p ), становятся все более частыми благодаря растущей простоте наблюдения за переменными вместе с высокая стоимость повторения наблюдений в некоторых контекстах (например, на микрочипах [16]). Например, в [17] есть пример из геномики, в котором n = 59 и p = 21 225.

    В общем, ранг матрицы данных n × p равен. Если матрица данных центрирована по столбцам, то это так. Когда n < p , то количество наблюдаемых индивидов, а не количество переменных, обычно определяет ранг матрицы. Ранг матрицы данных с центром по столбцам X * (или ее стандартизованного аналога Z ) должен равняться рангу ковариационной (или корреляционной) матрицы. Практическое значение этого состоит в том, что имеется только - ненулевых собственных значений; следовательно, r ПК объясняют всю изменчивость набора данных.Ничто не препятствует использованию PCA в таких контекстах, хотя некоторое программное обеспечение, как в случае с командой R princomp (но не prcomp ), может препятствовать использованию таких наборов данных. PC могут быть определены как обычно, либо SVD (центрированной) матрицы данных, либо собственными векторами / значениями ковариационной (или корреляционной) матрицы.

    Недавнее исследование (например, [18,19]) изучило, насколько хорошо базовые «популяционные» ПК оцениваются выбранными ПК в случае, когда n p , и было показано, что в некоторых обстоятельствах мало сходство между ПК выборки и населения.Однако результаты обычно основаны на модели данных, которая имеет очень небольшое количество структурированных компьютеров и очень много измерений шума, и которая имеет некоторые связи с недавней работой в RPCA (см. §3c).

    Анализ главных компонентов с помощью Python

    Анализ главных компонентов - это в основном статистическая процедура для преобразования набора наблюдений возможно коррелированных переменных в набор значений линейно некоррелированных переменных.
    Каждый из главных компонентов выбирается таким образом, чтобы он описывал большую часть все еще доступной дисперсии, и все эти главные компоненты ортогональны друг другу.Во всех основных компонентах первая главная компонента имеет максимальную дисперсию.
    Использование PCA:

    • Он используется для поиска взаимосвязи между переменными в данных.
    • Он используется для интерпретации и визуализации данных.
    • По мере уменьшения количества переменных дальнейший анализ упрощается.
    • Его часто используют для визуализации генетической дистанции и родства между популяциями.

    Они в основном выполняются на квадратной симметричной матрице.Это может быть чистая сумма квадратов и матрица взаимных произведений, матрица ковариации или матрица корреляции. Корреляционная матрица используется, если индивидуальная дисперсия сильно различается.
    Цели PCA:

    • Это в основном независимая процедура, в которой она сокращает пространство атрибутов с большого количества переменных до меньшего количества факторов.
    • PCA - это, по сути, процесс уменьшения размера, но нет гарантии, что размер будет интерпретируемым.
    • Основная задача в этом PCA - выбрать подмножество переменных из большего набора, исходя из того, какие исходные переменные имеют наибольшую корреляцию с основной суммой.

    Метод главной оси: PCA в основном ищет линейную комбинацию переменных, чтобы мы могли извлечь максимальную дисперсию из переменных. Как только этот процесс завершается, он удаляет его и ищет другую линейную комбинацию, которая дает объяснение о максимальной доле оставшейся дисперсии, которая в основном приводит к ортогональным факторам.В этом методе мы анализируем общую дисперсию.
    Собственный вектор: Это ненулевой вектор, который остается параллельным после умножения матриц. Предположим, что x - собственный вектор размерности r матрицы M с размерностью r * r, если Mx и x параллельны. Затем нам нужно решить Mx = Ax, где x и A неизвестны, чтобы получить собственный вектор и собственные значения.
    Под собственными векторами мы можем сказать, что главные компоненты показывают как общую, так и уникальную дисперсию переменной. По сути, это подход, ориентированный на дисперсию, стремящийся воспроизвести общую дисперсию и корреляцию со всеми компонентами.Главные компоненты - это в основном линейные комбинации исходных переменных, взвешенные по их вкладу для объяснения дисперсии в конкретном ортогональном измерении.
    Собственные значения: Это в основном известно как характерные корни. Он в основном измеряет дисперсию всех переменных, которая объясняется этим фактором. Отношение собственных значений - это отношение объясняющей важности факторов по отношению к переменным. Если коэффициент низкий, то он меньше влияет на объяснение переменных.Проще говоря, он измеряет количество отклонений в общей данной базе данных, учитываемых фактором. Мы можем вычислить собственное значение фактора как сумму квадратов его факторной нагрузки для всех переменных.
    Теперь давайте разберемся с анализом главных компонентов с помощью Python.
    Чтобы получить набор данных, используемый в реализации, щелкните здесь.
    Шаг 1: Импорт библиотек

    Python

    import numpy as np

    import matplotlib.pyplot as plt

    import pandas as pd


    Шаг 2: Импорт набора данных
    Импортируйте набор данных и распределите набор данных по компонентам X и y для анализа данных.



    Python

    matplotlib.цвета импорт ListedColormap

    X_set, y_set = X_test, y_test

    X1, X2 nprid (nprid X_set [:, 0 ]. мин () - 1 ,

    стоп = X_set ]. макс. () + 1 , шаг = 0,01 ),

    np.arange (начало = 1

  • 6 X_set ]. мин. () - 1 ,

    стоп = X_set [:, 1 ]. макс. () + 1 , шаг = 0,01 ))

    plt.contourf (X1, Xray (class np.pred X1.ravel (),

    X2.ravel ()]). T) .reshape (X1.shape), alpha = 0,75 ,

    cmap = см. ListedColormap (( 'желтый' , 'белый' , 'аквамарин' )))

    plt.xlim (X1. мин. (), X1. макс. ())

    plt.ylim (X2. мин. (), X2. макс. ())

    для i, j в перечислить (np.unique (y_set)):

    plt.scatter (X_set6 7 = 9077 j, 0 ], X_set [y_set = = j, 1 ],

    c = ListedCol77 , «зеленый» , «синий» )) (i), этикетка = j)

    пл.title ( 'Логистическая регрессия (тестовый набор)' )

    plt.xlabel ( 'PC1' )

    plt.ylabel ( 'PC2' plt.legend ()

    plt.show ()

  • набор данных = pd.read_csv ( 'wines.csv' )


    5.iloc [:, 0 : 13 ] .values ​​

    y = dataset.iloc [:, 13 ] .values ​​
    03

    003

    00 Шаг 3: Разделение набора данных на обучающий набор и набор тестов

    Python

    из sklearn.model_selection import train_test_split

    y_test = train_test_split (X, y, test_size = 0.2 , random_state = 0 )


    Шаг 4: Масштабирование функций
    Выполнение предварительной обработки в наборе для обучения и тестирования, например, установка стандартной шкалы.

    Python

    из sklearn.preprocessing import StandardScaler

    sc = StandardScaler3_
    75
    fit_transform (X_train)

    X_test = sc.transform (X_test)


    Шаг 5: Применение функции PCA
    Применение тестового набора для анализа и обучения.

    Python

    000027 Регрессия К обучающему набору



    Python

    из sklearn.decomposition import PCA

    pca = 9752

    0

    X_train = шт.fit_transform (X_train)

    X_test = pca.transform (X_test)

    объясненная_ вариация = pca.explained_variance =

    0 pca.explained

    из sklearn.linear_model import LogisticRegression

    classifier 0 )

    классификатор.fit (X_train, y_train)


    Шаг 7: Прогнозирование результата набора тестов

    Python

    51

    y_pred 9077


    Шаг 8: Создание матрицы путаницы

    Python

    из sklearn.metrics импорт

    975000

    confusion_matrix (y_test, y_pred)


    Шаг 9: Прогнозирование результата обучающего набора

    Python

    из matplot.цвета импорт ListedColormap

    X_set, y_set = X_train, y_train

    X1, X2 (np776 X_set [:, 0 ]. мин. () - 1 ,

    стоп = X_6 [:, ] макс. () + 1 , шаг = 0,01 ),

    np.arange (начало = 1

  • 6 X_set ]. мин. () - 1 ,

    стоп = X_set [:, 1 ]. макс. () + 1 , шаг = 0,01 ))

    plt.contourf (X1, Xray (class np.pred X1.ravel (),

    X2.ravel ()]). T) .reshape (X1.shape), alpha = 0,75 ,

    cmap = см. ListedColormap (( 'желтый' , 'белый' , 'аквамарин' )))

    plt.xlim (X1. мин. (), X1. макс. ())

    plt.ylim (X2. мин. (), X2. макс. ())

    для i, j в перечислить (np.unique (y_set)):

    plt.scatter (X_set6 7 = 9077 j, 0 ], X_set [y_set = = j, 1 ],

    c = ListedCol77 , «зеленый» , «синий» )) (i), этикетка = j)

    пл.title ( 'Логистическая регрессия (обучающий набор)' )

    plt.xlabel ( 'PC1' )

    plt.ylabel ( 'PC2' plt.legend ()

    plt.show ()


  • Шаг 10: Визуализация результатов набора тестов

    Python

    9206

    Внимание читатель! Не прекращайте учиться сейчас.

    Похожие записи

    Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *