В работе рассмотрены примеры применения метода спектрального анализа несимметричных матриц для построения классификационных индикаторов при структурировании текстовой информации большого объема. Обнаружилась возможность классификации текстов по тематике на основе анализа структуры инвариантных подпространств стохастической матрицы условных вероятностей парных буквосочетаний. Выяснилось, что тексты весьма достоверно могут быть классифицированы как литературные, научные по психологии, философии, а также по естественным наукам. Индикатором разделения служит величина близости к нулю косинуса угла между левым и правым собственными векторами, отвечающими соответственно минимальному и максимальному действительным собственным значениям стохастической матрицы условных вероятностей пар буквосочетаний.
Источник: http://www.keldysh.ru/papers/2017/prep2017_106.pdf