Макарова И.Л., Игнатенко А.М., Копырин А.С. —
Обнаружение и интерпретация ошибочных данных при статистическом анализе потребления энергоресурсов.
// Программные системы и вычислительные методы. – 2021. – № 3.
– 和。 40 - 51.
DOI: 10.7256/2454-0714.2021.3.36564
URL: https://e-notabene.ru/itmag/article_36564.html
阅读文章
注释,注释: Мониторинг и анализ потребления энергоресурсов в различных разрезах измерение различных параметров (показателей) во времени крайне важен для современной экономики. Данная работа посвящена исследованию и интерпретации аномалий набора данных по потреблению энергоресурсов (на примере потребления газа) в муниципальном образовании
Потребление газа имеет важное значение для социально-экономической сферы городов. Несанкционированные подключения являются основной причиной нетехнологических потерь ресурса. Традиционные методы проверки на предмет хищения неэффективны и отнимают много времени. Современные технологии анализа данных помогут выявить и интерпретировать аномалии потребления и, среди прочего, сформировать списки на проверку объектов на предмет несанкционированных подключений.
Основным вкладом нашего подхода было применение совокупности статистических методов, направленных на обработку и выявление аномалий на наборе данных по энергопотреблению муниципального образования. Следует отметить, что применение подобных технологий требует разработки эффективных алгоритмов, и внедрения автоматизации и алгоритмов машинного обучения. Этот новый взгляд на временные ряды облегчает обнаружение аномалий, оптимизацию принятия решений и т.д. Эти процессы могут быть автоматизированы. Представленная методология, проверенная на временных рядах, описывающих потребление газа, может быть использована для более широкого спектра задач. Исследование может быть объединено с методами обнаружения знаний и алгоритмами глубокого обучения.
Abstract: Monitoring and analysis of consumption of energy resources in various contexts, as well as measuring of parameters (indicators) in time are of utmost importance for the modern economy. This work is dedicated to examination and interpretation of the anomalies of collecting data on consumption of energy resources (on the example of gas consumption) in the municipal formation. Gas consumption is important for the socioeconomic sphere of cities. Unauthorized connections are the key reason for non-technological waste of the resource. The traditional methods of detection of stealing of gas are ineffective and time-consuming. The modern technologies of data analysis would allow detecting and interpreting the anomalies of consumption, as well as forming the lists for checking the objects for unauthorized connections. The author’s special contribution lies in application of the set of statistical methods aimed at processing and identification of anomalies in energy consumption of a municipal formation. It is worth noting that the use of such technologies requires the development of effective algorithms and implementation of automation and machine learning algorithms. The new perspective upon time-series data facilitates identification of anomalies, optimization of decision-making, etc. These processes can be automated. The presented methodology tested on time-series data that describes the consumption of gas can be used for a broader range of tasks. The research can be combined with the methods of knowledge discovery and deep learning algorithms.
Копырин А.С., Копырина А.О. —
Построение типовой системы правил вывода по базе знаний
// Программные системы и вычислительные методы. – 2021. – № 1.
– 和。 1 - 9.
DOI: 10.7256/2454-0714.2021.1.34798
URL: https://e-notabene.ru/itmag/article_34798.html
阅读文章
注释,注释: Авторы предлагают объединить логический вывод с аппаратом нечётких множеств. Когда каждое решение связано с набором возможных результатов с известными условными вероятностями, решение выбирается на основе цифровой информации в условиях неопределённости.
Поэтому основной целью использования нечеткой логики в экспертных системах является создание вычислительных устройств (или программных комплексов), способных имитировать человеческое мышление и объяснять методы принятия решений
Цель работы состоит в том, чтобы подробно описать воспроизводимый типовой метод построения правил вывода экспертной системы для различных экономических предметных областей, с использованием универсальной схемы базы знаний
Для принятия решений в нечеткой системе предлагается использовать процесс идентификации структуры правила - определение структурных характеристик нечеткой системы, таких как количество нечетких правил, количество лингвистических терминов, на которые делятся входящие переменные. Эта идентификация осуществляется с помощью нечеткого кластерного анализа, который проводится с использованием нечетких деревьев решений. Авторами представлена структурная схема методики вывода на базе нечёткой логики. Представленные в статье методика построения правил и алгоритм нечеткого вывода может использоваться в различных сферах экономики. Новизна работы заключается в автоматизации и интеграции системы определения нечетких правил вывода с этапом сбора входных данных в предметной области
Abstract: The authors propose to combine logical inference with the apparatus of fuzzy sets. When each solution is associated with a set of possible outcomes with known conditional probabilities, the solution is chosen based on digital information under conditions of uncertainty.
Therefore, the main purpose of using fuzzy logic in expert systems is to create computing devices (or software complexes) capable of simulating human thinking and explaining decision-making methods
The purpose of the work is to describe in detail a reproducible standard method of constructing rules for the output of an expert system for various economic subject areas, using a universal knowledge base scheme To make decisions in a fuzzy system, it is proposed to use the process of identifying the structure of a rule - determining the structural characteristics of a fuzzy system, such as the number of fuzzy rules, the number of linguistic terms into which incoming variables are divided. This identification is carried out using fuzzy cluster analysis, which is carried out using fuzzy decision trees. The authors present a block diagram of the inference methodology based on fuzzy logic. The method of constructing rules and the algorithm of fuzzy inference presented in the article can be used in various spheres of the economy. The novelty of the work lies in the automation and integration of the system for determining fuzzy inference rules with the stage of collecting input data in the subject area
Копырин А.С., Макарова И.Л. —
Алгоритм препроцессинга и унификации временных рядов на основе машинного обучения для структурирования данных
// Программные системы и вычислительные методы. – 2020. – № 3.
– 和。 40 - 50.
DOI: 10.7256/2454-0714.2020.3.33958
URL: https://e-notabene.ru/itmag/article_33958.html
阅读文章
注释,注释: Предметом исследования является процесс сбора и предварительной подготовки данных из гетерогенных источников. Экономическая информация является гетерогенной и полуструктурированной или неструктурированной по своей природе. Из-за неоднородности первичных документов, а также человеческого фактора исходные статистические данные могут содержать большое количество шумов, а также записей автоматическая обработка которых может быть весьма затруднена. Это делает предварительную обработку входных динамических данных важным предварительным условием для обнаружения значимых паттернов и знаний в предметной области, а тему исследования актуальной
Предварительная обработка данных представляет собой ряд уникальных задач, которые привели к появлению различных алгоритмов и эвристических методов для решения таких задач предварительной обработки, как слияние и очистка, идентификация переменных
В данной работе формулируется алгоритм препроцессинга, позволяющий сводить в единую базу данных и структурировать информацию по временным рядам из разных источников. Ключевой модификацией метода препроцессинга, которую предлагают авторы является технология автоматизированной интеграции данных.
Предложенная авторами технология предполагает совместное использование методов построения нечеткого временного ряда и машинного лексического сопоставления на сети тезауруса, а также использования универсальной базы данных, построенной с использованием концепции МИВАР.
Алгоритм препроцессинга формирует единую модель данных с возможностью транформации периодичности и семантики набора данных и интеграцию в единый информационный банк данные, которые могут поступать из различных источников.
Abstract: The subject of the research is the process of collecting and preliminary preparation of data from heterogeneous sources. Economic information is heterogeneous and semi-structured or unstructured in nature. Due to the heterogeneity of the primary documents, as well as the human factor, the initial statistical data may contain a large amount of noise, as well as records, the automatic processing of which may be very difficult. This makes preprocessing dynamic input data an important precondition for discovering meaningful patterns and domain knowledge, and making the research topic relevant.Data preprocessing is a series of unique tasks that have led to the emergence of various algorithms and heuristic methods for solving preprocessing tasks such as merge and cleanup, identification of variablesIn this work, a preprocessing algorithm is formulated that allows you to bring together into a single database and structure information on time series from different sources. The key modification of the preprocessing method proposed by the authors is the technology of automated data integration.The technology proposed by the authors involves the combined use of methods for constructing a fuzzy time series and machine lexical comparison on the thesaurus network, as well as the use of a universal database built using the MIVAR concept.The preprocessing algorithm forms a single data model with the ability to transform the periodicity and semantics of the data set and integrate data that can come from various sources into a single information bank.
Копырин А.С. —
Моделирование и прогнозирование динамики «качества жизни» населения Краснодарского края
// Теоретическая и прикладная экономика. – 2020. – № 2.
– 和。 105 - 116.
DOI: 10.25136/2409-8647.2020.2.32192
URL: https://e-notabene.ru/etc/article_32192.html
阅读文章
注释,注释: Целью данного исследования является анализ тенденций изменения сложно-структурированного показателя «качества жизни» населения Краснодарского края, а также анализ чувствительности комплексного индикатора по частным факторам и срезам населения. По результатам проведения исследования построена экономико-математическая модель для анализа и прогнозирования изменения качества жизни населения Краснодарского края в разрезе различных кластеров муниципальных образований, произведено сравнение различных функций аппроксимации. Предметом исследования являются социально-экономические взаимодействия в региональной системе Краснодарского края.
В статье проведен ретроспективный анализ наиболее значимых показателей, характеризующих рассматриваемую предметную область, осуществлен корреляционно-регрессионный анализ переменных, а также приведен анализ чувствительности на основе коэффициентов эластичности частных факторов. Основным вкладом автора в исследование темы является построение регрессионных моделей показателя качества жизни населения Краснодарского края в разрезе различных социальных кластеров и определение степени влияния отдельных социальных, демографических или экономических факторов на комплексный индикатор. Построенные модели позволят проводить прогнозирование и вычислительный эксперименты в указанной области
Abstract: The goal of this research consists in the analysis of trends in a compositely structured index of the “quality of life”, and analysis of sensitivity of a complex indicator by separate factors and cross-section of population of Krasnodar Krai. Based on the acquired results, the author builds a mathematical economic model for the analysis and forecasting of changes in the quality of life of the population of Krasnodar Krai in the context of diverse clusters of municipal formations, as well as compares different functions of approximation. The subject of this research is the socioeconomic interaction within the regional system of Krasnodar Krai. The article carries out a retrospective analysis is conducted on the most important indexes characterizing the subject field, correlation-regression analysis of variables, and sensitivity analysis based on the coefficients of elasticity of private factors. The author’s main contribution into the research of this topic lies in building the regression models of the quality of life index of the population of Krasnodar Krai in the context of diverse social clusters, as wll as in determination of the degree of impact of separate social, demographic or economic factors upon complex indicator. Such models allow forecasting and carrying out experimental modeling in this area.
Игнатенко А.М., Макарова И.Л., Копырин А.С. —
Методы подготовки данных к анализу слабоструктурированных временных рядов
// Программные системы и вычислительные методы. – 2019. – № 4.
– 和。 87 - 94.
DOI: 10.7256/2454-0714.2019.4.31797
URL: https://e-notabene.ru/itmag/article_31797.html
阅读文章
注释,注释: Целью исследования является подготовка к анализу слабоструктурированных исходных данных, их анализ, изучение влияния «загрязнения» данных на результаты регрессионного анализа. Задача структурирования данных, подготовки их к качественному анализу является уникальной задачей для каждого конкретного набора исходных данных и не может быть решена с помощью общего алгоритма, всегда будет иметь свои особенности. Рассмотрены проблемы, которые могут вызывать трудности при работе (анализе, обработке, поиске) со слабоструктурированными данными. Приведены примеры слабоструктурированных данных и структурированных данных, которые применяются в процедурах подготовки данных к анализу. Рассмотрены и описаны данные алгоритмы подготовки слабоструктурированных данных к анализу. Проведены процедуры очистки и анализа на наборе данных. Построены четыре регрессионных модели и произведено их сравнение. В результате были сформулированы следующие выводы: Исключение из анализа разного рода подозрительных наблюдений может резко сократить объем совокупности и привести к необоснованному снижению вариации. При этом, такой подход будет совершенно неприемлем, если в результате из анализа будут исключены важные объекты наблюдений и нарушена целостность совокупности. Качество построенной модели может ухудшаться при наличии аномальных значений, но может и улучшаться за их счет.
Abstract: The aim of the study is to prepare for the analysis of poorly structured source data, their analysis, the study of the influence of data "pollution" on the results of regression analysis. The task of structuring data, preparing them for a qualitative analysis is a unique task for each specific set of source data and cannot be solved using a general algorithm, it will always have its own characteristics. The problems that may cause difficulties when working (analysis, processing, search) with poorly structured data are considered. Examples of poorly structured data and structured data that are used in the preparation of data for analysis are given. These algorithms for preparing weakly structured data for analysis are considered and described. The cleaning and analysis procedures on the data set were carried out. Four regression models were constructed and compared. As a result, the following conclusions were formulated: Exclusion from the analysis of various kinds of suspicious observations can drastically reduce the size of the population and lead to an unreasonable decrease in variation. At the same time, such an approach would be completely unacceptable if, as a result, important objects of observation are excluded from the analysis and the integrity of the population is violated. The quality of the constructed model may deteriorate in the presence of abnormal values, but may also improve due to them.