wikipedia

[2023-10-27 Fri 21:28]

Data mining is the process of extracting and discovering patterns in large data sets involving methods at the intersection of machine learning, statistics, and database systems. Data mining is an interdisciplinary subfield of computer science and statistics with an overall goal of extracting information (with intelligent methods) from a data set and transforming the information into a comprehensible structure for further use. Data mining is the analysis step of the "knowledge discovery in databases" process, or KDD. Aside from the raw analysis step, it also involves database and data management aspects, data pre-processing, model and inference considerations, interestingness metrics, complexity considerations, post-processing of discovered structures, visualization, and online updating.The term "data mining" is a misnomer because the goal is the extraction of patterns and knowledge from large amounts of data, not the extraction (mining) of data itself. It also is a buzzword and is frequently applied to any form of large-scale data or information processing (collection, extraction, warehousing, analysis, and statistics) as well as any application of computer decision support system, including artificial intelligence (e.g., machine learning) and business intelligence. The book Data Mining: Practical Machine Learning Tools and Techniques with Java (which covers mostly machine learning material) was originally to be named Practical Machine Learning, and the term data mining was only added for marketing reasons. Often the more general terms (large scale) data analysis and analytics—or, when referring to actual methods, artificial intelligence and machine learning—are more appropriate. The actual data mining task is the semi-automatic or automatic analysis of large quantities of data to extract previously unknown, interesting patterns such as groups of data records (cluster analysis), unusual records (anomaly detection), and dependencies (association rule mining, sequential pattern mining). This usually involves using database techniques such as spatial indices. These patterns can then be seen as a kind of summary of the input data, and may be used in further analysis or, for example, in machine learning and predictive analytics. For example, the data mining step might identify multiple groups in the data, which can then be used to obtain more accurate prediction results by a decision support system. Neither the data collection, data preparation, nor result interpretation and reporting is part of the data mining step, although they do belong to the overall KDD process as additional steps. The difference between data analysis and data mining is that data analysis is used to test models and hypotheses on the dataset, e.g., analyzing the effectiveness of a marketing campaign, regardless of the amount of data. In contrast, data mining uses machine learning and statistical models to uncover clandestine or hidden patterns in a large volume of data.The related terms data dredging, data fishing, and data snooping refer to the use of data mining methods to sample parts of a larger population data set that are (or may be) too small for reliable statistical inferences to be made about the validity of any patterns discovered. These methods can, however, be used in creating new hypotheses to test against the larger data populations.

데이터 마이닝은 머신러닝, 통계학, 데이터베이스 시스템의 교차점에 있는 방법을 사용하여 대규모 데이터 세트에서 패턴을 추출하고 발견하는 프로세스입니다. 데이터 마이닝은 컴퓨터 과학과 통계학의 학제 간 하위 분야로, 데이터 집합에서 지능적인 방법으로 정보를 추출하고 추후 사용을 위해 정보를 이해하기 쉬운 구조로 변환하는 것을 전반적인 목표로 합니다. 데이터 마이닝은 '데이터베이스에서 지식 발견' 프로세스, 즉 KDD 의 분석 단계입니다. 원시 분석 단계 외에도 데이터베이스 및 데이터 관리 측면, 데이터 전처리, 모델 및 추론 고려 사항, 흥미도 지표, 복잡성 고려 사항, 발견된 구조의 후처리, 시각화 및 온라인 업데이트가 포함되며, '데이터 마이닝'이라는 용어는 데이터 자체의 추출(마이닝)이 아니라 대량의 데이터에서 패턴과 지식을 추출하는 것이 목표이므로 잘못된 명칭입니다. 또한 데이터 마이닝은 유행어이며 모든 형태의 대규모 데이터 또는 정보 처리(수집, 추출, 저장, 분석 및 통계)는 물론 인공 지능(예: 머신 러닝) 및 비즈니스 인텔리전스를 포함한 컴퓨터 의사 결정 지원 시스템의 모든 응용 분야에 자주 적용됩니다. 책 데이터 마이닝: 실용적인 기계 학습 도구와 기법(대부분 기계 학습 자료를 다루고 있음)의 원래 이름은 실용적인 기계 학습이었으며, 마케팅상의 이유로 데이터 마이닝이라는 용어가 추가되었을 뿐입니다. 대규모 데이터 분석 및 분석이라는 보다 일반적인 용어, 또는 실제 방법을 언급할 때는 인공 지능 및 기계 학습이라는 용어가 더 적절할 때가 많습니다. 실제 데이터 마이닝 작업은 대량의 데이터를 반자동 또는 자동으로 분석하여 데이터 레코드 그룹(클러스터 분석), 비정상 레코드(이상 탐지), 종속성(연관 규칙 마이닝, 순차적 패턴 마이닝) 등 이전에 알려지지 않은 흥미로운 패턴을 추출하는 것입니다. 여기에는 일반적으로 공간 인덱스와 같은 데이터베이스 기술을 사용합니다. 이러한 패턴은 입력 데이터의 일종의 요약으로 볼 수 있으며, 추가 분석이나 머신 러닝 및 예측 분석에 사용될 수 있습니다. 예를 들어, 데이터 마이닝 단계에서는 데이터에서 여러 그룹을 식별할 수 있으며, 이를 통해 의사 결정 지원 시스템에서 보다 정확한 예측 결과를 얻을 수 있습니다. 데이터 수집, 데이터 준비, 결과 해석 및 보고는 데이터 마이닝 단계의 일부가 아니지만, 추가 단계로서 전체 KDD 프로세스에 속합니다. 데이터 분석과 데이터 마이닝의 차이점은 데이터 분석은 데이터 양에 관계없이 마케팅 캠페인의 효과를 분석하는 등 데이터 세트에 대한 모델과 가설을 테스트하는 데 사용된다는 점입니다. 이와 대조적으로 데이터 마이닝은 머신 러닝과 통계 모델을 사용하여 대량의 데이터에서 은밀하거나 숨겨진 패턴을 찾아내는 것으로, 데이터 준설, 데이터 낚시, 데이터 스누핑이라는 관련 용어는 데이터 마이닝 방법을 사용하여 발견된 패턴의 유효성에 대해 신뢰할 수 있는 통계적 추론을 내리기에는 너무 작거나 너무 작을 수 있는 대규모 데이터 세트의 일부를 샘플링하는 것을 말합니다. 그러나 이러한 방법은 더 큰 데이터 집단에 대해 테스트하기 위해 새로운 가설을 세우는 데 사용할 수 있습니다.

Related-Notes

References