사회⋅건축적 요인을 반영한 화재발생예측 모델 개발 및 검증
Development and Verification of a Fire Occurrence Prediction Model with Social-Architectural Factors
Article information
Abstract
본 연구에서는 사회⋅건축적 요인을 반영한 행정구역 단위 화재발생예측 모델의 개발을 위해, 2015년부터 2021년까지의 시⋅군⋅구 단위 사회⋅건축적 요인과 화재발생건수 데이터를 기반으로 복수의 기계학습 알고리즘(다층퍼셉트론, 라쏘 회귀, 랜덤포레스트)을 활용한 화재발생건수 예측모델을 구현하고 성능비교를 수행하였다. 그 결과, 랜덤포레스트 알고리즘을 활용한 모델의 화재발생건수 예측성능이 가장 우수한 것으로 나타났다. 또한 2022년 데이터를 활용한 모델의 성능검증결과, 247개 행정구역 중 171개 행정구역에서 20% 이하의 오차율을 보이는 것으로 나타났다.
Trans Abstract
In this study, we aim to develop a fire occurrence prediction model at the administrative district level by incorporating social-architectural factors. Based on data on social and architectural factors and the number of fire occurrences from 2015~2021 in various cities, counties, and districts, multiple machine learning algorithms (multilayer perceptron, LASSO regression, and random forest) were employed to implement and compare the performance of the fire occurrence prediction models. The results indicated that the model utilizing the random forest algorithm exhibited the best prediction performance. Furthermore, performance validation using 2022 data showed that out of 247 administrative districts, 171 had an error rate of 20% or less.
1. 서 론
화재는 연간 4만건 이상 발생하며, 큰 인명피해와 재산피해를 유발하는 재난 중 하나이다(1). 이러한 화재에 대응하기 위한 재난관리모델은 예방, 대비, 대응, 복구의 네 단계로 구성된다. 이 중 예방 단계는 화재위험요인을 파악하고 화재발생 가능성을 예측하고 화재발생을 사전에 예방하는 단계로, 화재의 발생을 줄이고 피해를 최소화하기 위해 가장 중요한 단계이다. 이에 따라 전 세계적인 화재관리의 패러다임은 화재대응에서 화재예방으로 변화하고 있으며(2), 다양한 화재 예방계획이 도입되고 있다(3,4).
화재예방을 위해서는 화재위험요인을 도출하고, 화재발생 가능성을 예측하는 것이 무엇보다 중요하며 이를 위한 다양한 예측모델들이 제시되어 왔으며(5,6), 특히 최신 기계학습 기술의 발전과 함께 기계학습을 활용한 화재예측모델의 개발이 광범위하게 이루어지고 있다(7,8). 하지만 기존 연구들의 경우 특정 건물(9,10)이나 특정 지역(상업지역(11,12), 주거지역(13,14))을 범위로 수행되거나, 화재에 영향을 미치는 일부 요인(인구통계(15), 사회경제적요인(16,17) 등)에 초점을 두고 수행되어왔기 때문에, 화재에 영향을 미치는 다양한 요인에 대한 복합적인 고려와 도시지역 단위의 화재발생예측이 어렵다는 한계를 가진다.
이에 본 연구에서는 화재에 영향을 미치는 다양한 요인들을 복합적으로 고려한 도시지역 단위의 화재발생예측모델의 개발을 목적으로, 2015년부터 2021년까지의 시⋅군⋅구 단위 사회⋅건축적 요인과 화재발생건수 데이터를 기반으로 복수의 기계학습 알고리즘(다층퍼셉트론, 라쏘 회귀, 랜덤포레스트)을 활용한 화재발생건수 예측모델을 구현하고 성능비교 및 검증을 통해 최적의 화재발생예측 모델을 제시하고자 한다.
2. 이론적 고찰
2.1 사회⋅건축적 요인의 정의
화재발생은 거주자의 사회적, 경제적 특성, 주거 및 지역 환경에 영향을 받기 때문에(18), 화재발생예측 모델 내 사회적 요인과 건축적 요인의 복합적인 고려는 필수적이다.
이때 사회적 요인은 화재발생에 영향을 미치는 도시의 인구통계학적 요인과 사회경제적 요인을 포함한다. 국내에서는 이러한 사회적 요인 데이터를 ‘한국의 사회지표’로 구분하여 수집하고 있다(19). ‘한국의 사회지표’는 한국의 인구통계학적 요인과 사회경제학적 요인을 복합적으로 제공하는 지표로, 12개 영역(인구, 가구, 건강, 교육, 노동, 소득⋅소비⋅자산, 여가, 주거, 환경, 범죄와 안전, 사회통합, 주관적 웰빙)에 걸쳐 총 270개의 사회지표 데이터로 구성된다.
또한 건축적 요인은 화재발생에 영향을 미치는 건축물의 물리적 특성, 규모 등을 포함하는 요인을 의미한다. 본 논문에서는 건축적 요인으로 통계청에서 제공하고 있는 9개 영역(노후 기간별 주택의 수, 빈집의 수, 연면적별 주택의 수, 주택의 수, 주택 종류별 수, 평균 거주 가구원 수, 평균 거주 가구의 수, 가구의 수, 가구원의 수)의 34개 지표(20)와 건축데이터 민간개방 시스템의 건축물대장 표제부에서 제공하는 77개의 지표를 활용하였다(21).
2.2 기계학습의 종류 및 대표모델 선정
기계학습 알고리즘은 크게 지도학습, 비지도학습, 강화학습으로 구분된다(22). 본 논문의 목적은 행정구역 단위 화재발생건수를 예측하는 모델을 개발하는 것이기 때문에, 이 중 사회⋅건축적 요인(독립변수)과 화재발생건수(종속변수)의 관계를 학습하는 지도학습 모델을 활용하여 예측모델을 구축하였다. 지도학습 모델은 선형모델 트리모델 기타모델로 구분된다(23).
선형모델은 연속형 변수를 예측하는 데 주로 사용되며, 대표적으로 선형 회귀(최소제곱법), 라쏘 회귀 등이 있다. 이 중 라쏘 회귀는 많은 변수 중에서 중요한 변수만을 자동으로 선택하고 불필요한 변수의 영향을 제거하는 방법으로, 모델을 단순화하고 과적합을 방지하여 해석하기 쉽고 예측력이 높은 모델을 만들 수 있다는 장점을 가진다(24). 트리모델은 데이터를 분할하여 의사결정 규칙을 생성하는 방식으로, 대표적으로 결정 트리, 랜덤포레스트 등이 있다. 이 중 랜덤포레스트는 여러 개의 결정 트리를 결합하여 예측하는 방법으로, 높은 예측 정확도를 제공하면서 변수 간 복잡한 관계를 자동으로 파악하고 과적합에 강한 특성 때문에 다양한 분야에서 널리 활용되고 있다(25). 기타 모델로는 서포트 벡터 머신과 인공신경망 기반의 다층퍼셉트론 등이 있다. 이 중 다층퍼셉트론은 입력층, 은닉층, 출력층으로 구성된 인공신경망으로, 복잡한 비선형 관계를 모델링할 수 있어 분류와 회귀문제에 널리 사용되는 모델이다(26).
본 논문에서는 각 분류에서 대표 알고리즘을 하나씩 선정하여 라쏘 회귀(lasso regression, LR)와 랜덤포레스트(random forest, RF)와 다층퍼셉트론(multilayer perceptron, MLP) 세 개 알고리즘 기반으로 사회⋅건축적 요인을 반영한 행정구역 단위의 화재발생예측 모델을 설계 및 구현하였다.
3. 화재발생예측 모델 개발
3.1 상관분석을 통해 사회⋅건축적 요인 도출
화재에 영향을 미치는 사회⋅건축적 요인의 도출은 1) 사회적 요인과 건축적 요인의 수집 및 정제, 2) 행정구역별 화재발생 건수와 각 요인간의 상관성 분석, 3) 상관성 분석을 통한 사회⋅건축적 요인의 도출의 순서로 수행되었다.
사회적 요인 데이터의 경우 앞서 설명한 바와 같이 통계청의 ‘한국의 사회지표’를 바탕으로 총 270개 요인이 수집되었으며, 수집과정에서 행정구역(시⋅군⋅구) 단위로 제공되지 않거나 결측치가 있는 요인들은 제외되었다. 최종적으로 21개의 요인에 대한 248개 지역의 41,664개 데이터가 수집되었다. 건축적 요인 데이터의 경우 통계청과 건축데이터 민간개방시스템에서 제공하는 데이터를 기반으로 수집되었다. 이때 건축데이터 민간개방시스템의 건축물대장 표제부 데이터는 ‘대지위치’를 근거로 시⋅군⋅구 단위로 재분류되었으며, 결측치가 있는 요인들은 제외되었다. 최종적으로 39개 요인에 대해 247개 지역의 77,067개 데이터가 수집되었다. 마지막으로 화재발생건수 데이터의 경우, 소방청 국가화재정보시스템(https://nfds.go.kr)을 활용하여 수집되었으며, 결측값이 있는 3개의 지역의 데이터를 제외한 249개 지역의 1,992개 데이터가 수집되었다.
두 번째 단계로 행정구역별 화재발생 건수와 각 요인간의 상관성 분석을 통해 유의미한 상관관계(|r| > 0.30)를 가지는 요인을 식별하였다. 그 결과, 21개의 사회적 요인 중 14개 요인, 39개의 건축적 요인 중 31개 요인이 화재발생건수와 통계적으로 유의한 상관관계를 보였다(Table 1). ‘평균연령(-0.54)’, ‘사망률(-0.49)’, ‘1인 가구의 비율(-0.32)’, ‘1세대 가구의 비율(-0.48)’의 4개 요인은 화재발생건수와 음의 상관관계를 보였으며, ‘인구(0.73)’, ‘출생아 수(0.73)’, ‘등록외국인 수(0.60)’, ‘평균 가구원 수(0.43)’, ‘1인 가구의 수(0.65)’, ‘1세대 가구의 수(0.72)’, ‘2세대 가구의 비율(0.46)’, ‘2세대 가구의 수(0.70)’, ‘재혼 건수(0.79)’, ‘외국인 배우자 부부 혼인 건수(0.75)’의 10개 요인은 화재발생건수와 양의 상관관계를 나타내었다. 이 중 ‘인구’, ‘출생아 수’, ‘1세대 가구의 수’, ‘재혼 건수’, ‘외국인 배우자 부부 혼인 건수’의 5개 요인은 매우 높은 상관계수(r > 0.70)를 보여, 화재발생과 특히 밀접한 관련이 있는 것으로 나타났다. 건축적 요인으로는 31개 요인이 모두 화재발생건수와 양의 상관관계(r > 0.30)를 나타내었으며, ‘총 높이’ (0.73), ‘총 지상층 수’ (0.83), ‘주택의 수’ (0.71)는 매우 높은 상관계수(r > 0.70)를 보이는 것으로 나타났다.
최종적으로, 상관분석 결과에 따라 화재발생건수와 유의미한 상관관계를 보이는 14개 사회적 요인과 31개 건축적 요인을 통합한 45개의 사회⋅건축적 요인을 모델의 입력변수로 선정하였다.
3.2 데이터베이스 구축
다음으로 45개의 입력변수(사회⋅건축적 요인)와 1개의 목표변수(화재발생건수)로 구성된 데이터베이스를 구축하였으며, 구축된 데이터베이스를 최적화하기 위해 프로그래밍 언어인 Python을 사용하여 45개 입력변수의 원본 데이터에 대해 사분위수 분석을 수행하였다. 이상치 기준은 3배의 사분위수 범위 (interquartile range, IQR)를 적용하여 설정하였다. 그 결과, 총 23개 변수에서 595개의 이상치가 관찰되었으며, 이는 2015년부터 2021년까지 45개 입력변수의 전체 77,805개 데이터 포인트 중 약 0.76%에 해당한다. 고품질의 데이터셋을 구축하기 위해 이상치를 제거하였으며, 그 결과 원본 데이터셋의 1,729개 행 중 272개 행이 삭제되어 최종 데이터셋은 46개 변수(45개 입력변수, 1개의 목표변수) 1,457개 행, 67,022개의 데이터로 구성되었다.
3.3 기계학습 기반 모델 개발
서로 다른 기계학습기반 모델(MLP, LR, RF)을 구축하고 비교하기 위해 동일한 훈련 데이터와 테스트 데이터를 사용하였다. 데이터의 분할을 위해 train_test_split 함수를 사용하였으며, 데이터셋을 훈련 데이터(80%)와 테스트 데이터(20%)로 분할하여, 각 데이터를 별도의 파일로 저장하였다.
MLP 모델의 경우, 그리드 서치(grid search)를 통해 최적의 모델 구조를 결정하였다. 테스트 결과에 따라, 가장 우수한 성능을 보인 1개의 은닉층과 100개의 뉴런으로 구성된 구조로 모델을 구현하였으며, L2 정규화의 강도를 0.0001로 매우 낮게 설정하고 ReLU 활성화 함수를 사용하여 모델을 구성하였다. 최적 하이퍼파라미터를 기반으로 MLP 모델을 학습시켰으며, Adam 옵티마이저를 사용하고 최대 반복 횟수를 1,000회로 설정하였다. LR 모델의 경우, LassoCV를 사용하여 핵심 하이퍼파라미터인 alpha (λ) 값을 최적화하였으며, 최적 alpha 값은 0.0055로 도출되었다. RF 모델의 경우, 그리드 서치를 통해 하이퍼파라미터를 최적화하였다. 테스트 결과에 따른 최적 하이퍼파라미터 조합(의사결정나무의 개수(n_estimators) 200개, 나무의 최대 깊이(max_depth) 20, 내부 노드 분할에 필요한 최소 샘플 수(min_samples_split) 2개, 리프 노드에 필요한 최소 샘플 수(min_samples_leaf) 1개)으로 모델을 구성하였다.
4. 행정구역 단위 화재발생예측 모델 성능검증
4.1 성능비교를 통한 최적 모델 도출
최적 모델을 도출하기 위한 성능평가 지표로는 평균 제곱근 오차(RMSE), 평균 절대 오차(MAE), 결정 계수(R-squared)를 사용하였다. RMSE와 MAE는 모델의 예측값과 실제값 간의 오차를 나타내는 지표로, 값이 작을수록 우수한 예측성능을 보임을 의미한다. 또한, R-squared는 모델의 성능을 평가하는 지표 중 하나로, 모델이 데이터의 변동성을 설명한다. R-squared 값의 범위는 0에서 1까지이며, 1에 가까울수록 모델이 데이터를 잘 설명하고 있다는 것을 의미한다.
RF 모델의 성능평가 결과, RMSE 25.606, MAE 18.731, R- squared 0.868로 나타났다. 또한 MLP 모델의 성능평가 결과, RMSE 25.325, MAE 18.981, R-squared 0.870로 나타나, RF 모델과 MLP모델 모두 높은 예측성능을 보이는 것으로 나타났다. 반면 라쏘 회귀 모델은 RMSE 35.065, MAE 26.298, R-squared 0.752로 상대적으로 낮은 예측성능을 보이는 것으로 나타났다(Table 2).
본 논문에서는 높은 예측성능을 보인 MLP 모델과 RF 모델 중 중 RF 기반 모델이 변수의 중요도에 대한 데이터를 제공하여 모델의 해석 및 의사결정과정에 보다 용이하게 활용될 수 있다는 점을 고려하여, RF 기반 모델을 최종모델로 선정하였다.
4.2 화재발생예측 모델 성능검증
2015년부터 2021년까지의 행정구역(시⋅군⋅구) 단위 데이터를 활용하여 개발된 화재발생예측 모델의 성능검증을 위해, 2022년도 행정구역 단위 사회⋅건축적 요인을 통해 예측된 화재발생건수 예측값과 실제 2022년 행정구역에서 발생한 화재건수의 비교를 수행하였다.
성능검증을 위해 2022년 45개 입력변수(사회⋅건축적 요인) 데이터와 예측성능비교를 위한 실제 화재발생건수 데이터가 수집되었다. 수집된 입력변수를 본 논문에서 개발한 화재발생예측 모델에 적용하여 화재발생건수 예측값을 도출하였으며, 그 결과를 실제 화재발생건수와 비교하여 오차율을 계산하였다.
이후 행정구역별 예측성능을 직관적으로 시각화하여 표현하기 위해, 행정구역별 오차율을 기반으로 예측성능을 A~E까지의 다섯 가지 등급으로 구분하였다.
이때 등급은 10% 이하의 매우 낮은 오차율을 보이는 행정구역에 A등급, 10~20%의 오차율의 경우 B등급, 20~30%의 오차율의 경우 C등급, 30~40%의 오차율의 경우 D등급을 부여하였으며, 40%를 초과하는 높은 오차율을 보이는 행정구역의 경우 E등급을 부여하였으며, 그 결과는 Figure 1과 같다.
247개 행정구역(시⋅군⋅구)에 대한 예측성능 등급을 살펴보면, 105개(42.51%)의 행정구역에서 A등급의 예측성능을 보였으며, 66개(26.72%)인 행정구역에서 B등급의 예측성능을 보이는 것으로 나타났다. 또한 41개의 행정구역에서 C등급, 18개의 행정구역에서 D등급의 예측성능을 보였으며, 17개의 행정구역에서만 60% 미만(E 등급)의 예측성능을 보이는 것으로 나타났다.
결론적으로, 본 연구에서 개발한 랜덤포레스트 기반 화재발생예측 모델은 247개 행정구역 중 약 69.23%에 해당하는 171개 행정구역에서 80% 이상의 높은 예측성능(A등급과 B등급)을 보이는 것으로 나타났다.
5. 결 론
본 연구는 도시지역 화재예측의 광범위 적용을 높이기 위해 한국 행정구역 전역(시⋅군⋅구)을 대상으로 사회⋅건축적 요인을 반영한 화재발생예측 모델을 개발하였으며, 그 결과를 요약하면 다음과 같다.
본 연구에서는 2015년부터 2021년까지의 사회⋅건축적 요인을 반영한 화재발생건수 예측모델을 복수의 알고리즘을 통해 구현하고 성능비교를 수행하였으며, 그 결과 랜덤포레스트 기반 모델이 가장 우수한 예측성능을 보이는 것으로 나타났다.
개발한 랜덤포레스트 기반 모델을 활용하여 2022년의 사회⋅건축적 요인 데이터를 활용한 예측 화재발생건수와 실제 화재발생건수를 비교해본 결과, 247개 행정구역 중 171개 행정구역(69.23%)에서 20% 이내의 오차율을 보였다.
본 연구는 화재에 영향을 미치는 다양한 요인을 반영한 행정구역 단위 화재예측모델을 제시하였다는데 그 의의를 가진다. 하지만 행정구역(시⋅군⋅구) 단위로 제공되는 데이터의 한계로 45개의 입력변수만이 고려되었다는 한계를 가지며, 향후 추가적인 데이터 수집을 통한 입력변수의 확대를 통해 예측모델의 성능을 개선할 수 있을 것으로 기대된다.
후 기
이 논문은 2023년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임(No. RS-2023-00242004). 또한 이 논문은 주저자(장추)의 박사학위논문(27)의 일부 내용을 수정보완하여 작성되었음.