ある問題を解決するために使用される解決プロセスのことを指す。つまり、問題解決の方法である。
数学では、一つの問題に対して複数の解法が存在するように、プログラミングにおいても一つの問題に対して複数の解法が存在する。その中でも、最も効率的な方法をその問題に対するアルゴリズムという。
数学の公式のように、特定の形態や構造を持つプログラミングの問題には、公式化されたアルゴリズムが存在する。
科学において問題を定義することは、研究の核心的な第一段階である。特に計算問題を解決するためには、まず問題の主要な変数を特定し、それを数学的に解釈する必要がある。
例えば、朝鮮半島の地すべりリスクを予測する問題を解決するには、どの要素が地すべりの発生に影響を与えるのかをまず定義しなければならない。地すべりは地形的、気候的、地質的要因によって発生するため、研究では標高、土壌タイプ、傾斜度、降水量などの変数を考慮して問題を定義した。
このように、計算問題は単なる数式の組み合わせではなく、実際のデータを基に関係を設定し、それを数学的モデルに変換するプロセスが含まれる。例えば、地すべりの発生を予測する問題では、目標は与えられた環境変数から地すべりのリスクを計算することであり、そのために機械学習モデルを活用できる。
問題を解決するためには、複雑な問題を小さな単位に分けて分析するプロセス、つまり問題の分解が不可欠である。地すべりリスク予測の問題を例に挙げると、研究ではこの問題を以下のように分解した。
データ収集:地すべり発生に関連するデータを取得する。(例:衛星データ、森林庁の資料)
主要変数の選定:どの変数が地すべりに最も大きな影響を与えるかを決定する。(例:降水量、傾斜度)
数学的モデルの適用:ランダムフォレスト、XGBoost などの機械学習モデルを使用してリスクを予測する。
結果の分析:モデルの精度を評価し、改善策を探る。
このように問題を詳細に分割することで、それぞれの段階で必要な計算やアルゴリズムを明確にすることができる。
モデリングとは、現実世界の問題を数学的、コンピュータベースのモデルに変換して解決するプロセスを意味する。朝鮮半島の地すべり研究におけるモデリングの手法は以下の通りである。
入力データ:標高データ(SRTM-DEM、ALOS-DSM)、土地被覆マップ、森林立地土壌マップなどを使用。
特徴抽出:機械学習モデルが学習できるようにデータを整理し、変数ごとに重みを付与。
予測モデルの適用:ランダムフォレスト、XGBoost などのアルゴリズムを適用し、地すべりの危険地域を予測。
結果の可視化:GIS(地理情報システム)を活用し、朝鮮半島の地すべりリスクマップを作成。
モデリングを活用すれば、複雑な自然現象を定量的に分析でき、将来の予測が可能となる。
気候変動により、朝鮮半島で発生する自然災害の一つである地すべりは、予想以上に大きな被害をもたらす可能性がある。しかし、従来の研究は土砂崩れに集中しており、地すべりリスクを予測する研究は比較的少なかった。したがって、本研究の目的は、朝鮮半島の地すべりリスクを定量的に分析し、予測可能なモデルを開発することであった。
(1) データ収集と前処理
研究では、さまざまなデータを活用して地すべりリスク要因を分析した。
衛星データ収集
SRTM-DEM(2013年)および ALOS-DSM(2017年)データを活用し、地形特性を分析。
環境および土壌データ収集
森林庁が提供する森林立地土壌マップを活用し、土壌タイプ、排水特性、地形コードを分析。
気象データ分析
降水量の変化に伴う地すべり発生の可能性を考慮し、気象データを含める。
これらのデータを整理し、機械学習アルゴリズムが学習できるように正規化して前処理を行った。
(2) 問題分析とモデル選定
研究では、地すべりの発生に影響を与える多様な変数を考慮し、機械学習モデルを適用した。
ランダムフォレスト(Random Forest):複数の決定木を組み合わせ、変数間の複雑な関係を効果的に学習。
XGBoost(eXtreme Gradient Boosting):高い予測精度を提供するが、過学習のリスクあり。
Gradient Boosting Model(GBM):順次的に予測性能を改善するアルゴリズム。
最適なモデルを見つけることが研究の重要な目標であった。
(3) モデルの学習と検証
データを訓練データ(70%)と検証データ(30%)に分割して学習。
さまざまなモデルを適用し、それぞれの予測精度を比較。
ランダムフォレストモデルが 69% の精度 で最も高い性能を示した。
検証データでは一部性能低下が見られ、過学習を防ぐためのハイパーパラメータチューニングを実施。
(4) 研究結果と改善点
最終的に地すべりリスク予測モデルを構築し、GIS を活用した危険マップを作成。
ランダムフォレストモデルの精度は高かったが、依然として過学習の問題があり、さらなるデータ収集が必要と判断。
この研究を通じて、私は単なるデータ分析ではなく、実際の問題解決には論理的思考と創造的アプローチが不可欠であることを学んだ。
データ分析と前処理が研究の核心であると実感。
モデルの適用だけでなく、性能向上の最適化が必要であると学んだ。
研究成果を基に、実際の解決策を提示することの重要性を理解した。
今後は、この経験を活かし、PM2.5 予測、航空気象データ分析 などの環境・気象関連問題の研究を続けていきたい。
어떤 문제를 해결하기 위해 사용되는 풀이과정을 말한다. 즉, 문제해결방법이다.
수학에서 한 문제에 대해 여러가지 풀이법이 존재하는 것처럼, 프로그래밍 또한 한 문제에 대해 여러 풀이법이 존재한다. 여러가지 풀이법 중 가장 효율이 좋은 방법을 어떤 문제에 대한 알고리즘이라고 한다.
수학의 공식처럼, 특정 형태 또는 구조를 갖는 프로그래밍 문제에는 공식화된 알고리즘이 존재한다.
과학에서 문제를 정의하는 것은 연구의 핵심적인 첫 단계다. 특히 계산 문제를 해결하려면 먼저 문제의 주요 변수를 파악하고, 이를 수학적으로 해석할 필요가 있다. 예를 들어, 한반도의 땅밀림 위험 예측 문제를 해결하려면 어떤 요소들이 땅밀림 발생에 영향을 미치는지를 먼저 정의해야 한다. 땅밀림은 지형적, 기후적, 지질학적 요소에 의해 발생하므로, 연구에서는 해발고도, 토양 유형, 경사도, 강우량 등의 변수를 고려하여 문제를 정의했다.
이처럼 계산 문제는 단순한 수식의 조합이 아니라, 실제 데이터를 바탕으로 관계를 설정하고, 이를 수학적 모델로 변환하는 과정이 포함된다. 예를 들어, 땅밀림의 발생 여부를 예측하는 문제에서 목표는 주어진 환경 변수들로부터 땅밀림 위험도를 계산하는 것이며, 이를 위해 머신러닝 모델을 활용할 수 있다
문제를 해결하려면 복잡한 문제를 작은 단위로 나누어 분석하는 과정, 즉 문제 분해가 필수적이다. 땅밀림 위험 예측 문제를 예로 들어보자. 연구에서는 이 문제를 다음과 같이 분해했다.
데이터 수집: 땅밀림 발생과 관련된 데이터를 확보한다. (예: 위성 데이터, 산림청 자료)
주요 변수 선정: 어떤 변수가 땅밀림에 가장 큰 영향을 미치는지 결정한다. (예: 강우량, 경사도)
수학적 모델 적용: 랜덤 포레스트, XGBoost 등의 머신러닝 모델을 사용하여 위험도를 예측한다.
결과 분석: 모델의 정확도를 평가하고, 개선할 방법을 찾는다.
이처럼 문제를 세부적으로 나누면 각각의 단계에서 필요한 계산 및 알고리즘을 명확히 할 수 있다.
모델링은 현실 세계의 문제를 수학적, 컴퓨터 기반 모델로 변환하여 해결하는 과정을 의미한다. 한반도 땅밀림 연구에서 모델링을 수행한 방식은 다음과 같다.
입력 데이터: 해발고도(SRTM-DEM, ALOS-DSM), 토지피복지도, 산림입지토양도 등의 데이터를 사용
특성 추출: 기계학습 모델이 학습할 수 있도록 데이터를 정리하고 변수별로 가중치를 부여
예측 모델 적용: 랜덤 포레스트, XGBoost 등의 알고리즘을 적용하여 땅밀림 위험 지역을 예측
결과 시각화: GIS(지리정보시스템)를 활용하여 한반도의 땅밀림 위험 지도를 생성
모델링을 활용하면 복잡한 자연 현상을 정량적으로 분석할 수 있으며, 미래 예측이 가능해진다.
기후 변화로 인해 한반도에서 발생하는 자연재해 중 하나인 땅밀림은 예상보다 더 큰 피해를 일으킬 수 있다. 하지만 기존의 연구는 산사태에 집중되어 있었으며, 땅밀림 위험을 예측하는 연구는 상대적으로 부족했다. 따라서 우리의 연구 목표는 한반도의 땅밀림 위험도를 정량적으로 분석하고 예측할 수 있는 모델을 개발하는 것이었다.
(1) 데이터 수집 및 전처리
연구에서는 다양한 데이터를 활용하여 땅밀림 위험 요인을 분석했다.
위성 데이터 수집
SRTM-DEM(2013년) 및 ALOS-DSM(2017년) 데이터를 활용하여 지형 특성 분석
환경 및 토양 데이터 수집
산림청에서 제공하는 산림입지토양도를 활용하여 토양 유형, 배수 특성, 지형 코드 분석
기상 데이터 분석
강우량 변화에 따른 땅밀림 발생 가능성을 고려하여 기상 데이터 포함
이후 데이터를 정리하고, 머신러닝 알고리즘이 학습할 수 있도록 각 데이터 포인트를 정규화하여 전처리했다.
(2) 문제 분석 및 모델 선정
연구에서는 다양한 변수들이 땅밀림 발생에 영향을 미친다는 점을 고려하여 기계학습 모델을 적용하였다.
랜덤 포레스트 (Random Forest)
여러 개의 결정 트리를 조합하여 학습, 변수 간의 복잡한 관계를 효과적으로 학습
XGBoost (eXtreme Gradient Boosting)
기존 모델보다 더 높은 예측 정확도를 제공하지만 과적합 문제가 있을 수 있음
Gradient Boosting Model (GBM)
순차적으로 예측 성능을 개선하는 알고리즘
이러한 모델들을 비교하여 최적의 모델을 찾는 것이 연구의 핵심 목표 중 하나였다.
(3) 모델 학습 및 검증
데이터를 훈련 데이터(70%)와 검증 데이터(30%)로 나누어 학습
다양한 모델을 적용한 후 각각의 예측 정확도를 비교
랜덤 포레스트 모델이 Accuracy 69%로 가장 높은 성능을 보임
검증 데이터에서는 일부 성능 저하가 발생하여 과적합 문제 해결을 위한 하이퍼파라미터 튜닝 진행
이 과정을 통해 모델의 한계를 인식하고, 해결책을 찾아가는 경험을 할 수 있었다.
(4) 연구 결과 및 개선 방향
최종적으로, 땅밀림 위험 예측 모델을 구축하여 GIS 기반 위험 지도를 제작하였다.
랜덤 포레스트 모델이 가장 높은 정확도를 보였지만, 여전히 과적합 문제가 존재하였고, 더 많은 데이터를 활용한 연구가 필요하다는 점을 확인하였다.
연구 결과를 바탕으로 추가적인 데이터를 수집하고, 정밀한 예측 모델을 개발하는 방향으로 개선 가능하다고 판단하였다.
이 연구를 수행하면서 나는 단순한 데이터 분석이 아니라, 실제 문제 해결 과정에서 논리적 사고와 창의적인 접근이 얼마나 중요한지를 배웠다.
데이터 분석 및 전처리가 연구의 핵심 단계라는 점을 깨달았다.
단순한 모델 적용이 아니라, 모델 성능을 향상시키는 최적화 과정이 필수적임을 경험했다.
연구 결과를 바탕으로 실질적인 해결책을 제시하는 것이 중요하다는 점을 배웠다.
이제 나는 이러한 경험을 바탕으로 미세먼지 예측, 항공 기상 데이터 분석 등 더 다양한 환경 및 기상 관련 문제를 해결하는 연구를 해보고 싶다. 앞으로도 데이터 기반 문제 해결력을 키우며, 세상에 기여할 수 있는 연구를 지속해 나갈 것이다.
発表ポスター
발표포스터
論文
논문