発表のポイント

◆脱炭素社会の実現に資する森林バイオマスのエネルギー利用のために、森林バイオマスの安定供給を保証することで、供給量の年単位での不均衡の問題を解決しました。
◆森林の伐採計画をDec-POMDP(分散部分観測マルコフ決定過程)としてモデル化し、強化学習アルゴリズムを用いて解決しました。
◆MARL(Multi-Agent Reinforcement Learning)を用いた森林伐採計画の実証研究としては初の試みであると評価できます。

発表概要

 カーボンニュートラルの目標を達成するために、森林バイオマスがクリーンエネルギーとして熱供給や発電に利用されはじめています。しかし、樹種や伐採時の林齢などの要因により、年間の森林バイオマス供給量には大きな変動があり、バイオマス発電所の規模の最適化を困難にしています。供給量が多すぎる場合は保管費用が発生し、逆に少なすぎる場合は燃料不足や高価な代替木材の調達が必要となるためです。森林資源の持続的な利用を技術的な側面から追究する東京大学森林利用学研究室の研究グループは、韓国・国立忠南大学環境素材工学科との共同研究により、森林バイオマスをより安定的かつ効率的に供給するために、AIのマルチエージェント強化学習(MARL)アルゴリズムを適用し、森林の動的な成長シミュレーションを行いながら、バイオマスの収穫量を最大化かつ平準化する伐採計画を策定しました。

発表内容

 本研究は、静岡県富士森林計画区(注1)をモデル地域に設定しました。樹種はスギとヒノキに設定し、林種は育成単層林、地位は中の普通林を対象としたところ、該当する小班の総数は74,500、面積の合計は28063.55 ha、6市2町が含まれました。MARLは、複数のエージェントが同じ環境内で互いに影響し合いながら、試行錯誤を通じて最適な行動を学ぶ強化学習の一手法です。各エージェントは協力や競争などの関係性を持ちつつ、全体としての最適化を目指すというものです。強化学習による森林伐採計画では、市町ごとにエージェントを設定し、伐採のタイミングや量を調整することで、バイオマス供給の均衡化と最大化が図られます(図1)。

図1  MARLの適用フロー

 強化学習環境における樹木成長シミュレーションは、伐採前と伐採後の二段階に分けて検討しました。伐採前のシミュレーションでは、2022年および2024年の静岡県森林簿データを用い、林齢ごとの材積成長率を算出しました。また伐採後のシミュレーションでは、林野庁が公表した「国有林野成長予測モデル整備事業」で定められた成長曲線を利用し、材積を予測しました。
 本研究の目的は、60年間にわたりバイオマス収穫量を最大化すると同時に、その均衡を図ることであり、伐採サイクルの期間内における年間バイオマス収穫量の分散を均衡の指標として用いました。図2に示すように、強化学習モデルの実行に伴い、バイオマスの総収穫量は増加傾向を示し、年間収穫量の分散は低下していきました。つまり、「収穫量を最大化すると同時に、その均衡を図る」ことの成功に近づいたといえます。年間250 haの伐採条件下では、バイオマス総収穫量の最大値は2307.96 t/haに達し、分散の最小値は6071を示しました。また、発電量は19,583 kWh/haとなり、これは富士地域森林計画書の伐採計画に基づき算出された発電量17,132 kWh/haと比較して、14.3%の増加量に相当します。

図2 各エピソード(注2)におけるバイオマス総収穫量(左)と年間収穫量の分散(右)

 学習前後におけるバイオマス収穫量の比較結果を図3に示します。これは、初回の方策(注3)更新時と比較して、5000エピソードの学習後における各計画期間のバイオマス収穫量を示したものです。5000エピソードの学習後には、より大きなバイオマス総収穫量が得られるとともに、各年の収穫量もより平準化しました。年間伐採面積250 haにおける分散の低減率は81.08%であり、バイオマス総収穫量は3.42%増加しました。バイオマス総収穫量の増加幅が年間収穫量の分散の低下幅を下回ったのは、今回の強化学習におけるリワード(注4)設定が、収穫量の均衡化を重視していたためと考えられます。

図3 強化学習前後におけるバイオマス収量の比較(250ha/year)

 本研究で採用したマルチエージェント強化学習の手法は、森林伐採問題への応用として初めての試みです。結果として、各エージェントが協調しながら最適解を探索する挙動が確認されました。具体的には、シミュレーションを通じて、バイオマス総収穫量の最大化と年間バイオマス収穫量の分散最小化という二つの目標が同時に達成される収束現象が観測されました。すなわち、バイオマスの安定供給に必要な最適解が得られたことが示唆されました。 現実の森林伐採環境においては、多様な主体間の協調行動が数多く存在することから、マルチエージェント強化学習の応用可能性は大きく、今後の発展が期待されます。

発表者

王 煒恒(東京大学大学院農学生命科学研究科森林科学専攻 修士課程)
金 鉉倍(韓国忠南大学環境素材工学科 助教授)
吉岡 拓如(東京大学大学院農学生命科学研究科森林科学専攻 准教授)

発表雑誌

雑誌名:Biomass and Bioenergy
論文タイトル:Developing a model for managing sustainable woody biomass resources in the Fuji region of Japanese temperate climate: Reinforcement learning-based optimization
著者:Weiheng Wang, Hyun Bae Kim, Takuyuki Yoshioka
DOI番号:https://doi.org/10.1016/j.biombioe.2025.107972
論文URL:https://www.sciencedirect.com/science/article/pii/S0961953425003836

研究助成

 本研究の一部は、日本学術振興会科研費(課題番号:20K06121)の助成を受けて行われました。

用語解説

注1 森林計画区:
 民有林の場合は全国に158の森林計画区があり、森林法第7条第1項にもとづき、農林水産大臣が都道府県知事の意見を聴き、地勢その他の条件を勘案し、主として流域別に都道府県の区域を分けて定めた区域をいいます。
注2 エピソード(episode):
 強化学習におけるエピソードとは、エージェントと環境の間の一連のインタラクションを、初期状態から終端状態(タスクの完了または失敗)に至るまでで区切った一連の過程を指します。たとえば、ゲームでは1プレイ、ロボット制御では1タスクの試行開始から終了までが1エピソードに相当します。
注3 方策:
 強化学習エージェントの振る舞い方を定義する関数です。ある状態において、取り得る行動の選択確率(確率的方策)または選択すべき行動そのもの(決定的方策)を出力します。学習の目的は、期待累積報酬を最大化する最適方策を見つけることです。
注4 リワード(reward):
 強化学習において、エージェントの行動に対する環境からの即時の評価信号のことです。数値で与えられ、エージェントはこの報酬の累積和(収益)を最大化するように行動を学習します。報酬の設計は、学習の成否を左右します。

問い合わせ先

東京大学大学院農学生命科学研究科森林科学専攻
森林利用学研究室 准教授 吉岡 拓如(よしおか たくゆき)
Tel: 03-5841-5215
E-mail: tyoshioka <アット> fr.a.u-tokyo.ac.jp
<アット>を@に変えてください。

関連教員

吉岡 拓如