機械から学ぶ/機械で学ぶ:標本のスキャン画像による分類群と形質の認識

この研究では、植物標本画像から分類群と形態学的特性を認識するために、新しい機械学習の手法を用いました。

GBIF 経由で使用されたデータリソース : 830,408の標本画像
Citrullus lanatus
Citrullus lanatus by A.J.B. Chevalier. Via the Herbarium of the Museum of National History, Paris (CC BY 4.0)

この記事は、 GBIFサイエンスレビュー2019にも掲載されています。サイエンスレビューは、研究や政策の分野においてGBIF上のデータが利用された重要で注目に値する事例に焦点を当てています。

人工知能(AI)の発展により、生物多様性情報学のコミュニティではその新しい画期的な使用が急速に進んでいます。生物多様性観察ネットワークiNaturalist.orgや他のツールで使われている機械学習技術の事例では、広い範囲の分類群にわたってリアルタイムの種の同定を向上させるために、コンピューターがどのように画像認識を用いるかという、今ではよく知られた事例が示されています。

自然史コレクションへのディープラーニング(深層学習)の適用はさらに最近のことですが、ゼンケンベルク研究所のSohaib Younis氏が率いるドイツとサウジアラビアの共同チームは、地球上の生命の理解を深めるために、機械学習の可能性にハイライトを当て膨大な数の調査をひとまとめにしました。

研究では、ラベルが付いた種の画像の最大のオンラインコレクションの1つであるGBIFの種のオカレンスのインデックスが選ばれました。これには、 1つ以上の画像が関連付けられた4500万件を超えるレコードが含まれています。自動的に種を認識し提案するシステムを通して市民科学者から提供される画像が増えてきていますが、これらの画像の約4分の3にあたる3000万件以上の画像は世界の自然史コレクションから提供されたものです。

Younis氏と共著者らは、綿密に計画された研究を作り上げる第一歩として、植物標本のスキャン画像に着目しました。彼らは、既存の分類群を認識システムが現在、北アメリカとヨーロッパの分類群に対して最も良く機能していることを踏まえ、アフリカの植物分類群に焦点を当てることにし、最も多くスキャンされている1000種について830,408枚の画像をダウンロードしました。本アプローチにおけるこの部分は、分類群の資料と専門知識がさらに必要な地域における分類群の識別の改善という付加的な恩恵をもたらしました。

「我々の知る限り、これは大量の分類群で複数の形質について取り扱った初めての研究です。これは、認識すべき形質内に形質や変動性の概念のさらなる抽象化があることを示唆しています。」

パターン認識アルゴリズムの急速な向上を活用し、著者らは分類群の識別を超えて、ディープラーニング分析の拡大を模索し、植物標本のスキャン画像から形態学的特徴を識別するディープラーニングのシステムの能力を探求しました。形質データが利用可能な170種の150,000枚を超える画像の一部を抽出し、抽出分の機械学習による分析で葉の形質のうち植物標本のスキャン画像から同定できる19種類(葉の序列、構造、形、縁、葉脈)を検証しました。

他の機械学習による分析と同様、体系立てられた前処理は準備に極めて重要な役割を果たします。ダウンロードした画像をトリミングし、標準サイズに圧縮することで(ここでは292×196ピクセル)、画像解析に必要な準備を整え、機械にとって背景ノイズとなるカラーバー、ラベル、手書きの注釈などの要素を取り除きます。

その結果を著者らは「有望である」とみなしています。分析した上位5つの予測に基づく正確度は96.3%であり、押し葉標本からの分類群の認識は「非常に効率的」と証明されました。このアプローチは「平均的には特性に対しても効果的」でしたが、さらなる研究の余地があります。たとえば、なぜ機械は分類群に固有なパターンより一般化された形質を特定するほうが困難なのか、サンプルサイズでは説明がつきません。これは、正確に種を同定するよりもずっと簡単に個別の特性を認識できるヒトとは正反対です。

この最後に挙げた知見では、ヒトと機械の理解の間にまだ予想できないギャップが残っているという事実が強調されています。多様なコレクションから種や形質を自動認識できれば、作業中のコレクションのデジタル化を支援し、充実させることができますが、文化的規範と慣行は最新技術の進歩による能力に遅れを取る傾向があります。どうすればこうした進歩をそれぞれの欠点と最適に統合でできるでしょうか?

2018年の「Montreal Declaration for a Responsible Development of Artificial Intelligence(人工知能の責任ある開発のためのモントリオール宣言)」は、「数字では道徳的に価値を持つものや社会的に望ましいものを決定できない」と言及しています。この研究の研究チーム同様、生物多様性情報学のコミュニティも、倫理的に責任のある社会的にも望ましい成果を得るために努力しながら、いかにディープラーニングツールを設計し、関わっていくか最善の方法の選択に直面することが予想されます。

Younis S, Weiland C, Hoehndorf R, Dressler S, Hickler T, Seeger B and Schmidt M (2018) Taxon and trait recognition from digitized herbarium specimens using deep convolutional neural networks. Botany Letters. Informa UK Limited 165(3–4): 377–383. Available at: https://doi.org/10.1080/23818107.2018.1446357
Author country/area: Germany, Saudi Arabia