Tomoe-sn ML データセット
このページではTomo-e Gozen Supernova Transient Pipeline のデータが利用できます。データでは超新星の候補天体か、不要な天体かの2クラス分類を行います。データを利用する際は、サンプルコードをご参照ください(サンプルコードの利用にはID、Passwordが必要です)
▹サンプルコードのリンク欄へ
どんなデータか?
学習用、評価用のデータ全てには以下の2つのどちらか一方のラベルが振られています。
- REAL: 超新星の候補天体
- BOGUS: 不要な天体
学習用データはModelの学習に、評価用データはModelの性能の評価に用いることを想定しています。
学習用データはどんなデータか?
図のように望遠鏡には84台のCMOSセンサが搭載されています。学習用データは、搭載されたセンサの位置による天体の像の歪みに対応するため、84台それぞれのデータを用意しています。
学習用データの数:センサ1つあたり、REALとBOGUS合わせて28,000天体以上。全センサ合計でREALは約100万天体、BOGUSは約200万天体。
REAL:超新星のシミュレーションデータで、2種類のデータから構成されています。
- ランダムに埋め込まれた天体:観測された画像内のランダムな場所に疑似超新星を埋め込んでいます。
- 銀河の周辺に埋め込まれた天体:観測された画像内の銀河の候補の周辺のランダムな場所に疑似超新星を埋め込んでいます。
実際の画像についてはサンプルコード(Model作成)をご確認ください。
BOGUS:実際に検出された不要なデータです。ただし、この中には超新星やそれに近い像をもつ天体による汚染の可能性があることに注意してください。
評価用データはどんなデータか?
Tomo-e Gozen Supernova Transient Pipelineでは、Modelによる分類を行う前の1次処理によって大量の不要な天体を処理します。Modelによる分類は、その1次処理を潜り抜けてきた天体に対して行います。
評価用データの数:REAL 444天体、BOGUS 4845天体です。
REAL:本物の突発天体です。突発天体とは明るさが急激に増加する天体のことです。突発天体には超新星以外の天体も含まれます。
BOGUS:1次処理を潜り抜けてきたことに相当する不要なデータ。ただし、この中には超新星やそれに近い像をもつ天体による汚染の可能性があることに注意してください。
学習の大まかな流れ
- 学習用データと評価用データのダウンロードを行う
- 学習用データを用いてModelを作成する
- 評価用データを用いてModelの性能評価を行う
それぞれの工程のサンプルコードはサンプルコードのリンク欄にリンクが貼ってあります。
サンプルコードは全てPython3です。モジュールなどの動作環境は各サンプルコードでご確認ください。
学習用データと評価用データのダウンロードを行う
サンプルコード(データダウンロード)では学習用データと評価用データのダウンロードを行います。学習用データのサイズは合計約32GBと大きいため、ダウンロードの際はストレージ容量とダウンロード時間にご注意下さい。
学習用データを用いてModelを作成する
サンプルコード(Model作成)では搭載されたセンサの位置による天体の像の歪みに対応するために、84台それぞれに対応するCNN Modelを作成します。
評価用データを用いてModelの性能評価を行う
サンプルコード(Model評価)ではサンプルコード(Model作成)で作成したModelを、評価用データを用いて評価します。