human-data-lib

カタログ運用方針

目的

human-data-lib は、人間由来バイオデータ解析に関わる OSS や公式の公開リポジトリで確認できるライブラリ、ツール、標準、ワークフロー、プラットフォームを一つの機械可読カタログとして整理します。

「全部」を扱うための現実的な方針は、完全列挙を主張することではなく、次の条件を満たす入口を作ることです。

公式情報に戻れる
公開リポジトリへ戻れる
分子、細胞、組織、臓器、個体、臨床、集団、環境の尺度で検索できる
分野、データ種別、処理段階で検索できる
重複や表記揺れを抑えられる
新しい領域を追加しても壊れにくい
日本語で判断しやすい短い要約を持つ

採録対象

採録対象には、狭義のライブラリだけではなく、実務上の解析選定に必要な周辺成果物も含めます。

library: Python/R/Java/C++ などから呼び出す再利用可能コード
tool: CLI や GUI で使う解析ツール
workflow: 既成パイプライン
workflow-engine: パイプライン実行基盤
standard: BIDS、FHIR、OMOP、CWL、WDL などの仕様
platform: Web/desktop/server 型の解析・記録基盤
ecosystem: Bioconductor、nf-core、OHDSI HADES などの集合体

情報源

優先順位は次の通りです。

公式ドキュメント
公式プロジェクトサイト
公式 GitHub / GitLab / organization repository
公式にリンクされたパッケージレジストリのソースページ
論文や第三者紹介は補助情報に留める

不確かな情報は入れません。特に、最新バージョン、インストール数、引用数、ベンチマーク値は変動しやすいため、必要な場合だけ別途検証します。

ID ルール

小文字英数字とハイフンを使います。
既存プロジェクト名を優先します。
同名衝突がある場合だけ、psych-r のように生態系名を付けます。
一度入れた ID は、表示名や URL が変わっても可能な限り維持します。

分類ルール

domains, modalities, tasks, ecosystems, scales は複数指定できます。

分類は厳密な階層ではなく、検索のためのタグです。例えば MNE-Python は neurophysiology、EEG、preprocessing、Python を同時に持てます。

scales は次の値を中心に使います。

molecular: ゲノム、転写、タンパク質、代謝物、マイクロバイオームなど
cellular: single-cell、cytometry、細胞画像、細胞状態など
tissue: 組織、病理、spatial omics など
organ-system: 脳、心血管、睡眠、医用画像、生体信号など
whole-person: 個人単位の行動、心理、質問紙、アウトカムなど
behavioral: 実験課題、移動、反応時間、行動ログなど
clinical: EHR、FHIR、OMOP、臨床ノート、医用画像など
population: コホート、疫学、公衆衛生、集団遺伝など
environmental: 曝露、地理空間、移動、建成環境など
infrastructure: 標準、ワークフロー、データモデル、プライバシー基盤など

除外ルール

次の項目は原則として入れません。

公式ページが確認できない項目
公式または準公式の公開リポジトリが確認できない項目
研究用の一時的スクリプトで、再利用可能な形になっていないもの
実データ、個人情報、認証情報
解析ライブラリではなく、一般的すぎる基盤のみの項目
医療判断を直接代替すると誤解される記述

日本語要約

summary_ja は 1 文で、何のデータに何をするものかを簡潔に書きます。宣伝文句ではなく、用途が分かる実務的な文にします。

This site is open source. Improve this page.