Awesome

入門機械学習パイプライン

本リポジトリはオライリー・ジャパン発行書籍『入門機械学習パイプライン』のサポートサイトです。

レポジトリの構成

各章のノートブックがあります。また、それぞれのノートブックは、 Google の無料の計算環境である Colaboratory、もしくは、AWS の無料の計算環境である Amazon SageMaker Studio Lab を利用してブラウザで実行できます。SageMaker Studio Labの使い方はこちらをご覧ください。

フォルダの構成に関しては、以下の通りです。

フォルダ名	説明
chapters	各章に関するコードを含む
components	顧客の苦情データに対する前処理やモデルのコードを含む
interactive-pipeline	顧客の苦情データに対するインタラクティブなTFXパイプラインのコードを含む
pipelines	さまざまなオーケストレーターに対するパイプライン全体を含む。詳細は11章と12章を参照
pre-experiment-pipeline	著者たちの特徴エンジニアリングやモデルアーキテクチャに関する実験のコードを含む
requirements	実行に必要なPythonパッケージに関する情報を含む
utils	データセットのダウンロードに関するコードを含む

データセットのダウンロード

サンプルプロジェクトで使うデータは、utils/download_dataset.pyを実行することでダウンロードできます。データセットは、米消費者金融保護局が提供している顧客の苦情に関する公開データセットです。データセットをダウンロードするには、リポジトリのルートで次のスクリプトを実行します。

python utils/download_dataset.py

スクリプトの実行を終えると、consumer_complaints_with_narrative.csvという名前のファイルを含むdataディレクトリが作成されます。

ライセンス

MIT

正誤表

下記の誤りがありました。お詫びして訂正いたします。

本ページに掲載されていない誤植など間違いを見つけた方は、japan@oreilly.co.jpまでお知らせください。

第1刷

■7章 P.131 最終段落の重複

誤

モデルが分析され、検証されたので、いよいよパイプラインで重要な次のステップである、モデルのサービングに移る時が来ました。以降の2つの章では、この重要なステップについて知っておくべきことをすべて説明します。

モデルが分析され、検証されたので、いよいよパイプラインで重要な次のステップである、モデルのサービングに移る時が来ました。以降の2章では、この重要なステップについて知っておくべきことをすべて説明します。

正

モデルが分析され、検証されたので、いよいよパイプラインで重要な次のステップである、モデルのサービングに移る時が来ました。以降の2つの章では、この重要なステップについて知っておくべきことをすべて説明します。

■14章 P.295 最終段落の重複

誤

データのプライバシーと機械学習の目標はよく一致しています。とりわけ、1人の個人について学習するより、集団全体について学習し、誰にとっても等しく良い予測をしたいという点で一致しています。プライバシーを追加することで、ある人のデータに、モデルが過学習するのを防ぐことができます。将来的には、モデルが個人データで学習される際に、機械学習パイプラインにプライバシーが最初から組み込まれた設計になることでしょう。

データのプライバシーと機械学習の目標はよく一致しています。とりわけ、1人の個人について学習するより、集団全体について学習し、誰にとっても等しく良い予測をしたいという点で一致しています。プライバシーを追加することで、モデルがある人のデータに過学習するのを防ぐことができます。将来的には、モデルが個人データで学習される際に、機械学習パイプラインにプライバシーが最初から組み込まれた設計になることでしょう。

正

データのプライバシーと機械学習の目標はよく一致しています。とりわけ、1人の個人について学習するより、集団全体について学習し、誰にとっても等しく良い予測をしたいという点で一致しています。プライバシーを追加することで、モデルがある人のデータに過学習するのを防ぐことができます。将来的には、モデルが個人データで学習される際に、機械学習パイプラインにプライバシーが最初から組み込まれた設計になることでしょう。

■15章 P.302 最終段落の重複

誤

図15-2には、3つの非常に重要な機能を挙げています。それは、自動化、スケーラブル、再現性の3つです。自動化されることで、データサイエンティストはモデルの保守から開放され、新しいモデルを試す時間ができます。スケーラブルであることで、大量のデータを処理できます。また、再現性があることで、1つのプロジェクト用にインフラを一度用意してしまえば、2番目以降のプロジェクトを簡単に構築できるようになります。これらはすべて、機械学習パイプラインを成功させるために必要不可欠な機能です。

図15-2には、3つの非常に重要な機能を挙げています。それは、自動化、スケーラブル、再現性の3つです。自動化されることで、データサイエンティストはモデルの保守から開放され、新しいモデルを試す時間ができます。スケーラブルであることで、大量のデータを処理できます。また、再現性があることで、一度1つのプロジェクト用にインフラを用意してしまえば、2番目以降のプロジェクトを簡単に構築できるようになります。これらはすべて、機械学習パイプラインを成功させるために必要不可欠な機能です。

正

図15-2には、3つの非常に重要な機能を挙げています。それは、自動化、スケーラブル、再現性の3つです。自動化されることで、データサイエンティストはモデルの保守から開放され、新しいモデルを試す時間ができます。スケーラブルであることで、大量のデータを処理できます。また、再現性があることで、1つのプロジェクト用にインフラを一度用意してしまえば、2番目以降のプロジェクトを簡単に構築できるようになります。これらはすべて、機械学習パイプラインを成功させるために必要不可欠な機能です。