OpenAIなどのAI学習元アーカイブを構築してきた非営利団体「Common Crawl」の実態、有料ページを含む数十億のウェブページを2013年以来スクレイピングし続けている

OpenAIなどのAI学習元アーカイブを構築してきた非営利団体「Common Crawl」の実態、有料ページを含む数十億のウェブページを2013年以来スクレイピングし続けている

OpenAIなどのAI学習元アーカイブを構築してきた非営利団体「Common Crawl」の実態、有料ページを含む数十億のウェブページを2013年以来スクレイピングし続けている

非営利団体Common Crawlは、10年以上にわたりインターネットの広範なアーカイブを構築してきました。このペタバイト規模のデータベースは研究用に無料で公開されていますが、近年、OpenAI、Google、Meta、AmazonといったAI企業が大規模言語モデル(LLM)の訓練に利用していることが物議を醸していると、アメリカの月刊雑誌…

はてなブックマーク - OpenAIなどのAI学習元アーカイブを構築してきた非営利団体「Common Crawl」の実態、有料ページを含む数十億のウェブページを2013年以来スクレイピングし続けている はてなブックマークに追加

コメント

この記事へのコメントはありません。

おすすめ記事

最近の記事
おすすめ記事
PAGE TOP