OpenAI、AIの経済的価値を測る新指標「GDPval」発表 トップ性能はClaude
米OpenAIは9月25日(現地時間)、AIモデルの性能を、幅広い業界や職種における人間の専門家と比較する新たなベンチマークテスト「GDPval」を発表した。同社は、汎用人工知能(AGI)が全人類に利益をもたらすことを確実にするというミッションの一環として、AIモデルが現実世界で人々をどのように支援できるかについての…
元記事タイトル:OpenAIがAIモデルの現実的な仕事力を測る新テスト「GDPval」を発表
このニュースを簡単に説明すると? AI(人工知能)が本当に人間の仕事を手伝えるかどうかを調べるために、OpenAIが「GDPval」という新しいテストを作りました。これは、AIがどれだけ現実の仕事をうまくこなせるかをチェックするためのものです。
AIってどこまで人間に近づいてるの?
最近、AIはどんどん進化しています。でも、「本当に人間みたいに仕事ができるの?」という疑問がありますよね。そこでOpenAIは、AIの力を現実の仕事で試すための新しいテスト「GDPval(ジーディーピーバル)」を発表しました2。
GDPvalってどんなテスト?
GDPvalは、アメリカで経済に大きく関わっている9つの産業から選ばれた44の職業(たとえば、看護師、弁護士、エンジニアなど)の仕事を使って、AIがどれだけうまくできるかを調べるテストです。実際の仕事の成果物(設計図や法律文書など)を使って、AIと人間の専門家の成果を比べます。
どうやって比べるの?
このテストでは、平均14年以上の経験を持つ専門家が作った仕事と、AIが作った仕事を「ブラインド形式」で比べます。つまり、どちらがAIでどちらが人間かを隠して、どちらが良いかを判断する方法です。結果、最新のAIモデルは人間の専門家にかなり近いレベルまで成長していることがわかりました2。
どのAIが一番すごかった?
OpenAIのGPT-5やGPT-4oなどのモデルのほかに、他社のAIもテストされました。その中で一番評価が高かったのは「Claude Opus 4.1」というモデルで、約半分の仕事で人間と同じかそれ以上の成果を出しました。
AIは人間より早くて安い?
さらにすごいのは、AIは人間よりも約100倍速く、100倍安く仕事をこなせることがわかったことです。もちろん、まだ人間のチェックが必要な部分もありますが、AIが仕事を助ける力はかなり強くなってきています3。
これからどうなるの?
OpenAIは、もっと多くの職業や仕事に対応できるように、GDPvalを改良していく予定です。これにより、AIが社会でどんな役割を果たせるかを、もっと正確に知ることができるようになります。
まとめ:AIは未来の仕事のパートナー?
GDPvalの登場で、AIが本当に人間の仕事を助けられるかどうかが、より現実的にわかるようになりました。これからの社会では、AIと人間が協力して働く時代が来るかもしれませんね。
コメント