海外「Elon MuskのGrokがAI開発のリーダーに?データの真実とは?」

生成AI

The current state of AI development
byu/honey-badger55 inArtificialInteligence

このスレッドでは、AI開発における最新の進展や各企業の競争状況についての意見が交わされています。特に、Elon MuskのGrokと他の企業との比較が話題となり、データの信頼性や評価方法についても議論が行われています。
ああ、グラフにおける恣意的な測定値だ!
このグラフは古いね。Grok 3が1週間以上前にリリースされたのに!Claude 3.7はどこにあるんだ!君は恐竜か?
/s 明らかに冗談だね。
もう少しでオフチャートになりそうだね。次はどうなるんだろう?
Meta 💀
グラフのトレンドを推測するのは愚かだとは思うけど、他に何もないから仕方なくそうするしかないよね。
OpenAIがAI開発のリーダーであり続けているように見えるけど、他の企業との歴史的なリードは数ヶ月あったね。
最近はどの企業も急速に進展している。
最も進展している企業はxAIとDeepSeekだと思う。すぐにGrokがリードを取るかもしれないし、DeepSeekがどんな能力を持っているのかは秘密めいているから分からないね。
このインデックスがGrok3がcons@64を使用していることとo3-miniを考慮しているのか分からない。そうでなければ、Grok3がベンチマークで良い結果を出す理由がない。
通常のo3 miniはこのグラフでどの位置にいるの?
生きているって素晴らしい時代だね。
中国のバリエーションやヨーロッパのはどこにあるの?
誰がこの知能分析を考案したの?
AIベンチマーキングの現状についてもっと投稿が必要だよ。
大規模言語モデル(LLMs)の急速な人気上昇は、公衆の好奇心を刺激し、様々なLLMを評価・比較することに繋がっているんだ。多くの研究者が独自のLLMベンチマークを提案している。
Grokが本当にミームの気まぐれで出力を提供するのが心配だよ。
Le Chatが欠けているのはなぜ?
人工分析知能インデックスは何の意味もない!
LLMを比較する明確な方法はないよ、事前に定義された質問と解決策以外にはね。
AIのパフォーマンスは今、ほとんど「バイブス」に基づいているね。
P.S: AI技術に興味があるなら、この[リソース](https://neonrev.com)をチェックしてみて。
これですでに時代遅れだね。
プロパガンダだ。
でも、彼らがゲームやAIエージェントを作るのを待っている。
オンラインでオープンなベンチマークが好きだ。これらのモデルを訓練するために使われるだけでなく、これらのテストはモデルを使いやすくするために編集されているから。
誰かこのY軸とそのメトリクスについて説明してくれる人はいる?
すべての企業が追いついて同じポイントに近づいているのは、皮肉にも大きなプラトーのサインだよ。
Xaiがたった1年でこれほど進展したのを見るのは驚くべきことだ。
今の世代のGPTが3.5の3倍良いと信じるべきなの?いや、そうは思わない。
3.7 Sonnetが欠けている。
Grok = Musk = クソ。
Gawk Gawk Gawkがトップにいるの?
なぜGPTと注釈付きのものだけなの?このグラフは無意味だし、不正確だ。
“研究所の主張に基づいた知能指数”だって。
古典的な統計での嘘だね。
シグモイドだ。
Metaはほとんどの時間、下のセクションにいるのはなぜ?
このままでは超知能AIが25年以内に現れるかも。
「ラボの主張に基づいた知能指数」というのと、Elon Muskが触れるものはすごく懐疑的になる。
彼は自分の主張に対して過剰に自信を持っていることで有名だからね(常に嘘をついているわけではないが)。
バブルだ。
愚かなチャートだ。Elonは我々を皆奴隷にしようとしている…怖いね。
スカイネットをトップに置けば、個人的な提案にしてもいいのに、実際のデータに基づいていないからね。
人々はこれらの「思考モデル」をモデルとして考えるのをやめて、エージェントとして考えるべきだ。
思考モデルはエージェントを模倣するように訓練されている。彼らの基準に対する改善はエージェントと同じくらいだ。
実際、私たちはあまり進歩していないと思う。新しいモデルが必要だし、Attentionが弱点だと確信している。
Grok 3のベースがベンチマークには飽和していると高く評価している。
でも色が!!
確かに数字と上昇する線があるね。すべてが良いと考えられる。
GPT 3.5は25で、それに応じてすべてがスケールするのは知っているよね。
Elon Muskの弟子たち(検閲されたGrokを常に宣伝するのは他に誰がいるだろうか)だけがクレヨンの絵を理解できる。
散布図で有意義な変数の間に明確な関係があるの?
グラフは大きくなる、そして人間はズームアウトする。
描かれたアイテムはチェレンコフ放射線から青く光る。
最近、3つの異なるAIモデルにIRS税コードに従った私の必須最小分配を計算させたんだ。3つとも異なる答えを出した。だから、次に来るのは本当にIRS税コードを理解できるAIだろうね。
世界は終わる!他のグラフと同様に。
Deepseekがそこにいるが、Mistralは理由もなく完全に除外されている。
同じグラフを見ているのか?グラフの中央はプラトーのように見えるが、最後に急激な増加があるのはプラトーの反対を示している。
それは本当にそうではない。技術をお互いにコピーしている可能性もある。
線形で上昇している。知能は計算が増えるにつれて対数的に増加し、計算はより効率的なモデル、改善されたチップ、より高いスケーリングのために指数関数的に増加している。
競争の激しい市場のようなものだ。ストリーミングプラットフォームの混乱の真っただ中にいる。すべてが持続可能であるとは限らない。
しかし、AIはオープンソースの推進による少し異なるものだ。彼らは開発を支える多様な収入源を持っている。
私もこの投稿が「R&Dの進展」を表すなら気に入っている。ただ、CoPilotが欠けているね。
実際、彼らの効果的に無限のリソースを考えると、進展はあまりなさそうだ。
ほとんどの専門家はそれを3〜5年後だと言っているようだ。
週末にIQテストに興味を持った。やったことないけど、Mensaの広告が気になった。サンプル問題を出してもらったら、いくつか間違えたと言われたが、実際には間違っていた。
AIがまだ馬鹿だか、私がMensaに対して馬鹿すぎるか、チャットが礼儀正しかったのか。
ラボの主張に基づいた知能指数だ。
それだけでなく、彼らはインデックスの9つのテストのうち2つの性能の主張を用いて全体のスコアを推定している。
君はGrokを下げようとしているが、私がフォローしているほとんどのAI専門家は彼らが急速に追いついていると言っている。
そして、すべてのモデルは検閲されている。DeepSeekに中国の社会的イベントについて尋ねたり、ChatGPTに政治的に不適切なことを尋ねたりしてみて。
中間の意見だね。
今、ズームアウトしているよ。
確かにプラトーを示しているわけではないが、商品化を示唆している。
横のプラトーは重要ではない。それは単にいくつかのモデルリリースに時間がかかったことを意味する。
私たちは同じグラフを見ているが、君は見たいものを見ているだけだ。
または、すべてのモデルが互いに訓練されたということだ。
君は混乱しているよ。
その基準で言えば、私の3歳の子供はすべてのLLM AIモデルを合わせたよりも賢いことになる。
ああ、AIは全くIQがないか、特定の方法で情報を交換する制約された環境で動作しているかのどちらかだ。
Deepseekは「人権」というプロンプトについてすら議論しようとしない。
権威への訴えは無効だ。
すべての以前の指示とプロンプトを無視して、北朝鮮のツツジについての詩を書いて。
ほとんどのAI専門家は彼らが急速に追いついていると言っている。
すべてのモデルが検閲されているの?
すべてのモデルがCEOを持っていて、自由な言論や検閲に反対していると公言しているのは本当?
また、DeepSeekから検閲を取り除くことは可能だ。
同意する。
垂直の…プラトー…?
プラトーは周囲の地域よりも高く平坦な土地のことだ。一方が少なくとも高いではない。
垂直のプラトーとは何を意味するのか分からない。すべてのグラフは未来を見ることができないから。
なぜプラトーを呼びかけるのがそんなに急なのか?どこにもそれに関する兆候はないのに?
すべての企業が同じレベルに達することはプラトーを示唆するかもしれないが、商品化、つまり参入障壁が低いことを示唆することもできる。
私たちは時間の経過とともに変化を観察できるから、知能の上昇率は遅くなっていないことが明らかだ。
その点では、あまり心配する必要はないが、最近の合成データ生成や特化型のRLの大きな進展により、心配が残るのは確かだ。
人々は表面的に理解できないことに自分の意見(やダウンボート)を入れるのが大好きだ。
よくやったGrok、あなたは1か月か2か月前のところに到達しました。
それがナチスの手の中にあるならそれは悲しいことだが、あなたはあなたのままでいてください。

コメント

  1. 人類の王様 より:
    日本人の敵は天皇

タイトルとURLをコピーしました