日本語ってだけでAIに出遅れる | おっちゃんねる

おっちゃんねる

ここはおっちゃんの憩いの場 (´・ω・`)

Top / 詳細

日本語ってだけでAIに出遅れる

2023年08月23日
6

1. 名無しのおっちゃん

2023年08月23日 12時58分 ID:5eab1a2b3d (1/1) ID抽出 返信

①文書量が英語と比べて少なすぎる
学習データは質問と回答を1対1にした文章を大量に作成する必要がある
例えばGPT3.5は5000億くらいの文章で学習してるそうだ
それに対して日本語言語モデルは多くて10億くらい
普通なら7億とか1億ちょいとか
AIは学習量が多ければ多いほどいいので
日本人しか使ってない言語を学習元にすると
それだけで出遅れる

②文章の分解が面倒
単語を繋げて書くので単語辞書を用意して形態素解析をして品詞単位で分けないといけない
英語なら半角スペースで区切ってるので形態素解析が不要になる

③為替
学習元データの作成は何千何万人という大人数の単純労働者を雇って最低賃金で作らせるのが普通
MSとかFBとかだけでなくGoogle以外のAI企業は皆そうしてる
しかし日本人を雇うと高いし外国に発注するにしても円安で高い
予算が足りていないのでバカの一つ覚えでWikipediaを学習させる
どいつもこいつもWikipediaを学習させるので質が上がらない

2. 名無しのおっちゃん

2023年08月23日 13時28分 ID:ab0c14a2ad (1/1) ID抽出 返信

かつては自然言語処理では日本が一番進んでると言われた時代もあったんだがなあ。
まあ不平を言っても仕方ないし、国内で出来るだけ頑張っていくしかないね。言語モデルは国内で共有して、開発の方で各々が競う環境を作れれば良いんだけどな。

3. 名無しのおっちゃん

2023年08月26日 05時30分 ID:a1cbf6f1eb (1/1) ID抽出 返信

英語で質問してrespond in Japaneseでええねん

4. 名無しのおっちゃん

2023年08月27日 01時07分 ID:30922cad5a (1/1) ID抽出 返信

地頭とアメリカには勝てないよ
日本語のモデル作っても日本でしか使えないし
CJKだし

5. 名無しのおっちゃん

2023年08月27日 18時41分 ID:afc48c0ef7 (1/1) ID抽出 返信

本来1億3000万人という人口が強みになるはずが、
弱いAIの活用に役立てるのは1割もいればいい方ってのが絶望的
ガッツリ巻き込める体制を政府は構築すべきだった
いつまでもマイナンバーカードなんてやってないで

6. 名無しのおっちゃん

2023年08月28日 00時07分 ID:37b15699de (1/1) ID抽出 返信

政策を決めるのは老人

マイナンバーは国民に番号を割り振るだけだから老人にも理解できる
AIは老人に理解できない

その差

コメントを投稿する


カテゴリー一覧

おっちゃんねる