人工無脳
- 1 :1:02/05/07 05:55 ID:JxGSPxBK.net
- いい人工無脳ありませんか?
- 442 :nobodyさん:2010/05/16(日) 21:26:03 ID:???.net
- mecabも使ってみたよ中間ファイルを介するのでそれをまた正規表現しないといけないだろ
それに正確な必要はないと思うんだ
普通の技術者は正確に
認識さ/れた or れない
って考えるけど
認識/された or されない
と認識すれば、形態素解析もそんなに難しいものじゃなくなるだろ(早いし)
あまり厳密にマルコフ連鎖させると日本語らしくない日本語ができてしまうので
辞書型とのハイブリッドが最終目的
- 443 :nobodyさん:2010/05/16(日) 21:51:43 ID:???.net
- とりあえずよそのHPから
例
http://ja.wikipedia.org/wiki/%E3%82%A4%E3%83%8C
から
文字抜き取り形態素解析におくるところ作ってた
まだ完成してないけど
- 444 :nobodyさん:2010/05/17(月) 23:55:42 ID:Tr+nzFXD.net
- 動詞・形容詞の使い方パターンを作るのがめんどくさくなってきた何とか自動化できないか
と書くと形態素解析ソフトを薦められるがmecabを内部で起動できるようにして辞書登録しようと思って半日ぐらい遊んだが
使ってみたけどそのめんどくささは今の100倍になるよということが今日一日わかった
今の自作のアルゴリズムだと
原文
2ちゃんねるは面白い
自作
2 数字
ちゃんねる 名詞
は 助詞
面白 漢字
い ひらがな
(助詞はそんなに多くないので文末にくればめんどくさくない まだ作ってないけど)
名詞は高確率で分離されるが
mecabを使うと
2 名詞
ちゃん 名詞
ねる 動詞
は 助詞
面白い 形容詞
名詞も動詞もぐずぐずになる
たぶん"2ちゃんねる"は自動では名詞にできない
mecabの辞書から抽出してみるか
- 445 :nobodyさん:2010/05/18(火) 00:55:08 ID:???.net
- >>444
MeCabの辞書にwikipediaの項目やらはてなワードやらを
全部名詞で追加してやると良いと思うよ
まぁ中には動詞あるのかもしれないけど大抵名詞だから
あと、名詞は新しい言葉が増えてくけど動詞は大して増えないから気にしなくてもあんま問題無い
(まぁググるとかはかなり浸透してるけど)
- 446 :nobodyさん:2010/05/18(火) 00:59:24 ID:???.net
- あと
"めんど臭いから"自作するなら(特殊な用途除き)確実に既存の奴使った方が良いぞ
"興味が有るから"自作するなら好きにすれば良いが
- 447 :nobodyさん:2010/05/18(火) 12:39:22 ID:ZcBPV0UE.net
- >>"めんど臭いから"自作するなら(特殊な用途除き)確実に既存の奴使った方が良いぞ
そのめんどくささが既存のものだと100倍になる
アルゴリズムとして辞書から読み出し 比較だとすごい時間がかかるから
第一弾としてひらがな と 漢字などの集合体で 分ける
ひらがな 集合体 たとえば 4文字の組み合わせは
50^4(ひらがな50文字として)=6250000
その中で日本語として意味が通じるのは1%切ると推測されるから
それを単純にif 分で分離して やれば 80%位は分を理解できるんではないかとそれ以後は、辞書登録させ比較させる
原文
まぁググるとかはかなり浸透してるけど
自作
まぁ/ググ/るとかはかなり/浸透/してるけど
まだ作ってないが将来的に辞書引きして かなり とかは 分解できそうなので
まぁ/ググ/る/とかは/かなり/浸透/してるけど
にはなると思う
mecabの場合
ググ 名詞,一般,*,*,*,*,*
る 助動詞,*,*,*,文語・ル,基本形,る,ル,ル
とか 助詞,並立助詞,*,*,*,*,とか,トカ,トカ
はか 名詞,一般,*,*,*,*,はか,ハカ,ハカ
なり 助動詞,*,*,*,文語・ナリ,基本形,なり,ナリ,ナリ
になってしまう
自分で作ったものなら、何とかなるけど他人様の作ったものを解析してやる気力はない
- 448 :nobodyさん:2010/05/18(火) 13:07:12 ID:???.net
- >>447
なんかなぁ
そんなのは辞書の問題なのにMeCabがダメってのはどうなんよ
自分も(無脳では無いが)MeCab使った事あるけど精度・速度・使い勝手どれもまぁ満足できるレベルだ
もちろん、用途に合わせて辞書は若干チューンしたが
ちなみにMeCabは
>アルゴリズムとして辞書から読み出し 比較だとすごい時間がかかるから
これ+スコア付けを、あのスピードでやってる
- 449 :nobodyさん:2010/05/18(火) 14:20:49 ID:ZcBPV0UE.net
- ちなみに"めんど臭いから"
は
行き当たりばったりでif分を書いてるので
文書を読む解析する成り立ってないものを
プログラムをとめてif分にして活用形も考える
デバッグ
とやっているので機械的作業にだんだん飽きてきた
助詞は数10しかないので一気にできたけど
一時的に辞書参照型に改造しよう
多少は楽になるだろう
二次生成物をうpした
mecabで遊んでくれ
http://uploader.moe.hm/cgi-bin/upload.cgi?mode=dl&file=1996
- 450 :nobodyさん:2010/05/18(火) 14:26:13 ID:???.net
- >>そんなのは辞書の問題なのにMeCabがダメってのはどうなんよ
使ったことがあるんだろうが
〜って何?
とか
成り立たない文章とか生成しないかい?
最終的にこれを防ぐ方法を考えてるんだ
- 451 :nobodyさん:2010/05/18(火) 15:19:22 ID:???.net
- >>450
>〜って何?
>とか
>
>成り立たない文章とか生成しないかい?
MeCabはタダの形態素解析エンジンだぞ?
人工無能で文章生成する部分はMeCabの担当じゃない
もちろん変な解析のせいで最終的に変になるかもしれ無いが
殆どは変な(若しくは簡単な)生成や変な構文解析のせいで変な文になると思うよ
- 452 :nobodyさん:2010/05/19(水) 01:00:01 ID:???.net
- 多分行き違いがある値と思うんだがチャット等で人間の会話する時にも
解析させるとき単純に名詞だけ抜くのではなく無能にその言い回しを覚えさせたいので
あまりばらばらにされると困るばらばらにしすぎるから変な日本語になると思うんだ
辞書登録定分返し方式みたいに
こんにちは〜
と入力されたら
こんにちは と反射的に返すみたいに
半分定分にしたい
原文
こんにちは今日も良い天気ですね
解析後
こんにちは/今日も/良い/天気/ですね
このくらいの分解がほしい
mecabなどは逆に高精度過ぎて
すもももももももものうち
分解できてしまうのが困るんだ
とりあえず、辞書参照には改造できた
検索時間がもっとかかると思ったけど
なかなか早いエクセルのおかげだけど
ポケモンショックがおきそうだな
ほかの言語に移植したら死ぬほど遅くなるかもしれないが
- 453 :nobodyさん:2010/05/19(水) 02:55:41 ID:???.net
- 品詞も教えてくれるんだから分けたあと希望の単位にくっつければ良いだけ
くっつけた塊も一つの品詞としてみなせば好きなだけ粗く出来る(最後は一つの文になる)
この方法なら塊単位のマルコフ連鎖でスムーズな日本後にも出来る
しかしお前さんには何を言っても無駄なようなのでもう諦める
- 454 :nobodyさん:2010/05/20(木) 00:13:15 ID:???.net
- 説得いわれはないと思うんだが
普通に
>>453
のような無脳を作ってもほかの無脳と同じになるだけだろうに
それでは意味がない
ほかの手法を模索してるだけ
格段と入力は速くなったが
文節用の辞書登録も先が見えんとつらいなァ
5文字分総当りで作って その中から検索したほうが先が見えるだけ言いか
50^5=312500000とおりだからなぁ
- 455 :nobodyさん:2010/05/20(木) 04:46:00 ID:???.net
- 説得と言うか俺としては
貴方のやってる事よりも
やろうとしてる事が出来るめんどくさく無い方法が有るから
教えてるつもり
もちろんはた迷惑の大きなお世話かもしれんが
あと>>453の方法を使った無脳はいまんとこ見た事無いぞ
(俺が以前作った構文解析もどきはこの方法使ったけど)
- 456 :nobodyさん:2010/05/21(金) 00:12:29 ID:???.net
- めんどくささは人が感じるものだろ
やってることが違うのでめんどくささが変わる
モレのやってるのは、半分辞書型、半分解析方
例
すもももももももものうち
これは、理解できないければ、分割しなくても良く
定分にするだけ
いま、分活用の辞書を作ってるが
たとえば
〜れるような〜
分割せず
れるようなで半分定分に
焼/かれるような/恋
とか
引き裂/かれるような/痛み
とか、定分返しにしようとしてるだけ
やってることは、辞書型に近い
下手に解析され
引き裂か/れる/よう/な/痛み
にされるとあとで合成というめんどくさいことをしなくてはならない
現在475品詞登録
ある文中
出現品詞総数769中636解析 82%
もう少し登録しながらいろんな文を読ませてみる
- 457 :nobodyさん:2010/05/21(金) 00:17:45 ID:???.net
- もう少し書くと単純にひらがな・漢字ではなく
原文
もう少し登録しながらいろんな文を読ませてみる
この分は
もう少し登録/しながら/いろんな文を読ませてみる
ここで分けるのは必要
- 458 :nobodyさん:2010/05/21(金) 13:42:49 ID:???.net
- 原文
まりあさんじゅうなささい
解析
まりあさん/じゅうなささい
まりあ/さんじゅうなささい
難しい
- 459 :nobodyさん:2010/05/22(土) 00:44:26 ID:???.net
- 品詞抜き出しは80%前後からもぐらたたき状態に
なったので
名詞につながる品詞を解析中
オーソドックスなのは
名詞 + ”は” だけど
会話だと
名詞 + ”wwwww”
とか使いやがる
漢字 と ひらがな 記号ではじめ分けたのが失敗だな
段落がわからん
ちょっと頭に上って改造しよう
- 460 :nobodyさん:2010/05/22(土) 00:56:01 ID:???.net
- ブログに書け
- 461 :nobodyさん:2010/05/22(土) 13:13:41 ID:???.net
- 回らないスレッドをまわしてちょっと盛り上がって
ついてこれず切れるとこうなるのはパターン
無脳作ってると多分はまるパターンなんだが
みゆきちかわいいよみゆきち
元ねたを知ってるから
みゆきち/かわいいよ/みゆきち
に分割できるが
初めて登場するとうまく分割できない
解析器では
みゆき 名詞,固有名詞,人名,名,*,*,みゆき,ミユキ,ミユキ
ちかわ 動詞,自立,*,*,五段・ワ行促音便,未然形,ちかう,チカワ,チカワ
いい 形容詞,自立,*,*,形容詞・イイ,基本形,いい,イイ,イイ
よみ 名詞,一般,*,*,*,*,よみ,ヨミ,ヨミ
ゆ 名詞,一般,*,*,*,*,ゆ,ユ,ユ
きち 名詞,サ変接続,*,*,*,*,きち,キチ,キチ
どうやって解析しよう?
- 462 :nobodyさん:2010/05/22(土) 17:11:27 ID:???.net
- かわいいよ もしくは みゆきち
を辞書にいれれば終了
- 463 :nobodyさん:2010/05/23(日) 00:41:57 ID:???.net
- わかってないな
かわいいよ
いいよ
は事前に登録されているだろうから
みゆきちかわ/いいよ/みゆきち
もなくはない
それは、辞書未登録言語 が着たら
その発言に対して 無反応ってことだよ
〜ってなに?と聞く人工無脳
- 464 :nobodyさん:2010/05/23(日) 10:09:49 ID:???.net
- そこはコスト付けでどうとでもなる
例えばみゆきちって言葉を優先的に使っで欲しいなら
そのコストを小さく登録すれば良いし
又は何らかの方法でみゆきちは絶対一つの形態素と分かるなら制限付き解析してやれば良い
あと
>それは、辞書未登録言語 が着たら
>その発言に対して 無反応ってことだよ
ここは形態素解析とは無関係
未知語の処理はデフォルトでは文字種(ひらがな、数字、漢字等)
でわかつようだけどそこも設定出来るから
未知語を未知語として出力させる事も出来る
後はその出力をどう調理するかは作者の腕の見せ所
〜って何?
って方法しか思いつか無いならそれだけの腕って事だ
- 465 :nobodyさん:2010/05/23(日) 14:23:42 ID:???.net
- なぜ考え方が違うって考えないんだろうか
文法の自己学習を目指しているんだから
未知語が名詞なのか形容詞なのか動詞なのかを分けないといけない
単純に
未知語=名詞ではない
たとえ名詞だとしても
固有名詞なのか地名なのか一般名詞なのかによっても
次につながる助詞は違う
- 466 :nobodyさん:2010/05/23(日) 15:39:51 ID:???.net
- >>465
わから無い、分けれ無いから未知語な訳で
そこからはもう形態素解析の範囲外、限界なんだよ
例えば今スワヒリ語の単語聞かされてそれがどんな品詞かなんてわかる訳がないだろ?
そう言う事だ
ただ、MeCabデフォ辞書で日本語を解析した場合
未知語は名詞と考えてほぼ間違いない
動詞、助詞等などは数は限られてるから辞書に乗ってるのでかなりカバー出来る
それに比べ名詞はそれこそ無限にあるようなもんだから未知語は大抵名詞だと言える
ただ地名、固有名詞、普通名詞で分ける事はむずかしいだろう
一つの方法としてはすでに何名詞かわかってる名詞と助詞等の繋がりを文から学習させて同じ繋がりならそれと同じ名詞とする
等があるが絶対的に分けるのはむり
だけどそれは(あなたの考える無脳は違うかもしれ無いけど)文法的に正しい文を作る上で必要な情報じゃない
もちろん意味的に正しい文作りたいなら
この情報が必要だけど
これは人間にも無理だからしょうがない
例えば
明治のチョコ
って言った場合
この明治は会社名なのか、時代のことなのか、はたまた明治村の事かもしれ無い
これは人でも正確に形態素解析でき無い
でも大して問題では無いでしょ
- 467 :nobodyさん:2010/05/24(月) 21:43:25 ID:???.net
- すべて未知語=名詞にしてはいけない 日本語は文面からその言葉を探ってるって言うことをお忘れなく
〜 の 〜 は 名詞 の 名詞 〜な 〜 は 形容詞 + 名詞
未知語であったググる だって 〜る とつくから 動詞として扱われている
ケバい ナウい(死語)もそう
言葉尻で動詞なのか形容詞なのか名詞なのかは区別つくよ
明治のチョコ なら 明治=名詞 チョコ=名詞だ
明治 には ほかにも会社名 時代名 など属性が着くがその明治がなにを指しているのかは物面から判別できるだろ
明治近辺につく動詞 形容詞は 学習できるから
明治のチョコはおいしい
という 文面があれば 明治 チョコ おいしい を関連付けて辞書に登録すればいい
- 468 :nobodyさん:2010/05/24(月) 21:52:45 ID:???.net
- 明治 チョコ
チョコ 明治 おいしい
おいしい チョコ
そして、〜の〜の場合 終わりの名詞の方が重要になってくるからチョコのほうが話が持っていきやすい
名詞につながる一文字の品詞は
明治か 明治が 明治さ 明治だ 明治で 明治と 明治に
明治ね 明治の 明治は 明治へ 明治も 明治や 明治を
二文字は(80文字^2=6400語 その中で日本語の助詞として成り立っているものは)
そんなにない、今は143語登録済みまだ出るかもしれないが
明治る と 日本語は今は存在しないが
もし文面出てこれば 明治を動詞として扱えばいい
ただ、この場合名詞の明治と動詞の明治は別物だが 日本語としては成り立つはず
現在そこは作っている(辞書の完成度がまだまだだが80%は解析できる)
ひらがなにだけ分けたときの 接頭 接尾の判定はできる(現在は接頭だけ)
- 469 :nobodyさん:2010/05/24(月) 21:57:36 ID:???.net
- 例
かわいいよみゆきち これはすでに判定できる
みゆきちかわいいよ これも多分判定できる
接頭を一文字ずつ削って 8回辞書を舐めればいい
みゆきちかわいいよみゆきち
これが判定できなくて困ってるんだ
辞書のほうから舐めるのが一番簡単だが総当りになるので時間がかかりそう
- 470 :nobodyさん:2010/05/25(火) 00:37:42 ID:???.net
- >>467-469
反論しようと思ったが結局堂々巡りになりそうなので辞める
そこら辺自分の考えで突き進むならブログに書いてね
ここに書くって事は他の人の意見が欲しいのかと思ったが
どうやら俺の考え凄いだろ!った言いたいだけの様だから
- 471 :名無しさん@そうだ選挙に行こう:2010/07/10(土) 20:09:17 ID:???.net
- 関連スレ
・【Twitter】 BOT製作支援スレ part2
http://pc11.2ch.net/test/read.cgi/php/1263824322/
・Twitterボット板
Twitter Bot BBS
http://jbbs.livedoor.jp/internet/6629/
Twitterボットを見て思ったが、無脳でもネタ的に面白いものもあるし、
認証を得た他人に自動投稿させるようのものもある。
面白いという観点から見ると、AI的なものは必ずしも必要ないと思った
- 472 :nobodyさん:2011/10/28(金) 04:12:49.68 ID:???.net
- 保守
- 473 :電脳プリオン 忍法帖【Lv=40,xxxPT】(2+0:8) 【17.7m】 :2013/02/10(日) 19:07:48.00 ID:???.net ?PLT(12080)
- ねーよ
- 474 :nobodyさん:2013/02/14(木) 11:54:52.35 ID:ealeoysC.net
- 保守
- 475 :nobodyさん:2013/06/08(土) 16:19:04.95 ID:Jp1wTRZq.net
- 保守
- 476 :nobodyさん:2015/12/01(火) 22:04:24.32 ID:???.net
- 保守
- 477 :nobodyさん:2017/07/04(火) 04:45:52.51 ID:???.net
- 暇ねーとか嘘つくんじゃねーよ糞が
- 478 :nobodyさん:2017/07/19(水) 22:35:04.09 ID:???.net
- くっだらねーホント頭悪いなアホくさ
- 479 :nobodyさん:2017/07/19(水) 22:56:52.94 ID:???.net
- さらに輪をかけてくだらない事で盛り上がる笑える通り越して悲しくなる
- 480 :nobodyさん:2017/07/23(日) 22:23:55.00 ID:???.net
- 糞みてーな人生だわ
- 481 :nobodyさん:2017/07/24(月) 00:09:35.37 ID:???.net
- なんだこの女頭おかしいな狂ってるわ
- 482 :nobodyさん:2017/07/24(月) 00:13:10.40 ID:???.net
- 適当にやって捨てるに限るなこういう女は
- 483 :nobodyさん:2017/07/24(月) 00:37:55.91 ID:???.net
- こえーわこの女めんどくさそう
- 484 :nobodyさん:2017/07/28(金) 17:19:18.32 ID:???.net
- ウンコしてくる
- 485 :nobodyさん:2017/07/29(土) 13:24:26.34 ID:???.net
- あーだるめんどくせー
- 486 :nobodyさん:2017/12/30(土) 12:38:35.37 ID:YhlYw6jg.net
- 誰でも簡単にネットで稼げる方法など
参考までに、
⇒ 『半藤のブブイウイウレレ』 というサイトで見ることができます。
グーグル検索⇒『半藤のブブイウイウレレ』
HP8TANCSZQ
- 487 :nobodyさん:2018/02/20(火) 05:04:35.52 ID:???.net
- ☆ 日本の、改憲を行いましょう。現在、衆議員と参議院の
両院で、改憲議員が3分の2を超えております。
『憲法改正国民投票法』、でググってみてください。国会の発議は
すでに可能です。平和は勝ち取るものです。お願い致します。☆☆
- 488 :nobodyさん:2018/03/07(水) 17:59:32.28 ID:K5y5GX4e.net
- このスレ人いる?
- 489 :nobodyさん:2018/09/17(月) 10:45:37.88 ID:???.net
- Siriみたいにネットの先に居るんじゃなくて
ローカルで動かせるアシスタントあるの?
- 490 :nobodyさん:2023/02/01(水) 15:16:19.40 ID:???.net
- てすと
- 491 :nobodyさん:2023/07/28(金) 15:28:42.37 ID:IMD1QlXoJ
- 多様性を認めて包摂的カ゛一た゛のG]ガ一た゛の脱炭素カ゛―た゛の嘘ハ百ほさ゛いてる西村康稔って野球少年た゛ったそうた゛し、ト━キョー五輪では
改めてスポ−ツが麻薬賭博暴カ贈収賄税金泥棒ハ゛カひき逃げ差別主義猥褻セクハラJKレヰプ地球破壞の人類史上最悪の犯罪者生産システ厶
と証明されたわけた゛か゛,こいつはアホ晋≡同様クチがウマイっぽいた゛けで論理性もクソもない中身空っぽのバ力た゛から騙されないようにな
要するに示談屋とかやってたらしいロハ丁ルフィなんかと紙‐重ってわけだが,とにかくこの税金泥棒は.価値生産できる者か゛妬ましくて
憎くて潰したくて仕方か゛ないから都心まて゛数珠つなぎて゛鉄道の3○倍以上もの非効率クソ航空機飛は゛しまくって石油無駄に燃やしまくって
エネ価格暴騰させなか゛ら原發再稼働た゛のと平然と主張してクソ航空騷音によって知的産業か゛根絶やしにされた技術後進國の分際で審査する
から原発は安全だの唖然とするよな戯言ほざいてみたり平穏な生活という人としての最低限の権利すら破壊して孑が勉強する環境まて゛壞滅
だが、伊藤忠を視察した際「少子化にも寄与する取り組みを応援していきたい」と公然と子の数を減らしたい本音を漏らしてて見直したそ゛!
創価学會員は、何百萬人も殺傷して損害を与えて私腹を肥やし続けて逮捕者まで出てる世界最惡の殺人腐敗組織公明党を
池田センセーが□をきけて容認するとか本気で思ってるとしたら侮辱にもほと゛か゛あるそ゛!
htТΡs://i.imgur,соm/hnli1ga.jpeg
122 KB
新着レスの表示
掲示板に戻る
全部
前100
次100
最新50
read.cgi ver 2014.07.20.01.SC 2014/07/20 D ★