2ちゃんねる スマホ用 ■掲示板に戻る■ 全部 1- 最新50    

人工無脳

1 :1:02/05/07 05:55 ID:JxGSPxBK.net
いい人工無脳ありませんか?

442 :nobodyさん:2010/05/16(日) 21:26:03 ID:???.net
mecabも使ってみたよ中間ファイルを介するのでそれをまた正規表現しないといけないだろ
それに正確な必要はないと思うんだ

普通の技術者は正確に

認識さ/れた or れない
って考えるけど
認識/された or されない

と認識すれば、形態素解析もそんなに難しいものじゃなくなるだろ(早いし)

あまり厳密にマルコフ連鎖させると日本語らしくない日本語ができてしまうので
辞書型とのハイブリッドが最終目的

443 :nobodyさん:2010/05/16(日) 21:51:43 ID:???.net
とりあえずよそのHPから


http://ja.wikipedia.org/wiki/%E3%82%A4%E3%83%8C
から
文字抜き取り形態素解析におくるところ作ってた
まだ完成してないけど

444 :nobodyさん:2010/05/17(月) 23:55:42 ID:Tr+nzFXD.net
動詞・形容詞の使い方パターンを作るのがめんどくさくなってきた何とか自動化できないか
と書くと形態素解析ソフトを薦められるがmecabを内部で起動できるようにして辞書登録しようと思って半日ぐらい遊んだが
使ってみたけどそのめんどくささは今の100倍になるよということが今日一日わかった

今の自作のアルゴリズムだと

原文
2ちゃんねるは面白い

自作
2      数字
ちゃんねる  名詞
は      助詞
面白     漢字
い      ひらがな

(助詞はそんなに多くないので文末にくればめんどくさくない まだ作ってないけど)
名詞は高確率で分離されるが

mecabを使うと
2    名詞
ちゃん 名詞
ねる  動詞
は   助詞
面白い 形容詞

名詞も動詞もぐずぐずになる
たぶん"2ちゃんねる"は自動では名詞にできない

mecabの辞書から抽出してみるか

445 :nobodyさん:2010/05/18(火) 00:55:08 ID:???.net
>>444
MeCabの辞書にwikipediaの項目やらはてなワードやらを
全部名詞で追加してやると良いと思うよ
まぁ中には動詞あるのかもしれないけど大抵名詞だから

あと、名詞は新しい言葉が増えてくけど動詞は大して増えないから気にしなくてもあんま問題無い
(まぁググるとかはかなり浸透してるけど)

446 :nobodyさん:2010/05/18(火) 00:59:24 ID:???.net
あと
"めんど臭いから"自作するなら(特殊な用途除き)確実に既存の奴使った方が良いぞ
"興味が有るから"自作するなら好きにすれば良いが

447 :nobodyさん:2010/05/18(火) 12:39:22 ID:ZcBPV0UE.net
>>"めんど臭いから"自作するなら(特殊な用途除き)確実に既存の奴使った方が良いぞ
そのめんどくささが既存のものだと100倍になる

アルゴリズムとして辞書から読み出し 比較だとすごい時間がかかるから

第一弾としてひらがな と 漢字などの集合体で 分ける
ひらがな 集合体 たとえば 4文字の組み合わせは
50^4(ひらがな50文字として)=6250000

その中で日本語として意味が通じるのは1%切ると推測されるから
それを単純にif 分で分離して やれば 80%位は分を理解できるんではないかとそれ以後は、辞書登録させ比較させる

原文
まぁググるとかはかなり浸透してるけど

自作
まぁ/ググ/るとかはかなり/浸透/してるけど

まだ作ってないが将来的に辞書引きして かなり とかは 分解できそうなので
まぁ/ググ/る/とかは/かなり/浸透/してるけど

にはなると思う
mecabの場合
ググ 名詞,一般,*,*,*,*,*
る 助動詞,*,*,*,文語・ル,基本形,る,ル,ル
とか 助詞,並立助詞,*,*,*,*,とか,トカ,トカ
はか 名詞,一般,*,*,*,*,はか,ハカ,ハカ
なり 助動詞,*,*,*,文語・ナリ,基本形,なり,ナリ,ナリ
になってしまう
自分で作ったものなら、何とかなるけど他人様の作ったものを解析してやる気力はない

448 :nobodyさん:2010/05/18(火) 13:07:12 ID:???.net
>>447
なんかなぁ
そんなのは辞書の問題なのにMeCabがダメってのはどうなんよ
自分も(無脳では無いが)MeCab使った事あるけど精度・速度・使い勝手どれもまぁ満足できるレベルだ
もちろん、用途に合わせて辞書は若干チューンしたが

ちなみにMeCabは
>アルゴリズムとして辞書から読み出し 比較だとすごい時間がかかるから
これ+スコア付けを、あのスピードでやってる

449 :nobodyさん:2010/05/18(火) 14:20:49 ID:ZcBPV0UE.net
ちなみに"めんど臭いから"

行き当たりばったりでif分を書いてるので

文書を読む解析する成り立ってないものを

プログラムをとめてif分にして活用形も考える
デバッグ
とやっているので機械的作業にだんだん飽きてきた
助詞は数10しかないので一気にできたけど
一時的に辞書参照型に改造しよう
多少は楽になるだろう

二次生成物をうpした
mecabで遊んでくれ
http://uploader.moe.hm/cgi-bin/upload.cgi?mode=dl&file=1996

450 :nobodyさん:2010/05/18(火) 14:26:13 ID:???.net
>>そんなのは辞書の問題なのにMeCabがダメってのはどうなんよ
使ったことがあるんだろうが

〜って何?
とか

成り立たない文章とか生成しないかい?

最終的にこれを防ぐ方法を考えてるんだ

451 :nobodyさん:2010/05/18(火) 15:19:22 ID:???.net
>>450
>〜って何?
>とか

>成り立たない文章とか生成しないかい?
MeCabはタダの形態素解析エンジンだぞ?
人工無能で文章生成する部分はMeCabの担当じゃない
もちろん変な解析のせいで最終的に変になるかもしれ無いが
殆どは変な(若しくは簡単な)生成や変な構文解析のせいで変な文になると思うよ

452 :nobodyさん:2010/05/19(水) 01:00:01 ID:???.net
多分行き違いがある値と思うんだがチャット等で人間の会話する時にも
解析させるとき単純に名詞だけ抜くのではなく無能にその言い回しを覚えさせたいので

あまりばらばらにされると困るばらばらにしすぎるから変な日本語になると思うんだ

辞書登録定分返し方式みたいに
こんにちは〜
と入力されたら
こんにちは と反射的に返すみたいに

半分定分にしたい

原文
こんにちは今日も良い天気ですね

解析後
こんにちは/今日も/良い/天気/ですね

このくらいの分解がほしい

mecabなどは逆に高精度過ぎて
すもももももももものうち
分解できてしまうのが困るんだ

とりあえず、辞書参照には改造できた
検索時間がもっとかかると思ったけど
なかなか早いエクセルのおかげだけど
ポケモンショックがおきそうだな

ほかの言語に移植したら死ぬほど遅くなるかもしれないが

453 :nobodyさん:2010/05/19(水) 02:55:41 ID:???.net
品詞も教えてくれるんだから分けたあと希望の単位にくっつければ良いだけ
くっつけた塊も一つの品詞としてみなせば好きなだけ粗く出来る(最後は一つの文になる)
この方法なら塊単位のマルコフ連鎖でスムーズな日本後にも出来る

しかしお前さんには何を言っても無駄なようなのでもう諦める

454 :nobodyさん:2010/05/20(木) 00:13:15 ID:???.net
説得いわれはないと思うんだが

普通に
>>453
のような無脳を作ってもほかの無脳と同じになるだけだろうに
それでは意味がない

ほかの手法を模索してるだけ

格段と入力は速くなったが
文節用の辞書登録も先が見えんとつらいなァ

5文字分総当りで作って その中から検索したほうが先が見えるだけ言いか
50^5=312500000とおりだからなぁ

455 :nobodyさん:2010/05/20(木) 04:46:00 ID:???.net
説得と言うか俺としては
貴方のやってる事よりも
やろうとしてる事が出来るめんどくさく無い方法が有るから
教えてるつもり
もちろんはた迷惑の大きなお世話かもしれんが

あと>>453の方法を使った無脳はいまんとこ見た事無いぞ
(俺が以前作った構文解析もどきはこの方法使ったけど)

456 :nobodyさん:2010/05/21(金) 00:12:29 ID:???.net
めんどくささは人が感じるものだろ
やってることが違うのでめんどくささが変わる

モレのやってるのは、半分辞書型、半分解析方


すもももももももものうち
これは、理解できないければ、分割しなくても良く
定分にするだけ

いま、分活用の辞書を作ってるが
たとえば

〜れるような〜

分割せず
れるようなで半分定分に

焼/かれるような/恋
とか
引き裂/かれるような/痛み
とか、定分返しにしようとしてるだけ
やってることは、辞書型に近い

下手に解析され
引き裂か/れる/よう/な/痛み
にされるとあとで合成というめんどくさいことをしなくてはならない

現在475品詞登録
ある文中
出現品詞総数769中636解析 82%
もう少し登録しながらいろんな文を読ませてみる

457 :nobodyさん:2010/05/21(金) 00:17:45 ID:???.net
もう少し書くと単純にひらがな・漢字ではなく

原文
もう少し登録しながらいろんな文を読ませてみる

この分は
もう少し登録/しながら/いろんな文を読ませてみる
ここで分けるのは必要

458 :nobodyさん:2010/05/21(金) 13:42:49 ID:???.net
原文
まりあさんじゅうなささい

解析
まりあさん/じゅうなささい

まりあ/さんじゅうなささい

難しい





459 :nobodyさん:2010/05/22(土) 00:44:26 ID:???.net
品詞抜き出しは80%前後からもぐらたたき状態に
なったので
名詞につながる品詞を解析中

オーソドックスなのは
名詞 + ”は” だけど

会話だと
名詞 + ”wwwww”
とか使いやがる

漢字 と ひらがな 記号ではじめ分けたのが失敗だな
段落がわからん

ちょっと頭に上って改造しよう

460 :nobodyさん:2010/05/22(土) 00:56:01 ID:???.net
ブログに書け

461 :nobodyさん:2010/05/22(土) 13:13:41 ID:???.net
回らないスレッドをまわしてちょっと盛り上がって
ついてこれず切れるとこうなるのはパターン



無脳作ってると多分はまるパターンなんだが

みゆきちかわいいよみゆきち

元ねたを知ってるから

みゆきち/かわいいよ/みゆきち
に分割できるが

初めて登場するとうまく分割できない

解析器では
みゆき  名詞,固有名詞,人名,名,*,*,みゆき,ミユキ,ミユキ
ちかわ  動詞,自立,*,*,五段・ワ行促音便,未然形,ちかう,チカワ,チカワ
いい   形容詞,自立,*,*,形容詞・イイ,基本形,いい,イイ,イイ
よみ   名詞,一般,*,*,*,*,よみ,ヨミ,ヨミ
ゆ    名詞,一般,*,*,*,*,ゆ,ユ,ユ
きち   名詞,サ変接続,*,*,*,*,きち,キチ,キチ

どうやって解析しよう?

462 :nobodyさん:2010/05/22(土) 17:11:27 ID:???.net
かわいいよ もしくは みゆきち
を辞書にいれれば終了

463 :nobodyさん:2010/05/23(日) 00:41:57 ID:???.net
わかってないな

かわいいよ
いいよ
は事前に登録されているだろうから
みゆきちかわ/いいよ/みゆきち
もなくはない

それは、辞書未登録言語 が着たら
その発言に対して 無反応ってことだよ

〜ってなに?と聞く人工無脳

464 :nobodyさん:2010/05/23(日) 10:09:49 ID:???.net
そこはコスト付けでどうとでもなる
例えばみゆきちって言葉を優先的に使っで欲しいなら
そのコストを小さく登録すれば良いし
又は何らかの方法でみゆきちは絶対一つの形態素と分かるなら制限付き解析してやれば良い

あと
>それは、辞書未登録言語 が着たら
>その発言に対して 無反応ってことだよ
ここは形態素解析とは無関係
未知語の処理はデフォルトでは文字種(ひらがな、数字、漢字等)
でわかつようだけどそこも設定出来るから
未知語を未知語として出力させる事も出来る
後はその出力をどう調理するかは作者の腕の見せ所

〜って何?
って方法しか思いつか無いならそれだけの腕って事だ

465 :nobodyさん:2010/05/23(日) 14:23:42 ID:???.net
なぜ考え方が違うって考えないんだろうか

文法の自己学習を目指しているんだから
未知語が名詞なのか形容詞なのか動詞なのかを分けないといけない

単純に
未知語=名詞ではない

たとえ名詞だとしても
固有名詞なのか地名なのか一般名詞なのかによっても
次につながる助詞は違う

466 :nobodyさん:2010/05/23(日) 15:39:51 ID:???.net
>>465
わから無い、分けれ無いから未知語な訳で
そこからはもう形態素解析の範囲外、限界なんだよ
例えば今スワヒリ語の単語聞かされてそれがどんな品詞かなんてわかる訳がないだろ?
そう言う事だ

ただ、MeCabデフォ辞書で日本語を解析した場合
未知語は名詞と考えてほぼ間違いない
動詞、助詞等などは数は限られてるから辞書に乗ってるのでかなりカバー出来る
それに比べ名詞はそれこそ無限にあるようなもんだから未知語は大抵名詞だと言える

ただ地名、固有名詞、普通名詞で分ける事はむずかしいだろう
一つの方法としてはすでに何名詞かわかってる名詞と助詞等の繋がりを文から学習させて同じ繋がりならそれと同じ名詞とする
等があるが絶対的に分けるのはむり

だけどそれは(あなたの考える無脳は違うかもしれ無いけど)文法的に正しい文を作る上で必要な情報じゃない
もちろん意味的に正しい文作りたいなら
この情報が必要だけど
これは人間にも無理だからしょうがない

例えば
明治のチョコ
って言った場合
この明治は会社名なのか、時代のことなのか、はたまた明治村の事かもしれ無い
これは人でも正確に形態素解析でき無い
でも大して問題では無いでしょ

467 :nobodyさん:2010/05/24(月) 21:43:25 ID:???.net
すべて未知語=名詞にしてはいけない 日本語は文面からその言葉を探ってるって言うことをお忘れなく
〜 の 〜 は 名詞 の 名詞 〜な 〜 は 形容詞 + 名詞
未知語であったググる だって 〜る とつくから 動詞として扱われている
ケバい ナウい(死語)もそう

言葉尻で動詞なのか形容詞なのか名詞なのかは区別つくよ 
明治のチョコ なら 明治=名詞 チョコ=名詞だ
明治 には ほかにも会社名 時代名 など属性が着くがその明治がなにを指しているのかは物面から判別できるだろ
明治近辺につく動詞 形容詞は 学習できるから
明治のチョコはおいしい
という 文面があれば 明治 チョコ おいしい を関連付けて辞書に登録すればいい

468 :nobodyさん:2010/05/24(月) 21:52:45 ID:???.net
明治 チョコ
チョコ 明治 おいしい
おいしい チョコ
そして、〜の〜の場合 終わりの名詞の方が重要になってくるからチョコのほうが話が持っていきやすい
名詞につながる一文字の品詞は

明治か 明治が 明治さ 明治だ 明治で 明治と 明治に
明治ね 明治の 明治は 明治へ 明治も 明治や 明治を
二文字は(80文字^2=6400語 その中で日本語の助詞として成り立っているものは)
そんなにない、今は143語登録済みまだ出るかもしれないが

明治る と 日本語は今は存在しないが
もし文面出てこれば 明治を動詞として扱えばいい
ただ、この場合名詞の明治と動詞の明治は別物だが 日本語としては成り立つはず
現在そこは作っている(辞書の完成度がまだまだだが80%は解析できる)
ひらがなにだけ分けたときの 接頭 接尾の判定はできる(現在は接頭だけ)

469 :nobodyさん:2010/05/24(月) 21:57:36 ID:???.net

かわいいよみゆきち これはすでに判定できる
みゆきちかわいいよ これも多分判定できる
接頭を一文字ずつ削って 8回辞書を舐めればいい

みゆきちかわいいよみゆきち
これが判定できなくて困ってるんだ
辞書のほうから舐めるのが一番簡単だが総当りになるので時間がかかりそう

470 :nobodyさん:2010/05/25(火) 00:37:42 ID:???.net
>>467-469
反論しようと思ったが結局堂々巡りになりそうなので辞める
そこら辺自分の考えで突き進むならブログに書いてね
ここに書くって事は他の人の意見が欲しいのかと思ったが
どうやら俺の考え凄いだろ!った言いたいだけの様だから

471 :名無しさん@そうだ選挙に行こう:2010/07/10(土) 20:09:17 ID:???.net
関連スレ

・【Twitter】 BOT製作支援スレ part2
http://pc11.2ch.net/test/read.cgi/php/1263824322/

・Twitterボット板
Twitter Bot BBS
http://jbbs.livedoor.jp/internet/6629/


Twitterボットを見て思ったが、無脳でもネタ的に面白いものもあるし、
認証を得た他人に自動投稿させるようのものもある。
面白いという観点から見ると、AI的なものは必ずしも必要ないと思った

472 :nobodyさん:2011/10/28(金) 04:12:49.68 ID:???.net
保守

473 :電脳プリオン 忍法帖【Lv=40,xxxPT】(2+0:8) 【17.7m】 :2013/02/10(日) 19:07:48.00 ID:???.net ?PLT(12080)
ねーよ

474 :nobodyさん:2013/02/14(木) 11:54:52.35 ID:ealeoysC.net
保守

475 :nobodyさん:2013/06/08(土) 16:19:04.95 ID:Jp1wTRZq.net
保守

476 :nobodyさん:2015/12/01(火) 22:04:24.32 ID:???.net
保守

477 :nobodyさん:2017/07/04(火) 04:45:52.51 ID:???.net
暇ねーとか嘘つくんじゃねーよ糞が

478 :nobodyさん:2017/07/19(水) 22:35:04.09 ID:???.net
くっだらねーホント頭悪いなアホくさ

479 :nobodyさん:2017/07/19(水) 22:56:52.94 ID:???.net
さらに輪をかけてくだらない事で盛り上がる笑える通り越して悲しくなる

480 :nobodyさん:2017/07/23(日) 22:23:55.00 ID:???.net
糞みてーな人生だわ

481 :nobodyさん:2017/07/24(月) 00:09:35.37 ID:???.net
なんだこの女頭おかしいな狂ってるわ

482 :nobodyさん:2017/07/24(月) 00:13:10.40 ID:???.net
適当にやって捨てるに限るなこういう女は

483 :nobodyさん:2017/07/24(月) 00:37:55.91 ID:???.net
こえーわこの女めんどくさそう

484 :nobodyさん:2017/07/28(金) 17:19:18.32 ID:???.net
ウンコしてくる

485 :nobodyさん:2017/07/29(土) 13:24:26.34 ID:???.net
あーだるめんどくせー

486 :nobodyさん:2017/12/30(土) 12:38:35.37 ID:YhlYw6jg.net
誰でも簡単にネットで稼げる方法など
参考までに、
⇒ 『半藤のブブイウイウレレ』 というサイトで見ることができます。

グーグル検索⇒『半藤のブブイウイウレレ』

HP8TANCSZQ

487 :nobodyさん:2018/02/20(火) 05:04:35.52 ID:???.net
☆ 日本の、改憲を行いましょう。現在、衆議員と参議院の
両院で、改憲議員が3分の2を超えております。
『憲法改正国民投票法』、でググってみてください。国会の発議は
すでに可能です。平和は勝ち取るものです。お願い致します。☆☆

488 :nobodyさん:2018/03/07(水) 17:59:32.28 ID:K5y5GX4e.net
このスレ人いる?

489 :nobodyさん:2018/09/17(月) 10:45:37.88 ID:???.net
Siriみたいにネットの先に居るんじゃなくて
ローカルで動かせるアシスタントあるの?

490 :nobodyさん:2023/02/01(水) 15:16:19.40 ID:???.net
てすと

491 :nobodyさん:2023/07/28(金) 15:28:42.37 ID:IMD1QlXoJ
多様性を認めて包摂的カ゛一た゛のG]ガ一た゛の脱炭素カ゛―た゛の嘘ハ百ほさ゛いてる西村康稔って野球少年た゛ったそうた゛し、ト━キョー五輪では
改めてスポ−ツが麻薬賭博暴カ贈収賄税金泥棒ハ゛カひき逃げ差別主義猥褻セクハラJKレヰプ地球破壞の人類史上最悪の犯罪者生産システ厶
と証明されたわけた゛か゛,こいつはアホ晋≡同様クチがウマイっぽいた゛けで論理性もクソもない中身空っぽのバ力た゛から騙されないようにな
要するに示談屋とかやってたらしいロハ丁ルフィなんかと紙‐重ってわけだが,とにかくこの税金泥棒は.価値生産できる者か゛妬ましくて
憎くて潰したくて仕方か゛ないから都心まて゛数珠つなぎて゛鉄道の3○倍以上もの非効率クソ航空機飛は゛しまくって石油無駄に燃やしまくって
エネ価格暴騰させなか゛ら原發再稼働た゛のと平然と主張してクソ航空騷音によって知的産業か゛根絶やしにされた技術後進國の分際で審査する
から原発は安全だの唖然とするよな戯言ほざいてみたり平穏な生活という人としての最低限の権利すら破壊して孑が勉強する環境まて゛壞滅
だが、伊藤忠を視察した際「少子化にも寄与する取り組みを応援していきたい」と公然と子の数を減らしたい本音を漏らしてて見直したそ゛!

創価学會員は、何百萬人も殺傷して損害を与えて私腹を肥やし続けて逮捕者まで出てる世界最惡の殺人腐敗組織公明党を
池田センセーが□をきけて容認するとか本気で思ってるとしたら侮辱にもほと゛か゛あるそ゛!
htТΡs://i.imgur,соm/hnli1ga.jpeg

122 KB
新着レスの表示

掲示板に戻る 全部 前100 次100 最新50
名前: E-mail (省略可) :

read.cgi ver 2014.07.20.01.SC 2014/07/20 D ★