検索エンジン(2)

今更クローラを C で組みたくないな、と思い始めた。

XML と違って HTML は独特の書き方をするサイトもあるので、結構クローリングは大変なのである。N-gram を収容するファイルのフォーマットは大体決まったので、python か何かのクローリングライブラリを使おうかと思う。

N-gram ファイルの概要

明日は仕事が休みらしいので、ヒマがあれば片付けてしまおう。

検索エンジンどうしようか

しばらく前から Google のサイト内検索を使うサイトばかりになって、自力で検索エンジンを組み立てることがなくなった。

しかし、Google だと正確な and/or 検索をさせることができなくってしまったので、自前のエンジンが欲しいことがある。

どうせヒマになるし、また作ってみることにした。今度は転置行列は C で記述するが、検索は PHP で行うことを目標とする。(このサイトがユーザコマンドの実行を許していないようだという事情もある。)

ちょっとまだるっこしいが、ページが増える度に外からクローリングしてページを収集し、転置行列を生成して戻すというやり方でやってみることにする。

BOMのワナ

ホームページの、先頭の数ページを作成した。

フォーム問い合わせで SecurImage を使おうとしたら start_session() が warning を出して止まってしまった。原因は encoding で BOM つきの UTF-8 を使っていたことにあった。

BOM は大概のエディタでは目に見えないので、エンコードを確認するしかないのだが、どうもいつも失敗している気がする。

技術ページをいくつか作ったらまた Amazon に申請してみますか。

Amazon の審査に落ちた

単に書籍紹介時にリンクを張りたいというだけの理由で、Amazon のアフィリエイトに応募したが、あえなく落選してしまった。

理由はこのサイトに載っているコンテンツが少なすぎるので、もう少し拡充してから登録してください、というものだった。

とは言え、どこまで拡充すればよしとするのか審査基準が書いてない。

まあ、確かにトップページとこのブログしか置いていないようなシンプルすぎるサイトなので、目的が分からないというのは分からないでもないですが。

トップサイトを拡充したらもう1度挑戦してみることにしよう。

ベイズ統計を勉強中

ベイズ統計の基礎を学ぼうと思って、本を買ってきた。

[amazon_link asins=’4254122128′ template=’ProductCarousel’ store=’teqstock-22′ marketplace=’JP’ link_id=’46bacb08-9c9b-11e7-82a5-3987ea029436′]

ベイズ統計はベイズの定理

p(B|A) = \frac{p(A|B) p(B)}{p(A)}

に尽きるが、p(B)p(A) をどう設定するか任意性があるところが若干引っかかる点です。

後は独立な事象が来たらベイズ更新で p(B|A) を更新していくと p(B), p(A) の記憶が薄らいでいくというのが、肝かなと思いました。

後は Stan/R, NumPy を使って演習問題を解けばよいのだが、これがなかなか大変。

高騰するPC

スマホシフトによって、pc用のDRAMが高騰していると言う。

確かに、パソコン販売サイトを見ても、徐々に価格が上がってきている感じだ。

cpuやgpuは高機能化、高価格化の方向だから、組み上げた時の値段が上がってしまうのだろう。

どこかに書いたが、私が実行しようとしているシミュレーションはメインメモリが1TB程度必要だ。

5年後には手が届く価格になるかと思ったが、ムーアの法則も成り立たなくなりそうだし、年金生活に突入したらますます遠のいてしまうのだろうか。

残念。

 

最近プログラム書いてない…

引っ越してこの方、まともなプログラムを書いていない。

仕事で疲れ切って、趣味のコーディングまで手が回らないためなのだが。

でも本は買いまくっているので、家に溢れる一方。大枚をはたいて買ったメインメモリ 128GB 10コア PC はほこりをかぶるだけ。(今なら GB110 が欲しいところですな)

うーむ、何とかせねば。腕が鈍ってしまうぞ。

ようこそ!

ようこそ、TeqStock の小部屋へ!

このブログでは、主にソフトウェア技術(一部ハードウェアもあり)について、自分が見聞したことについての感想や考察をランダムに上げていきたいと思っています。

ある程度内容がまとまったらホームページに整備するかもしれません。