2018-01-01から1年間の記事一覧

サンプルサイズ関係の本などを漁って斜め読みした話。

R

はじめに データ分析などの仕事をしていると、 必ず一回はぶつかる「サンプルサイズをいくらにするか」問題。ずっとモヤモヤしていたので、少し勉強した。 結論を言うと、スパッと答えを出している書籍はあるものの、いろいろ考え始めるとやっぱりモヤモヤは…

word2vecというか、gensimの使い方

word2vecというか、gensimの使い方のひな形を書いておく。一つ注意。 学習のところで、windowというオプションがあるが、 これは、文の中だけが範囲であって、文を跨がない。 window (int, optional) – Maximum distance between the current and predicted …

Pythonのスライスの仕様について自分なりに考えた。

Pythonのリストや文字列にはスライスという機能が備わっているが、 基本的なところしか押さえてなかったので、もう少し踏み込んでみた。 書籍やサイトなども見てみたが、自分が納得できる説明を見かけなかったので、挙動から自分なりに仕様を考えてみた。 こ…

kaggleコンペのタイトル取得(追記:他のデータも取得するようにした。)

kaggleコンペについての参加者の取り組み(コメントとか、機械学習関係のコードとか)を調査研究しようと思い、 ひとまず、コンペのタイトルを取得するコードを書いた。 このページの下部にも記載したし、以下のGitHubにも記載している。 Python_code/code t…

jumanpp のインストール

日本語の形態素解析をするにあたり、 MeCabよりも、Juman++がいいことを知り、インストールすることに。 やり方をここにメモっておく。 Releases ここで、最新版のtar.xz ファイルをダウンロード。 適当なディレクトリを作成し、そこに上記のtar.xz ファイル…

os.nice(increment)

複数人でサーバーを使うときに並列処理をする場合、 他の人のことを考慮して並列数を指定するというのは当然やるのだが、 それだけでなく、 サーバーの負荷が大きくなってきたら自分が身を引くように、自分の優先度を低くしておくというのもやっておくべき。…

kaggleはじめました。

kaggleはじめました。 データ容量が大きいものが多いので、通常のPCではやれないものも多い。 なので、どこかしらのハイパワーなサーバーでやることになる。 その際に、以下が参考になった。 Container of the Week – kaggle/python | Elegant Infrastructur…

【PythonとStanで学ぶ】仕組みが分かるベイズ統計学入門  がいいよ、って話。

いろいろとベイズ統計学の教材(本やネットなど)を使って勉強してたけど、 以下の動画講座が個人的には一番良かった。 【PythonとStanで学ぶ】仕組みが分かるベイズ統計学入門 | Udemy これまで理解できてなくてモヤモヤしてたことがすっきりした。 しかも…

(メモ)Mantel-Haenszel 検定

層別抽出で母集団と比べて歪んでいる場合の検定には、 Mantel-Haenszel 検定を使う。

論文の読み方

いしたーさんがツイッターで論文の読み方の以下のリンクを貼ってた。 高速で論文がバリバリ読める落合先生のフォーマットがいい感じだったのでメモ - 書架とラフレンツェ その上記のページには、文献管理ツールという以下のサイトのリンクがあったんだけど、…

ベイズ更新について速習したければ、これを読め。

ベイズ更新について速習したければ、 「道具としてのベイズ統計」のpp.90-95 を読め。 以上。

お役立ちリンク集

雑多な内容になっていくと思うけど、書き残しておきたいものをここにメモしていく。 (ブックマークでは把握しきれなくなってきたもので。) 【Mac】Python3(Anaconda)でTensorFlow環境を構築してみる conda install -c conda-forge tensorflow ↓Anaconda…

blavaanを実行するときに出たエラーの対処方法

R

blavaanというBSEMのRのパッケージを使ったときにエラーが出たのでメモ。 無料でベイジアン構造方程式モデル|京極真の研究室 のコードを動かそうとしたのだが、 blavannはrjagsを使っていて、そのrjagsの実行のときにエラーが出てた。 で、原因は、どうもJAG…

多変量時系列分析の教材まとめ

世にある時系列分析関係の資料は、単変量時系列分析についてはたくさん書かれている。しかし、多変量時系列分析についてはあまりないみたい。 ここでは、その多変量時系列分析関係の資料をまとめた。多変量時系列分析で登場するグレンジャー因果性検定につい…

PyAutoGUIをちょっと使ってみた。

「退屈なことはPythonにやらせよう」という本を読んでいて、 PyAutoGUIの存在を知る。 いろいろ自動化して行く中で、特にマウス操作などのGUI関係は扱いに困ってしまい、自動化のネックなることが経験上よくあったのだが、このPyAutoGUIを使えば、いろいろ壁…

機械学習のパラメータチューニングなど(ポエム感強し)

機械学習のパラメータチューニングをするには、各パラメータのことを知らないといけない。そのためには、その機械学習のアルゴリズムをわかっていないといけない。 (当たり前なんだけど、パッケージに頼ると、スクラッチで書く人よりその辺りの意識が弱いと…

savファイルをRとPythonで開く。

savファイルというSPSS由来の形式のデータを (有料の)SPSSではなく、(無料の)RかPythonで開きたいなと思った。 R まずは、Rで開く方法を示す。 開く対象であるサンプルデータ(savファイル)は、以下。 NECO data このページにある、6areaeng.savを開く…

xgboost installation on mac

macosx Anaconda(Python3.6) にインストールしようとして、いろいろ苦労したので、メモ。 conda install -c conda-forge xgboost https://anaconda.org/conda-forge/xgboost

Pandas DataFrame の groupbyについて

pandas DataFrame のgroupby メソッドの理解が不十分だと感じていたのでメモすることにした。 まずは、題材となるデータフレームとその処理コードを書く。 import pandas as pd, numpy as np df = pd.DataFrame({"a":["A","A","B","B","C"],"b":[1,2,3,3,2],…

検定の概念の整理をしていたら、階層ベイズモデルまでたどり着くことになった。

いやもう、ほんと、この記事は自分用のメモ。 なんでこんなものを書くことにしたかというと、 放送大学の講義「身近な統計」の第11回を見てて、講義のスライド(30分経過時点の「2群の平均の比較(2標本検定)」というスライド)に誤記(t値の分母が割…