min117の日記

初期desireもち。趣味Mac,メインFedora,仕事xp。

数学/統計

Pythonから始める数学入門 写経してJupyterで動かす(Python3)

本のとおりだと情報が古くてmatplotlibでグラフ描けないので、自分なりにコードいじったけど、いろいろ勉強になった。記録に保存。 ついでに英単語も覚える。 逆比例 inversely proportional 逆 invesely 比例 proportional 線形 linear P22非線形 nonlinear…

素数か判定するExcelプログラムを書く(VBA)

入力された数字が素数かどうかを判定したい。関数とか公理公式を使わないで独自で実装する。 素数とは… 1またはその数自身でしか割れない数。 例えば13。 1または13でしか割れない → 素数です。 例えば19。 1または19でしか割れない → 素数です。 じゃあ21は…

python3 カンマ区切りCSVファイル内の「金額列のカンマ区切り」のみ消し去る

例えばこんな財務データファイルがある。 irbank.net ファイル名はSheet1a.csvで保存。 売上高列に続く数字は "116,861,000,000円 "。 つまり、金額がカンマで区切られてしまっている。これだとCSVの各項目(フィールド)の区切りのカンマなのか金額のカンマ…

python3 のpandasで「上場企業名,当期利益,自己資本」のカンマ区切りcsvファイルを読み込む

前回記事に引き続き上場企業のデータを使ってcsvをいじる。 min117.hatenablog.com カンマ区切りのcsvファイルを読み込んで 「上場企業名,当期利益,自己資本」だけを取り出して カンマ区切りで出力(ファイル名はoutt5.csv)する。 $ cat japan-all-stock-fi…

awk (入力じゃなくて)出力の区切り文字を指定する(カンマ区切りで各フィールドを出力したい)

bash、awk、python3でcsvファイルを自由自在にしたい。都度調べるのがダルいので手に覚えさせる。 サンプルcsvはこれ。上場企業の当期利益と資本金を一覧にしてみる。 hesonogoma.com とりあえずアタマの50件だけダウンロード。 $ cat japan-all-stock-finan…

bash カンマ区切りのcsvを1列目でソートする sort -t, -k1n

bashでカンマ区切りのCSVを1列目でソートしたい。こんなcsv。 こうやる。 $ cat outt3.txt | sort -t, -k1n -t, 区切り文字はカンマ,だよ -k1 キーが1列目である -k1n キーが1列目である かつ それを数字(n)としてソートする genzouw.com こうなる。 末尾…

Python3 正規表現のグラフを描く

偏差が平均との差であること、 その差を二乗したもの(正負反転)が分散であること、 二乗を元に戻すためにルートを取ったものが標準偏差であること、 は分かった。 あとはPythonに実データを食わせて標準偏差をとって正規分布になるか確認してみたい。 まず…

sed ヘッダ行だけをタテに表示する (Excelの行列を入れ替えて貼り付け)

こんな感じのカンマ区切りのcsvファイルがあったとして $ vim test.csv 1列目(ヘッダ)だけをタテに表示したい。 sedでできた。こうなる。 $ cat test.csv | head -n 1 | sed -e 's/,/\'$'\n/g' 's/,/\'$'\n/g' ではsとgの前後にシングルクオートが要るらし…

csvの任意の列2つをタテヨコにとった散布図scatterを表示するだけのpythonコード

csvの任意の列2つをタテヨコにとったグラフ(散布図)を作るだけのコード。こういうシンプルな機能を揃えたい。 サンプルcsvはこんな感じ。銀行の残高をcsvに出力したもの。 $ cat dpwithdraw.csv コードはこれ。python3。 11〜15行目 csvの列名を取り出して…

matplotlibのグラフ凡例の豆腐文字化けをIPAフォントで解消する → 失敗

jupyterでcsv読み込んでグラフ化したら豆腐文字化けした。 このサイト参考に直す。 qiita.com 調査に使ったpythonコードは3つ。 import matplotlib matplotlib.matplotlib_fname() matplotlib.get_configdir() matplotlib.matplotlib_fname() で表示されるフ…

vim慣れてるとjupyterのpython3環境が楽しい

自分のiMacにはjupyter環境がインストールされてた。たぶん去年このへんの記事を作ったんだと思う(うろ覚え)。 qiita.com 前回使ったPaizaのjupyter環境からダウンロードしたipynbファイルを取り込んだら即使えた。 min117.hatenablog.com 取り込みは簡単…

jupyter notebook(Python3)で アンスコムの4つ組(Anscombe's quartet)を試す

前回記事で、WebさえあればPython3でグラフ描ける環境ができた。 min117.hatenablog.com Shellのコンソールだけだとグラフ描けなくて困ってたけど、これなら色々と試せる。 以前からいじりたかったコレ。 さっそく試してみる。 P87の散布図。 「アンスコムの…

PaizaCloudのjupyter notebook環境でPython3を利用する

統計をかじり始めた。「何よりまず手を動かす」したいので、すぐに動かせる環境に飛びつく。 PaizaCloudにアカウントを作ってみた。 paiza.cloud 「Webの開発環境構築を挫折したことはありませんか?」 そう。環境作るの時間かかってそれで満足しちゃうのが…

bash 引数の分散を求めるスクリプト

予算の関係で将来の獲得件数の予測を立てる仕事が最近あり。夜中まで大変な思いをしたので、経験したことを形にしておきたい。 本屋に寄ったら「数学は演繹、統計は帰納。アプローチが違う」と書いた本があり。目から鱗な感じ。そうか。予測を立てるには数学…

Amazon Music 気になっていた曲の歌手が分かった → Astrud gilberto「イパネマの娘 Garota de Ipanema」

街中や出張先でよく耳にするこの曲 www.youtube.com すごく良いんだけど、曲名や歌手をどうやって調べるかなと思っていた。 amazon musicで判明。ジャズ最高。 歌手:Astrud gilberto(アストラッド・ジルベルト) 曲名:イパネマの娘 原題:Garota de Ipane…

独習Java第4版 静的メソッドと静的変数(自然対数の底eと円周率π)

「静的メソッドはクラスに結びつけられているため、それを呼び出すためにクラスのインスタンスを生成する必要がない」 昔は言っている意味がさっぱり分からなかったが、今なら分かる。 クラスっていう雛形自体が持っているメソッドが静的メソッドで、その雛…

独習Java第4版 多次元配列

配列ってあんま好きじゃない。 わざわざ配列なんてしなくても、要素になる数字を1行に並べてtxtに書いて(セパレータ決めて)forループ回せばアクセスできるんじゃないの? メモリに持ったほうが速いから?個人で作るサービスにそんなスペックいる? 「無駄…

python3 最頻値を求めるプログラムにbitcoinの価格データを食わせてみる

pythonから始める数学入門。 なかなか読めず。やっと手をつけた。 平均・中央値・最頻値などの基本統計量を求めるところが気になる。 今回は最頻値を抽出してみる。 テストデータは(意味のない文字列使っても面白くないので)以前bitcoinの価格をファイルに…