忍者ブログ
Admin / Write / Res
ちゃんとカテゴリ分けされておりませんので、 記事をお探しならブログ内検索が便利です。 ご活用くださいませー+.(≧∀≦)゚+.゚
ブログ内検索
カレンダー
10 2024/11 12
S M T W T F S
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
カウンター
アクセスカウンター
最新コメント
[11/22 รูปพวงหรีดแสดงความเสียใจ]
[11/22 ดอกไม้ งานศพ]
[11/22 ช่อดอกไม้ตามสั่ง]
[11/22 ร้านดอกไม้บรรยากาศอบอุ่น]
[11/21 Robertret]
最新トラックバック
プロフィール
+ハンドル+
y_ayamori(purple)
+職業+
IT系エンジニア
+すまい+
さいたま
バーコード
[1]  [2]  [3]  [4]  [5]  [6]  [7]  [8]  [9
久しぶりに一人の時を過ごしています。
ワケあって、仕事も休んでいます。

少し暑いと感じる日差しと、少し肌寒く感じる風が今という現実を唯一繋いでいるかのよう。

ひとり

なんてことない日常なのに…
いざ訪れてみると何年も忘れていた非日常の世界。

なんとなく、若かりし頃の気持ちになっている。
どこか別の世界に飛び込みたい、そしてそのことになんの抵抗も感じないような気持ち。
大人になると、それだけでいろいろなしがらみに囚われ、縛られ、童心を忘れていくのだと感じた。

新しい知識・体験・干渉。
それはときに忙しさだったり、夢中になる時間だったり。
重ねるごとに年輪のように内側へと閉じ込められ、過去のエクスペリエンスは懐古の中に溶けていく。

しかし外側からどんなに深く隠されようと、刻まれた年輪はなくならない。
何かのトリガーでフラッシュバックすることもあるでしょう。

「懐古厨」と罵る人もいるでしょう。
でも私はそうは思わない。
そこにあった自分こそが、生粋の自分なんだと思う。
その気持と向き合ったとき、これからの自分に必要なものだと感じたから。

拍手

PR
Python3.5 * Django1.9 with Postgresql9.5 構成のバッチプログラムが見たこともないエラーを出力しました。

psycopg2.DatabaseError: lost synchronization with server: got message type ",", length 539107884

何だろう・・・これ?
ググってもなかなか答えが出てこない…
このバッチ自体は2か月以上運用実績があるのに…

近そうだったのが、これ。
https://www.postgresql.org/message-id/2164.1435070683%40sss.pgh.pa.us
どうも、OOM(Out of memory)のようです。

PostgresqlはキャッシュデータをOSと共有するので、Shared Memory(shared_buffur)は少ない方がよい。
というのを見て、initdbのまま(128MB)で運用していたのが原因みたい。
SELECTの対象となったデータは数十MB程度だったのだけど、並列処理していたので、合計でこの値を上回ってしまったみたい。

ではなぜ、運用開始直後から出なかったかというと、じつは直近でDBサーバをSSDに変えたのがありました。
浅はかな知識で理解する限りPostgresqlはクラスタから引き出したデータは一度共有メモリに展開します。
その後クライアントに送られます。
クラスタから引き出されたデータは順次クライアントに送られます。
ですが、データが大きく引き出す速度が転送速度を極度に上回った場合、共有メモリを圧迫します。
その結果OOMが発生し、lost synchronizationが発生したと思われます。
シンクロナイゼーション、すなわち、共有バッファとクライアントの同期が失われた。
共有バッファ上のデータがクライアントに到達する前にロストしたってことみたい。

うーん、DBチューニングは奥が深いわねぇ…

検索タグ
Postgresql9.5.3
Python3.5.0
Django1.9

拍手

たまにやらかすのが、実行時間が長いバッチをバックグランドで実行しようとして、普通に起動しちゃうこと。

# 想定
./long_time_running.sh &

# 実際にやりがち
./long_time_running.sh 

Ctrl+Cでやり直せるなら早いけど、強制的に止めると不都合のあることはよくあります。。。
何とか対処ができないかなーと思ったらやっぱりありました。

# 間違えて起動
$ ./long_time_running.sh

# Ctrl+Zで停止
^Z
[2]+  停止                  ./long_time_running.sh

# jobsコマンドで状況を確認、停止中になっている
$ jobs
[1]+  停止                  ./long_time_running.sh

# job番号をしてしてバックグランドで実行させる
$ bg 1
[1]+ ./long_time_running.sh &

# もう一度job一覧を確認、実行できてる
$ jobs
[1]+  実行中               ./long_time_running.sh &

# 念のため&を付けたときの挙動
$ ./long_time_running.sh &
[1] 22062

# jobの確認、同じね
$ jobs
[1]+  実行中               ./long_time_running.sh &

拍手

144万行あるCSVの中から4列目と7列目のデータを抽出したい。
ごくごく簡単なお仕事ね。
そう思っていつものようにさくっとコーディング。

t = r"C:\Temp\all.txt"
import csv

results = []
c = {}
with open(t) as f:
    reader = csv.reader(f, delimiter="\t")
    for i, row in enumerate(reader):
        if not row[6]:
            continue
        res = [row[3], row[6]]
        results.append(res)

with open(r"E:\output.csv", "wb") as f:
    writer = csv.writer(f, delimiter="\t")
    writer.writerows(results)

するとどうでしょう?
なぜか結果には41,128行しかデータがない。。
なぜ?と多少不安になりながらもデバッグしてみると、本当にループが41,128回で止まっているみたい。
あれこれ試行錯誤するものの解決できず…
かくなる上はPython3.4に書き下ろす…

t = r"C:\Temp\all.txt"
import csv

results = []
c = {}
with open(t, encoding='utf-8') as f:
    reader = csv.reader(f, delimiter="\t")
    for i, row in enumerate(reader):
        if not row[6]:
            continue
        res = [row[3], row[6]]
        results.append(res)

with open(r"E:\output.csv", "w", encoding='cp932') as f:
    writer = csv.writer(f, delimiter="\t")
    writer.writerows(results)

するとどうでしょう?
問題なく動くじゃない><M
2系のバグでしょうか?
うーん、3系デフォルトで使おうかなー
なんて思った出来事でした。

検索タグ
Python2.7
Python3.4

拍手

久しぶりにPHPでバッチを書かなければならない要件ができましたー。
でもURLを連結する(カレントURLとhrefを使って遷移先URLを作成する)のって、PHPだとすごくめんどうなの・・・;;
私が知る限りそのような関数はPHPにはありません。
※ PECLにはあるかもしれないけどねーu

いいやー、もうPythonにやらしちゃおう!
そうしよう!!!
ということで下記のようなコーディングをしました♪

$current_url = "https://www.ec_site.jp/shop/search"; $href = "?page=2"; $cmd_base = <<<___ python2 -c "import urlparse; print urlparse.urljoin('%s', '%s')" ___; $cmd = sprintf(trim($cmd_base), $current_url, $href); var_dump($cmd);

するとどうでしょう?
こんな結果になったのです。

https://www.ec_site.jp/shop/?page=2

「search」が・・・ない・・・ガクゼン
なぜ?
物は試しに3.4の環境で試すと、想定通りの結果が返ってきました。
2系のバグ?
課と思ったのですが、どうも2.7では出ない模様・・・
実行したサーバのPythonのバージョンをみてみたら、2.4でした。
えー?っと思って念のため確認・・・

$ cat /etc/redhat-release
CentOS release 5.10 (Final)

古い…
あーうーとか音を上げつつ、「parse_url()」で頑張ることにしたのでした…
みなさん気をつけてくださいね^^


---- 検索タグ ----
PHP < 5.4
Python3.4
Python2.7
Python2.4

拍手

過去にもちょこちょこっとお世話になったことがあるsqlite3さん。
でも本格的にプログラムで使用したことがないから、一時的にちょこっと使用したときとかに便利。
というより、その程度しか使用したことがないのよねー。
な・の・で・・・すぐに忘れてしまう鳥頭のためのいつもの落書きです^^;

# sqlite3 の入手
https://www.sqlite.org/download.html

# 実行
# sqlite3.exe をダブルクリックで起動

-- データベースの作成
-- 作成しなかった場合はin-memoryで作成されている
-- (つまり必要がない)
.open dbname.sqlite3

-- テーブルの作成、普通にIF EXISTS も使える
-- 型は以下の通り
-- http://www.sqlite.org/datatype3.html
--    TEXT
--    NUMERIC
--    INTEGER
--    REAL
--    BLOB

CREATE TABLE IF NOT EXISTS tbl_test(t text, n numeric, i integer, r real ,b blob);
INSERT INTO tbl_test VALUES('hoge"ho''ge', 1234.567890, 1234.567890, 1234.567890, 'blob');

-- いまひとつ数字系とtext, blobの違いが判りません・・・
SELECT * FROM tbl_test;

-- INDEXも作れます!
CREATE INDEX tbl_test_i ON tbl_test(i);
CREATE UNIQUE INDEX tbl_test_t ON tbl_test(t);

-- 日付系
SELECT date('now');
SELECT datetime('now');

-- テーブルダンプ(標準出力)
.dump

-- 出力先きりかえ、そしてダンプ(バックアップ)
.output ./db_test.dmp
.dump

-- 標準出力へ戻す
.output

-- テーブル破棄
-- これもEXISTS使えました^^
DROP TABLE IF EXISTS tbl_test;

-- リストア
.read ./db_test.dmp

-- メタコマンド一覧
.help

-- データベースの一覧
.databases

-- テーブルの一覧
.tables

-- INDEXの一覧
.indexes

-- VACUUM
VACUUM;

-- SELECTの表示を少しでも見やすく
.mode column
SELECT * FROM tbl_test;

-- CSV形式
.mode csv
SELECT * FROM tbl_test;
-- ファイル出力
.output tbl.test.csv
SELECT * FROM tbl_test;
.output

-- TSV形式
.mode tabs
SELECT * FROM tbl_test;
-- ファイル出力
.output tbl.test.tsv
SELECT * FROM tbl_test;
.output

-- INSERT形式
-- 主に別システム移行用ではないかと
.mode insert
SELECT * FROM tbl_test;
-- ファイル出力
.output tbl.test.sql
SELECT * FROM tbl_test;
.output

拍手

これもすぐ忘れてしまうのよねー
ってことでメモします。


sum(1 for line in open('filename'))

試験環境
Windows7 or Linux
Python 2.7.8
Python2.6.6

参考URL
http://d.hatena.ne.jp/cafistar/20120405/1333600582
http://stackoverflow.com/questions/845058/how-to-get-line-count-cheaply-in-python

拍手


久しぶりにPHPでコーディングして、不満があったので、憂さ晴らしです(ぇ

【5C問題】
よく知られたSJISの問題ですね。
これは仕方ないカナ?
Unicodeの実装をあきらめ、PHP6をすっ飛ばしてPHP7をリリースしようとしている心意気だけ評価してあげます。
がんばればaddslashes()やlocale系でたいていゴリ押しできますし。

【fgetcsv()の第二引数にstringを渡すと無視される】
これはひどいです。。。
第二引数は最大行長を指定するのですが、長さなので当然int型が正しいです。
ドキュメントにもそうありますし。。。
ですが、実際はどうでしょう?
それなりに動いているではありませんか!!!
行長を調整してみると、どうもデフォルトで動いているような気がします。。。

<?php
$fp = fopen(__file__, "rb");
while(($line=fgetcsv($fp, ','))!==false){
    var_dump($line);
}

気が振れているとしか思えません。。。
おそらくstringがintにcastされてその結果が0だったので、そういう挙動になったんだと思います。
文字長があるのだからせめて1になるのが正しい気がしますが。。。
(それなら早く気付けるし。。。)

<?php
var_dump((int)',');

腕がわるいと言われれば反撃できないのですが、これはPHPを使っているだけでバグを作っているような気がします。。。
コーダーが関数の仕様を勘違いしていたら一生気づかないし、こういうバグってコーダーが退職後に出やすいんです。
そして、今まで動いていたのが動かないってことはみんなまず最初にINPUTデータを怪しみます。
そしてトコトン現場に混乱をもたらして初めてPHPが仕掛けたトラップに気づくのです。
恐ろしい子なんです、PHPって子は…

【feof() が無限ループになることがある】
オブジェクト指向なクラスが増えたとはいえ、まだまだ手続型言語のPHP。
なのに・・・
無限ループの可能性があるなんて…
言わんとすることはわかります。
たしかに関数としての動きもそうですけど、でも無限ループは怖いので、そこはFatalで落ちてほしかったです。
今後はSplFilreObject()に期待したいですね。。。

と、いうことで皆さんは気を付けてくださいね^^

検索タグ
php5.6

拍手

データベース上で日付の計算を行いたいことはよくあります。
集計、はビッグデータ時代には必須ともいえるかもしれません。
MySQLは多くの日付計算のための仕組みを用意してくれています。
遠慮なく使わせていただきましょう^^

ですが、注意点もあります。
それはMySQLはCAST(型変換)がとても強く働くことです。
これは便利なようですが、よく理解しないまま使用すると想定しない値を返却する場合があります。
加えて、関数にたくさんのシノニム(別名:alias)が存在するので、結構現場に混乱をもたらします。
とはいえ便利ですし、レコードの解析の際はお世話になることが多いですので、覚えておいて損はありません。
大事なのは、日付の場合はこの関数。
時間の場合はこの関数。
など決めを作り、運用するのがいいかもしれませんね。
もっとも私は関数あまり使いませんけど~ (えっ

-- 今日
SELECT NOW(), CURDATE(), CURTIME();
-- 日付計算
SELECT
    NOW()
    , NOW() + INTERVAL 1 DAY
    , NOW() + INTERVAL 1 MICROSECOND
    , NOW() + INTERVAL 1 SECOND
    , NOW() + INTERVAL 1 MINUTE
    , NOW() + INTERVAL 1 HOUR
    , NOW() + INTERVAL 1 DAY
    , NOW() + INTERVAL 1 WEEK
    , NOW() + INTERVAL 1 MONTH
    , NOW() + INTERVAL 1 QUARTER
    , NOW() + INTERVAL 1 YEAR
    , NOW() + INTERVAL 1.111111 SECOND_MICROSECOND
    , NOW() + INTERVAL '01:01.111111' MINUTE_MICROSECOND
    , NOW() + INTERVAL '01:01' MINUTE_SECOND
    , NOW() + INTERVAL '01:01:01.111111' HOUR_MICROSECOND
    , NOW() + INTERVAL '01:01:01' HOUR_SECOND
    , NOW() + INTERVAL '01:01' HOUR_MINUTE
    , NOW() + INTERVAL '1 01:01:01.111111' DAY_MICROSECOND
    , NOW() + INTERVAL '1 01:01:01' DAY_SECOND
    , NOW() + INTERVAL '1 01:01' DAY_MINUTE
    , NOW() + INTERVAL '1 01' DAY_HOUR
    , NOW() + INTERVAL '1 1' YEAR_MONTH
\G

中にはMICROSECOND型で返ってくるものもあります。
当然これはこれで正ですが、見慣れた形式にしたい場合はCASTが覚えやすいと思います。

SELECT
    CAST(NOW() AS DATETIME)
    , CAST(NOW() AS DATE)
    , CAST(NOW() AS TIME)
\G

さらに細かく日付の形式を指定するならフォーマットを使います。

SELECT
    NOW()
    , DATE_FORMAT(NOW(), '%a') AS 'Abbreviated weekday name (Sun..Sat)'
    , DATE_FORMAT(NOW(), '%b') AS 'Abbreviated month name (Jan..Dec)'
    , DATE_FORMAT(NOW(), '%c') AS 'Month, numeric (0..12)'
    , DATE_FORMAT(NOW(), '%D') AS 'Day of the month with English suffix (0th, 1st, 2nd, 3rd, …)'
    , DATE_FORMAT(NOW(), '%d') AS 'Day of the month, numeric (00..31)'
    , DATE_FORMAT(NOW(), '%e') AS 'Day of the month, numeric (0..31)'
    , DATE_FORMAT(NOW(), '%f') AS 'Microseconds (000000..999999)'
    , DATE_FORMAT(NOW(), '%H') AS 'Hour (00..23)'
    , DATE_FORMAT(NOW(), '%h') AS 'Hour (01..12)'
    , DATE_FORMAT(NOW(), '%I') AS 'Hour (01..12)'
    , DATE_FORMAT(NOW(), '%i') AS 'Minutes, numeric (00..59)'
    , DATE_FORMAT(NOW(), '%j') AS 'Day of year (001..366)'
    , DATE_FORMAT(NOW(), '%k') AS 'Hour (0..23)'
    , DATE_FORMAT(NOW(), '%l') AS 'Hour (1..12)'
    , DATE_FORMAT(NOW(), '%M') AS 'Month name (January..December)'
    , DATE_FORMAT(NOW(), '%m') AS 'Month, numeric (00..12)'
    , DATE_FORMAT(NOW(), '%p') AS 'AM or PM'
    , DATE_FORMAT(NOW(), '%r') AS 'Time, 12-hour (hh:mm:ss followed by AM or PM)'
    , DATE_FORMAT(NOW(), '%S') AS 'Seconds (00..59)'
    , DATE_FORMAT(NOW(), '%s') AS 'Seconds (00..59)'
    , DATE_FORMAT(NOW(), '%T') AS 'Time, 24-hour (hh:mm:ss)'
    , DATE_FORMAT(NOW(), '%U') AS 'Week (00..53), where Sunday is the first day of the week; WEEK() mode 0'
    , DATE_FORMAT(NOW(), '%u') AS 'Week (00..53), where Monday is the first day of the week; WEEK() mode 1'
    , DATE_FORMAT(NOW(), '%V') AS 'Week (01..53), where Sunday is the first day of the week; WEEK() mode 2; used with %X'
    , DATE_FORMAT(NOW(), '%v') AS 'Week (01..53), where Monday is the first day of the week; WEEK() mode 3; used with %x'
    , DATE_FORMAT(NOW(), '%W') AS 'Weekday name (Sunday..Saturday)'
    , DATE_FORMAT(NOW(), '%w') AS 'Day of the week (0=Sunday..6=Saturday)'
    , DATE_FORMAT(NOW(), '%X') AS 'Year for the week where Sunday is the first day of the week, numeric, four digits; used with %V'
    , DATE_FORMAT(NOW(), '%x') AS 'Year for the week, where Monday is the first day of the week, numeric, four digits; used with %v'
    , DATE_FORMAT(NOW(), '%Y') AS 'Year, numeric, four digits'
    , DATE_FORMAT(NOW(), '%y') AS 'Year, numeric (two digits)'
    , DATE_FORMAT(NOW(), '%%') AS 'A literal “%” character'
    , DATE_FORMAT(NOW(), '%x') AS 'x, for any “x” not listed above'
\G


時刻形式からの展開

SELECT
    NOW()
    , EXTRACT(DAY FROM NOW())
    , EXTRACT(MICROSECOND FROM NOW())
    , EXTRACT(SECOND FROM NOW())
    , EXTRACT(MINUTE FROM NOW())
    , EXTRACT(HOUR FROM NOW())
    , EXTRACT(DAY FROM NOW())
    , EXTRACT(WEEK FROM NOW())
    , EXTRACT(MONTH FROM NOW())
    , EXTRACT(QUARTER FROM NOW())
    , EXTRACT(YEAR FROM NOW())
    , EXTRACT(SECOND_MICROSECOND FROM NOW())
    , EXTRACT(MINUTE_MICROSECOND FROM NOW())
    , EXTRACT(MINUTE_SECOND FROM NOW())
    , EXTRACT(HOUR_MICROSECOND FROM NOW())
    , EXTRACT(HOUR_SECOND FROM NOW())
    , EXTRACT(HOUR_MINUTE FROM NOW())
    , EXTRACT(DAY_MICROSECOND FROM NOW())
    , EXTRACT(DAY_SECOND FROM NOW())
    , EXTRACT(DAY_MINUTE FROM NOW())
    , EXTRACT(DAY_HOUR FROM NOW())
    , EXTRACT(YEAR_MONTH FROM NOW())
\G


UNIX TIMESTAMP

SELECT
    NOW()
    , UNIX_TIMESTAMP()
    , FROM_UNIXTIME(UNIX_TIMESTAMP())
    , FROM_UNIXTIME(UNIX_TIMESTAMP()) + 0
    , FROM_UNIXTIME(UNIX_TIMESTAMP(), '%Y %D %M %h:%i:%s %x')
\G

月末計算
日付を含む型であること。
有効は日付形式であること

SELECT
    NOW()
    , LAST_DAY(NOW())
    , LAST_DAY(CURDATE())
    ;


時刻、日付作成
MAKETIME()は0パディングされたフォーマットは受け付けない。

SELECT
    NOW()
    , MAKEDATE(EXTRACT(YEAR FROM NOW()), 1)
    , MAKEDATE(EXTRACT(YEAR FROM NOW()), 141)
    , MAKETIME(EXTRACT(HOUR FROM NOW())+0, EXTRACT(MINUTE FROM NOW())+0, EXTRACT(SECOND FROM NOW())+0)
    , MAKETIME(EXTRACT(HOUR FROM NOW())+1, EXTRACT(MINUTE FROM NOW())+1, EXTRACT(SECOND FROM NOW())+1)
\G


いわゆるstrptime()

-- Apacheのログから拾ってみたけど、MySQLはTimezoneのフォーマットがないのね(^_^;)
SELECT STR_TO_DATE('[16/Jan/2015:10:39:13 +0900]','[%d/%b/%Y:%T +0900]');


weekday
(0 = Monday, 1 = Tuesday, … 6 = Sunday).


SELECT
    NOW()
    , WEEKDAY(NOW() + INTERVAL 0 DAY)
    , WEEKDAY(NOW() + INTERVAL 1 DAY)
    , WEEKDAY(NOW() + INTERVAL 2 DAY)
    , WEEKDAY(NOW() + INTERVAL 3 DAY)
    , WEEKDAY(NOW() + INTERVAL 4 DAY)
    , WEEKDAY(NOW() + INTERVAL 5 DAY)
    , WEEKDAY(NOW() + INTERVAL 6 DAY)
\G


その他時刻差分とか出せるみたいだけど、こちらはUNIX TIMESTAMPを中継して
整数で計算した方が良いと思うの。
わかりやすいしね。
マイクロ秒まで考慮する必要があるならいいけど、MySQLのカラム型にマイクロ秒まで
考慮できるデータがあったっけ?
という感じです (^-^;)

でわでわ

拍手

少し記事が古いですが、こんなのを見かけました。
可変変数と可変関数の使いどころがわからない'
可変関数っていうんだ~へぇ(^^;)

私はよく使いますよ^^
こんな感じで(笑)

analyze.php
<php?
$html = file_get_contents('http://php.net/');

$module_dir = implode(DIRECTORY_SEPARATOR, array(dirname(__FILE__), 'modules'));
if(!is_dir($module_dir)) Exception('No such directory.');
$dh = opendir($module_dir);
$php_files = array();
while(($file=readdir($dh))!==false){
        $l = strlen($file);
        if(substr($file, $l-4, 4) !== '.php') continue;
        $php_modules[] = substr($file, 0, $l-4);
}

libxml_use_internal_errors(true);
$doc = new DOMDocument();
$doc->loadHtml($html);
$dom = new DOMXpath($doc);
libxml_use_internal_errors(false);

$ret = array();
foreach($php_modules as $module){
        require_once(implode(DIRECTORY_SEPARATOR, array($module_dir, $module.".php")));
        $ret[$module] = $module($dom);
}
var_dump($ret);

module/leatest_version.php
<php?
$xpath = '//*[@id="intro"]//a[1]/text()';

function latest_version($dom){
        global $xpath;
        $ret = array();
        foreach($dom->query($xpath) as $elem){
                $ret[] = $elem->nodeValue;
        }
        return $ret;
}

外部ファイルを読み込んでそれに対して解析をかけています。
解析をかける関数名はファイル名と一緒にしておき、
ディレクトリの中に格納しておきます。
解析対象が何百とあり、かつ複数人で作業するときには
バッティングも起きにくいですし、対象が増えても
requre元のファイルに変更がないのがうれしいのです。
減らすのも簡単ですしね(^_^;)

と、いう感じで私は結構用途があったとさ。

余談ですが、これPythonでやるとimport_module()を
こねくり回さないといけないのでPHPってその辺に
便利さを痛感します。。。

拍手

Copyright ©  アナログを愛するデジタル生活館 All Rights Reserved.
* material by Pearl Box   * Template by tsukika

忍者ブログ [PR]