Google の OSS プロジェクトはテストデータ(テキスト)に何を使用している?
brotil と snappy は Google でリポジトリ管理されている圧縮ライブラリ。
それぞれテストデータは以下の場所にある。
- brotli/tests/testdata at master · google/brotli · GitHub
- snappy/testdata at master · google/snappy · GitHub
その中をみると、以下のデータが共通して使用されていた。
- Alice's Adventures in Wonderland / Lewis Carroll (不思議の国のアリス / ルイス・キャロル)
- As You Like It / William Shakespeare (お気に召すまま / ウィリアム・シェークスピア)
- Paradise Lost / John Milton (失楽園 / ジョン・ミルトン)
いずれも著作権の保護期間が終了した古典文学作品。
元のデータは Gutenberg Project から取ってきている?
Gutenberg Project は日本で言うと、青空文庫に近い。