Pythonのreadlineメソッドの振る舞いとは?文字コードによる違いやreadlineメソッドの使い方を紹介

- システム
エンジニア - Pythonのファイルオブジェクトに含まれるreadlineメソッドについて教えてください。
- プロジェクト
マネージャー - 分かりました。ファイルのオープンモードや文字コード、改行コードなどの違いによるreadlineメソッドの振る舞い方についてサンプルプログラムを用いて解説いたしましょう。
Pythonのreadlineメソッドの振る舞い
プログラミング言語Pythonのファイルオブジェクトに含まれるreadlineメソッドについて解説します。Pythonのファイルオブジェクトに含まれる同様のメソッドにread、readlinesというものもあります。
readlineメソッドは比較的大きなテキストファイルを1行ずつ読み込んで処理するときに適しており、それに対してreadメソッドは比較的大きなファイルを1文字ずつ読み込んで処理するとき、または小さなファイルを一括して読み込むときに適しています。
readlinesメソッドは比較的小さなテキストファイルを一括して読み込み、1行ずつ処理するときに適しています。
以下に出てくるプログラムはPython3上で動作させてください。動作確認はWindowsのPython3.9.1で行いました。
また、サンプルプログラムの実行結果(出力されたファイル)を確認するには文字コードが分かるテキストエディタかバイナリファイルエディタなどをご利用ください。
改行コードによる違い
UTF‐8のファイルをテキストモードでオープンした場合、PythonのreadlineメソッドはCR+LF、CR、LFのいずれの改行コードも受け付けてくれます。異なる改行コードが混ざっていても問題なく動作します。
以下に改行コードによる違いが無いことを確認するためのサンプルプログラム(Sample1.py)と、異なる改行コードを出力するための(Sample1.pyの入力用ファイル作成)プログラムを紹介します。
改行コードによる違いが無いことを確認するサンプルプログラム(Sample1.py)
下記のプログラムは改行コードによる違いが無いことを確認するためのサンプルプログラム(Sample1.py)です。
testfile1~4.txtのテキストファイルをreadlineメソッドで読み込み、testfile1~4a.txtを出力するものです。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
|
# Sample1.py
# WindowsのPython3.9.1で動作確認しました。
# 改行コードによる違いが無いことを確認するためのサンプルプログラムです。
FNNUM = 4 # ファイル数
fn = ['testfile1.txt', 'testfile2.txt', 'testfile3.txt', 'testfile4.txt']
ofn = ['testfile1a.txt', 'testfile2a.txt', 'testfile3a.txt', 'testfile4a.txt']
for i in range(FNNUM):
print (fn[i], ofn[i])
#ファイルオープン
fr = open(fn[i], 'r', encoding='utf-8')
fw = open(ofn[i], 'w', encoding='utf-8')
#1行ずつ読み込み&書き込み
while( True ):
s = fr.readline() # 1行読み込み
if not s: # 読み込み終了?
break
print(s, end='') # 表示
fw.write(s) # ファイルに書き込み
# ファイルをクローズ
fw.close()
fr.close()
|
Sample1.py入力ファイル出力プログラム(testfile1.py)
サンプルプログラム(Sample1.py)の入力用テキストファイル(testfile1~4.txt)を出力します。なお、出力されるファイルの文字コードはUTF‐8です。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
|
# testfile1.py
# WindowsのPython3.9.1で動作確認しました。
# 改行コードを換えたUTF-8ファイル(testfile1~4.txt)を出力します。
# testfile1(CR+LF) 出力
fw = open('testfile1.txt', 'wb')
data = '東京\r\n神奈川\r\n千葉\r\n埼玉\r\n群馬\r\n茨木\r\n杤木\r\n'
fw.write( data.encode('utf-8') )
fw.close()
# testfile2(CR) 出力
fw = open('testfile2.txt', 'wb')
data = '東京\r神奈川\r千葉\r埼玉\r群馬\r茨木\r杤木\r'
fw.write( data.encode('utf-8') )
fw.close()
# testfile3(LF) 出力
fw = open('testfile3.txt', 'wb')
data = '東京\n神奈川\n千葉\n埼玉\n群馬\n茨木\n杤木\n'
fw.write( data.encode('utf-8') )
fw.close()
# testfile4(混合) 出力
fw = open('testfile4.txt', 'wb')
data = '東京\r神奈川\n千葉\r\n埼玉\r群馬\n茨木\r\n杤木\r'
fw.write( data.encode('utf-8') )
fw.close()
|
文字コードによる違い
次は文字コードによる違いを見てみることにします。Pythonで文字コードの異なるデータを扱う場合には、通常str型に変換する必要があります。
文字コードを変換するタイミングは2つあり、ファイルオープン時に文字コードを指定して変換するか、バイナリモードでオープンし、読み込んでから文字コード変換するかのいずれかになります。
結論から言えば、ファイルオープン時に文字コードを指定する方法の方がお勧めです。理由はいずれの文字コードおよび改行コードであっても正常に動作するためです。
以下にサンプルプログラム(Sample2.py、Sample3.py)および、その入力用ファイル作成プログラム(testfile2.py)を紹介します。
ファイルオープン時に文字コードを指定(Sample2.py)
Python3ではファイルオープン時に文字コードを指定して読み込むことができます。改行コードはCR+LF、CR、LFのいずれでも認識されます。
ただし、1行読み込み時に改行コードがCR+LF(実行環境に依存)に統一されてしまいます。改行コードがCR+LFに統一されてしまっても問題ない場合は、この方法がお勧めです。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
|
# Sample2.py
# WindowsのPython3.9.1で動作確認しました。
# ファイルオープン時に文字コードを指定する方法です。
fn = ['testfile5.txt', 'testfile6.txt', 'testfile7.txt', 'testfile8.txt']
ofn = ['testfile5a.txt', 'testfile6a.txt', 'testfile7a.txt', 'testfile8a.txt']
# ファイルを1行ずつ読み込み&書き込み&表示
def readall(fr,fw):
#1行ずつ読み込み&書き込み
while( True ):
s = fr.readline() # 1行読み込み
if not s: # 読み込み終了?
break
print(s, end='') # 表示
fw.write(s) # ファイルに書き込み
# サブルーチン
def sub(i,enc):
print (fn[i], ofn[i])
#ファイルオープン
fr = open(fn[i], 'r', encoding=enc)
fw = open(ofn[i], 'w', encoding=enc)
readall(fr,fw) # ファイル読み込み&書き込み
# ファイルをクローズ
fw.close()
fr.close()
# サブルーチンを呼び出して処理を実行
sub(0,'euc_jp') # testfile5(EUC)
sub(1,'shift_jis') # testfile6(シフトJIS)
sub(2,'utf-8') # testfile7(UTF-8)
sub(3,'utf-16be') # testfile8(UTF-16BE)
|
ファイルをバイナリモードでオープンしてから文字コード変換
文字コードを替えたテキストファイル(異なる改行コード混合)をバイナリモードで読み込んでみましょう(Sample3.py)。
print文の出力をご覧いただくと分かりますが、「東京神奈川」および「埼玉群馬」が繋がって出力されてしまいます。これはCRのみの改行が改行コードとして認識されておらず、2行がまとめて読み込まれてしまっているためです。
また、utf-16beをutf-16leに換えて実行すると文字コード変換の行でデコードエラーになりました。そのため、特に理由がない限りはファイルオープン時に文字コードを指定する方法を使うようにした方が良い結果が得られるでしょう。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
|
# Sample3.py
# WindowsのPython3.9.1で動作確認しました。
# ファイルはバイナリモードでオープンし、1行読み込んでから文字コード変換する方法です。
fn = ['testfile5.txt', 'testfile6.txt', 'testfile7.txt', 'testfile8.txt']
ofn = ['testfile9a.txt', 'testfile10a.txt', 'testfile11a.txt', 'testfile12a.txt']
# ファイルを1行ずつ読み込み&書き込み&表示
def readall(fr,fw,decd):
# 1行ずつ読み込み&書き込み
while( True ):
bs = fr.readline() # 1行読み込み
if not bs: # 読み込み終了?
break
s = bs.decode(decd) # 文字コード変換(UTF-16LEだとデコードエラーになりました)
print(s) # 表示
fw.write(bs) # ファイルに書き込み
# サブルーチン
def sub(i,enc):
print (fn[i], ofn[i])
#ファイルオープン
fr = open(fn[i], 'rb')
fw = open(ofn[i], 'wb')
readall(fr,fw,enc) # ファイル読み込み&書き込み
# ファイルをクローズ
fw.close()
fr.close()
# サブルーチンを呼び出して処理を実行
sub(0,'euc_jp') # testfile5(EUC)
sub(1,'shift_jis') # testfile6(シフトJIS)
sub(2,'utf-8') # testfile7(UTF-8)
sub(3,'utf-16be') # testfile8(UTF-16BE)
|
Sample2~3.py入力用ファイル出力プログラム(testfile2.py)
Sample2.pyおよびSample3.pyの入力用ファイルを出力するためのプログラムです。出力されるファイルの改行コードはCR+LF、CR、LFが混ざったファイルになります。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
|
# testfile2.py
# WindowsのPython 3.9.1で動作確認しました。
# 文字コードを換えたUTF-8ファイル(testfile5~7.txt)を出力します。
# 改行コードは混合です。
# 出力文字列(改行コード混合)
data = '東京\r神奈川\n千葉\r\n埼玉\r群馬\n茨木\r\n杤木\r'
# testfile5 出力
fw = open('testfile5.txt', 'wb')
fw.write( data.encode('euc_jp') ) # EUC
fw.close()
# testfile6 出力
fw = open('testfile6.txt', 'wb')
fw.write( data.encode('shift_jis') ) #シフトJIS
fw.close()
# testfile7 出力
fw = open('testfile7.txt', 'wb')
fw.write( data.encode('utf-8') ) # UTF-8
fw.close() # ファイルをクローズ
# testfile8 出力
fw = open('testfile8.txt', 'wb')
fw.write( data.encode('utf-16be') ) # UTF-16BE
fw.close()
|
Pythonのreadlineメソッドの使い方
以上のことから、readlineメソッドを使用する場合にはファイルオープン時に文字コードを指定して処理した方が良いでしょう。
もし、改行コードが変わってしまうことが問題となる場合にはテキストデータとしてではなくバイナリデータとして処理すべきでしょう。つまり、「readlineメソッドは使わない」ということです。
なぜならテキストデータにおける改行コードは、あくまで「改行」の意味しかなく、改行コード自体は何であっても(変更されたとしても)問題ないはずだからです。
- システム
エンジニア - Pythonのファイルのオープンモードや文字コード、改行コードなどの違いによるreadlineメソッドの振る舞い方についてよく分かりました。
- プロジェクト
マネージャー - ご紹介したソースコードを参考に、ぜひご自身でもソースコードを書いてみてください。
最後に
随分と細かなところを解説してしまいましたが如何でしたでしょうか。通常はここまで気にしなくても問題ないはずですが、文字コードと改行コードが異なるテキストファイルを処理するときにはつまずく場合があるでしょう。
最後まで読んでくれたあなたのお役に立てれば幸いです。
FEnet.NETナビ・.NETコラムは株式会社オープンアップシステムが運営しています。
株式会社オープンアップシステムはこんな会社です
秋葉原オフィスには株式会社オープンアップシステムをはじめグループのIT企業が集結!
数多くのエンジニアが集まります。

-
スマホアプリから業務系システムまで
スマホアプリから業務系システムまで開発案件多数。システムエンジニア・プログラマーとしての多彩なキャリアパスがあります。
-
充実した研修制度
毎年、IT技術のトレンドや社員の要望に合わせて、カリキュラムを刷新し展開しています。社内講師の丁寧なサポートを受けながら、自分のペースで学ぶことができます。
-
資格取得を応援
スキルアップしたい社員を応援するために資格取得一時金制度を設けています。受験料(実費)と合わせて資格レベルに合わせた最大10万円の一時金も支給しています。
-
東証プライム上場企業グループ
オープンアップシステムは東証プライム上場「株式会社オープンアップグループ」のグループ企業です。
安定した経営基盤とグループ間のスムーズな連携でコロナ禍でも安定した雇用を実現させています。
株式会社オープンアップシステムに興味を持った方へ
株式会社オープンアップシステムでは、開発系エンジニア・プログラマを募集しています。
年収をアップしたい!スキルアップしたい!大手の上流案件にチャレンジしたい!
まずは話だけでも聞いてみたい場合もOK。お気軽にご登録ください。


新着案件New Job
-
開発エンジニア/東京都品川区/【WEB面談可】/在宅ワーク
月給29万~30万円東京都品川区(大崎駅) -
遠隔テストサービス機能改修/JavaScript/東京都港区/【WEB面談可】/テレワーク
月給45万~60万円東京都港区(六本木駅) -
病院内システムの不具合対応、保守/東京都豊島区/【WEB面談可】/テレワーク
月給30万~30万円東京都豊島区(池袋駅) -
開発/JavaScript/東京都豊島区/【WEB面談可】/テレワーク
月給50万~50万円東京都豊島区(大塚駅) -
債権債務システム追加開発/東京都文京区/【WEB面談可】/在宅勤務
月給62万~67万円東京都文京区(後楽園駅) -
PMO/東京都豊島区/【WEB面談可】/在宅勤務
月給55万~55万円東京都豊島区(池袋駅)