西洋版MS-DOSマウスドライバーをDOS/Vへ移植しようとアセンブリプログラミングしていて、コア部分はほぼ完成しつつある。だけど、一つ重大なバグが残っていて、それがなかなか原因を探るのに苦労している。
それは文字がDBCS(2バイト文字セット、全角文字)かどうかを識別するパーサー。テキスト上でカーソルを反転させるとき、DBCSなら反転する範囲をSBCS(1バイト文字セット、半角文字)より2倍の幅にする必要がある。
シフトJISエンコーディングのテキストからある文字がSBCSかDBCSかを調べるには、文字の第1バイトが81-9FhまたはE0-FChの範囲内にあるかどうかを調べればいい。ところが、シフトJISにはDBCSの第2バイトにもこの範囲を含むという致命的な欠点がある。途中のとあるバイトが文字の第1バイトか第2バイトかを見分けるには、前の文字も調べる必要があり、最悪、テキストの先頭までさかのぼらなければならない。
例えば、DBCSは1字目がラテン文字で、2字目は数字またはラテン文字からなる、2文字で表現し、それ以外をSBCSと仮定する。123A1B1C1
とあったとき、23
だけを見れば3
がSBCSであることは確定する。2
がSBCSかどうかは前の文字を確認する必要があり、この場合は1
なので、そこで初めて2
がSBCSだと確定する。では、先からA1
を抜き出した時はどうか。これだけ見ればDBCSなのだが、確定するには前の文字を見る必要がある。AA-1
というDBCSとSBCSの組み合わせの可能性もあるからだ。今回の場合は3A1
であり、3
がSBCSだろうがDBCSの2字目だろうが、A1
がDBCSであることに違いないので確定する。問題はABCDEA1
と続いた場合だ。こうなるとA1
のA
がDBCSの第1バイトか第2バイトかを調べるには、先頭までさかのぼる必要がある。AB-CD-E[A]-1
となるか、BC-DE-[A]1
となるか、境界が分からないからだ。
こういう面倒な部分もあるが、単純に2バイトがDBCSかどうかを判断するプログラムはアセンブリコードでもそこまで複雑ではない。
; in: al = char, out: CF = 0 (SBCS), 1 (DBCS)
ischardbcs proc
push es
push di
push bx
les di,[dbcstblptr] ;set ES:DI for DBCS lead-byte table
cld
@@looknexttbl:
mov bx,es:[di]
or bh,bl
jz @@issbcs
scasb ;JPN: 81,9F,E0,FC,0,0h KOR:81,BF,0,0h CHT:81,FC,0,0h
jb @@issbcs
scasb
ja @@looknexttbl
;@@isdbcs:
stc
jmp @@endscan
@@issbcs:
clc
@@endscan:
pop bx
pop di
pop es
ret
ischardbcs endp
そのはずだが、問題はこのコードをドライバーに組み込んで実行したとき、エミュレーター(86Box)では期待通りの結果が出るのに対し、実機では違う結果が出ることだ。実機でドライバーコードをデバッグするのは結構手間がかかる。原因はまだ判明していない。範囲は絞られたので、もう少しで分かると良いのだが。現状は見当がつかない。