西洋版MS-DOSマウスドライバーをDOS/Vへ移植しようとアセンブリプログラミングしていて、コア部分はほぼ完成しつつある。だけど、一つ重大なバグが残っていて、それがなかなか原因を探るのに苦労している。

それは文字がDBCS(2バイト文字セット、全角文字)かどうかを識別するパーサー。テキスト上でカーソルを反転させるとき、DBCSなら反転する範囲をSBCS(1バイト文字セット、半角文字)より2倍の幅にする必要がある。

シフトJISエンコーディングのテキストからある文字がSBCSかDBCSかを調べるには、文字の第1バイトが81-9FhまたはE0-FChの範囲内にあるかどうかを調べればいい。ところが、シフトJISにはDBCSの第2バイトにもこの範囲を含むという致命的な欠点がある。途中のとあるバイトが文字の第1バイトか第2バイトかを見分けるには、前の文字も調べる必要があり、最悪、テキストの先頭までさかのぼらなければならない。

例えば、DBCSは1字目がラテン文字で、2字目は数字またはラテン文字からなる、2文字で表現し、それ以外をSBCSと仮定する。123A1B1C1とあったとき、23だけを見れば3がSBCSであることは確定する。2がSBCSかどうかは前の文字を確認する必要があり、この場合は1なので、そこで初めて2がSBCSだと確定する。では、先からA1を抜き出した時はどうか。これだけ見ればDBCSなのだが、確定するには前の文字を見る必要がある。AA-1というDBCSとSBCSの組み合わせの可能性もあるからだ。今回の場合は3A1であり、3がSBCSだろうがDBCSの2字目だろうが、A1がDBCSであることに違いないので確定する。問題はABCDEA1と続いた場合だ。こうなるとA1AがDBCSの第1バイトか第2バイトかを調べるには、先頭までさかのぼる必要がある。AB-CD-E[A]-1となるか、BC-DE-[A]1となるか、境界が分からないからだ。

こういう面倒な部分もあるが、単純に2バイトがDBCSかどうかを判断するプログラムはアセンブリコードでもそこまで複雑ではない。

; in: al = char, out: CF = 0 (SBCS), 1 (DBCS)
ischardbcs proc
    push    es
    push    di
    push    bx
    les     di,[dbcstblptr]    ;set ES:DI for DBCS lead-byte table
    cld
@@looknexttbl:
    mov     bx,es:[di]
    or      bh,bl
    jz      @@issbcs
    scasb   ;JPN: 81,9F,E0,FC,0,0h  KOR:81,BF,0,0h  CHT:81,FC,0,0h
    jb      @@issbcs
    scasb
    ja      @@looknexttbl
;@@isdbcs:
    stc
    jmp     @@endscan
@@issbcs:
    clc
@@endscan:
    pop     bx
    pop     di
    pop     es
    ret
ischardbcs endp

そのはずだが、問題はこのコードをドライバーに組み込んで実行したとき、エミュレーター(86Box)では期待通りの結果が出るのに対し、実機では違う結果が出ることだ。実機でドライバーコードをデバッグするのは結構手間がかかる。原因はまだ判明していない。範囲は絞られたので、もう少しで分かると良いのだが。現状は見当がつかない。


※コメント欄が表示されない場合はdisqusについてJavascriptが有効であることを確認して下さい。コメントはスパム防止フィルターによる承認制のため、投稿してもすぐに反映されない場合があります。

管理人 : Akamaki (akm)

は、PCとVTuberに夢中になっている電気技術者です。

私はレトロコンピューティングの愛好家ですが、そのようなリグはもう収集していません。

私の活動はトップページで見ることができます。読んでくれてありがとう!