幫我把語音內容,轉換成逐字稿,且呈現有:時間軸、說話腳色與談話內容,並在每個時間之前都「換型」,這樣我比較好閱讀。
輸出可參考以下格式:
00:00:00 女:XXX
00:00:05.31 南:XXX