vt: properly support zero-width Unicode code points
authorNicolas Pitre <npitre@baylibre.com>
Thu, 17 Apr 2025 18:45:05 +0000 (14:45 -0400)
committerGreg Kroah-Hartman <gregkh@linuxfoundation.org>
Sat, 26 Apr 2025 09:22:03 +0000 (11:22 +0200)
Zero-width Unicode code points are causing misalignment in vertically
aligned content, disrupting the visual layout. Let's handle zero-width
code points more intelligently.

Double-width code points are stored in the screen grid followed by a white
space code point to create the expected screen layout. When a double-width
code point is followed by a zero-width code point in the console incoming
bytestream (e.g., an emoji with a presentation selector) then we may
replace the white space padding by that zero-width code point instead of
dropping it. This maximize screen content information while preserving
proper layout.

If a zero-width code point is preceded by a single-width code point then
the above trick is not possible and such zero-width code point must
be dropped.

VS16 (Variation Selector 16, U+FE0F) is special as it typically doubles
the width of the preceding single-width code point. We handle that case
by giving VS16 a width of 1 instead of 0 when that happens.

Signed-off-by: Nicolas Pitre <npitre@baylibre.com>
Reviewed-by: Jiri Slaby <jirislaby@kernel.org>
Link: https://lore.kernel.org/r/20250417184849.475581-4-nico@fluxnic.net
Signed-off-by: Greg Kroah-Hartman <gregkh@linuxfoundation.org>
drivers/tty/vt/vt.c
include/linux/consolemap.h

index bcb508bc15ab970e036fab03df13a50b785eede7..a989feffad5e97a655e9e8590f4c237160b0b7b2 100644 (file)
@@ -443,6 +443,15 @@ static void vc_uniscr_scroll(struct vc_data *vc, unsigned int top,
        }
 }
 
+static u32 vc_uniscr_getc(struct vc_data *vc, int relative_pos)
+{
+       int pos = vc->state.x + vc->vc_need_wrap + relative_pos;
+
+       if (vc->vc_uni_lines && in_range(pos, 0, vc->vc_cols))
+               return vc->vc_uni_lines[vc->state.y][pos];
+       return 0;
+}
+
 static void vc_uniscr_copy_area(u32 **dst_lines,
                                unsigned int dst_cols,
                                unsigned int dst_rows,
@@ -2905,6 +2914,60 @@ static bool vc_is_control(struct vc_data *vc, int tc, int c)
        return false;
 }
 
+static void vc_con_rewind(struct vc_data *vc)
+{
+       if (vc->state.x && !vc->vc_need_wrap) {
+               vc->vc_pos -= 2;
+               vc->state.x--;
+       }
+       vc->vc_need_wrap = 0;
+}
+
+#define UCS_VS16       0xfe0f  /* Variation Selector 16 */
+
+static int vc_process_ucs(struct vc_data *vc, int c, int *tc)
+{
+       u32 prev_c, curr_c = c;
+
+       if (ucs_is_double_width(curr_c))
+               return 2;
+
+       if (!ucs_is_zero_width(curr_c))
+               return 1;
+
+       /* From here curr_c is known to be zero-width. */
+
+       if (ucs_is_double_width(vc_uniscr_getc(vc, -2))) {
+               /*
+                * Let's merge this zero-width code point with the preceding
+                * double-width code point by replacing the existing
+                * whitespace padding. To do so we rewind one column and
+                * pretend this has a width of 1.
+                * We give the legacy display the same initial space padding.
+                */
+               vc_con_rewind(vc);
+               *tc = ' ';
+               return 1;
+       }
+
+       /* From here the preceding character, if any, must be single-width. */
+       prev_c = vc_uniscr_getc(vc, -1);
+
+       if (curr_c == UCS_VS16 && prev_c != 0) {
+               /*
+                * VS16 (U+FE0F) is special. It typically turns the preceding
+                * single-width character into a double-width one. Let it
+                * have a width of 1 effectively making the combination with
+                * the preceding character double-width.
+                */
+               *tc = ' ';
+               return 1;
+       }
+
+       /* Otherwise zero-width code points are ignored. */
+       return 0;
+}
+
 static int vc_con_write_normal(struct vc_data *vc, int tc, int c,
                struct vc_draw_region *draw)
 {
@@ -2915,8 +2978,9 @@ static int vc_con_write_normal(struct vc_data *vc, int tc, int c,
        bool inverse = false;
 
        if (vc->vc_utf && !vc->vc_disp_ctrl) {
-               if (ucs_is_double_width(c))
-                       width = 2;
+               width = vc_process_ucs(vc, c, &tc);
+               if (!width)
+                       goto out;
        }
 
        /* Now try to find out how to display it */
@@ -2995,6 +3059,8 @@ static int vc_con_write_normal(struct vc_data *vc, int tc, int c,
                        tc = ' ';
                next_c = ' ';
        }
+
+out:
        notify_write(vc, c);
 
        if (inverse)
index caf079bcb8c993cdeaa527f2d86505491f9caed3..7d778752dcefba74ccdc244cb2351ceca699d67e 100644 (file)
@@ -29,6 +29,11 @@ u32 conv_8bit_to_uni(unsigned char c);
 int conv_uni_to_8bit(u32 uni);
 void console_map_init(void);
 bool ucs_is_double_width(uint32_t cp);
+static inline bool ucs_is_zero_width(uint32_t cp)
+{
+       /* coming soon */
+       return false;
+}
 #else
 static inline u16 inverse_translate(const struct vc_data *conp, u16 glyph,
                bool use_unicode)
@@ -63,6 +68,11 @@ static inline bool ucs_is_double_width(uint32_t cp)
 {
        return false;
 }
+
+static inline bool ucs_is_zero_width(uint32_t cp)
+{
+       return false;
+}
 #endif /* CONFIG_CONSOLE_TRANSLATIONS */
 
 #endif /* __LINUX_CONSOLEMAP_H__ */