Unicode转换为字符串会留下前导字节顺序标记

人气：388 发布：2022-10-16 标签： character-encoding c# byte-order-mark unicode c#-3.0

问题描述

在.NET 3.5 C#应用程序中，我正在将Unicode编码的字节数组转换为字符串。

字节数组如下：

{255, 254, 85, 0, 83, 0, 69, 0}

使用Encoding.Unicode.GetString(var)，我将字节数组转换为字符串，它返回：

{65279 '', 85 'U', 83 'S' , 69 'E'}

前导字符65279似乎是Zero Width No-Break Space，它在Unicode编码中用作字节顺序标记，它的出现在我的应用程序的其余部分中造成了问题。

目前我使用的解决方法是var.Trim(new char[]{'uFEFF','u200B'});，工作正常。

但真正的问题是，GetString不应该注意删除字节顺序标记吗？或者我在转换字节数组时做错了什么？

推荐答案

否，GetString()不应删除物料清单。BOM实际上是一个完全有效的Unicode字符(之所以选择它，是因为如果它出现在Unicode文件的中间，例如，如果该文件是多个Unicode文件串联的结果，则它不会影响呈现的文本)，并且必须与byte[]中的所有其他字符一起进行解码。

唯一应该解释和过滤BOM的代码应该是理解数据来自某个持久性存储的代码，例如StreamReader。请注意，只有当您不禁用该行为时，它才会执行此操作。

GetString()要做的就是解释实际的编码字符，并将它们转换为它们表示的文本(当然，在C#中，字符串在内部存储为UTF16，所以当原始数据已经在UTF16：)中时，几乎不需要进行转换。

上一篇：淡入/淡出图像的最佳方式

下一篇：基于策略的授权，仅允许作为资源所有者...

最近更新

为什么没有为UNCalendarNotificationTrigger触发本地通知 2023-01-03
SwiftUI-为什么我的TabBar忽略了init()中的设置颜色方法？ 2023-01-03
IOS画外音功能随捆绑包标识符而变化 2023-01-03
选项卡栏中间的选项卡角外 2023-01-03
将UIView控制器推送到UITabBar上方 2023-01-03
Apple App Loader/iTunes Connect问题(Apple ID无权访问iTunes Connect&) 2023-01-03
将Formik与打字稿(离子)配合使用 2023-01-03
在Formik中设置单选按钮组的初始值 2023-01-03
如何在Formick中使用REACTION数字格式 2023-01-03
使用&lt；Field数组/&gt；中的自定义组件，通过表单&lt；字段/&gt；设置&lt；Textfield/&gt；的值。 2023-01-03
Redux在Reaction中添加了另一个Aray内的对象数组 2023-01-03
两种情况在什么时候在YUP中反应 2023-01-03
当Formik表单更改时更新另一个组件 2023-01-03
Formik验证正在提交/isValiating未设置为True 2023-01-03
基于另一个字段值的必填字段-Formik，Yup 2023-01-03
如何使用Formik调用onChange中的两个函数 2023-01-03
YUP：验证可以为空的字符串数组 2023-01-03
如何防止Enter键触发提交 2023-01-03
使用Formik的Reaction验证最大范围 2023-01-03
材质用户界面切换按钮-选中时不能更改背景颜色 2023-01-03
使用Formik和YUP的Reaction-Date Picker：未在第一个模糊时验证日期值，而不是.Required() 2023-01-03
YUP/Formik带去反跳的异步验证 2023-01-03
对多个值进行YUP验证 2023-01-03
使用Formik、Yup和Reaction进行异步验证 2023-01-03
使用YUP检查字符串或数字长度的验证 2023-01-03
如何在Formik中禁用提交时的自动重置表单？ 2023-01-03
更新Formik表单上的初始值属性不会更新输入值 2023-01-03
如何在YUP异步验证中设置动态错误消息？ 2023-01-03
Formik+Yup：如何在提交前立即验证表单？ 2023-01-03
有两个相关字段的YUP验证 2023-01-03