数据丢失怎么拯救
在电脑的使用过程中,经常会遇到一些有惊无险的事,譬如软件设置错误、系统感染病毒、文件意外删除等等都会导致我们电脑中的数据损坏或丢失。如果上天还给你一个机会,你知道怎么去拯救这些重要数据吗?来来来,看下面就清楚了。
不幸之一:误格式化、误删除引起的数据丢失。
在这种情况下,只要你没有向丢失数据所在的分区上写入新的数据,那么利用数据恢复软件对数据恢复的成功率很高,恢复率接近100%。但如果你最开始是使用的专业的数据删除软件来删除数据,且反复删除覆盖了数据,那么这些数据基本上是无望恢复了。
不幸之二:由病毒引起的数据丢失。
由于病毒破坏硬盘的方式实在太多,而且大部分破坏都无法用一般软件轻易恢复,所以……碰到病毒破坏硬盘的情况你就祈祷吧,恢复数据的成功率大约只有30%。
不幸之三:分区表丢失/出错。
因感染病毒盘符突然消失、无法打开盘符,或被人为操作将分区表丢失,如从新分区、合并、转换、扩缩、工作过程中突然断电导致分区表丢失等等。一般人为操作所导致的数据丢失100%都可以恢复。如果你备份了分区表,那么恢复数据的成功率就会大大地提高了(参见E3、E5)。
不幸之四:系统重装或误“Ghost”后数据丢失。
这类问题一般由于已经写入数据覆盖掉源文件,恢复率不如人意,大约只有30%。
不幸之五:操作时断电引起的数据丢失。
这类的数据恢复要视情况而定,如果数据没有保存,而且所使用的程序不具备自动保存功能,一般难以恢复。像Office XP以上版本的程序,一般会自动备份,自动恢复。
数据丢失了该怎么办?
条件反射之一:如果你没有安装数据恢复软件,那么在数据丢失后,千万不要在硬盘上再进行其他读写操作。不要在硬盘上安装或存储任何文件和程序,否则它们就会把要恢复的文件覆盖掉,给数据的恢复带来很大的难度,也影响到修复的成功率。
特别提醒:在安装Windows系统时就应该安装好数据恢复软件,并在出现文件误删除后立刻执行恢复操作,这样一般可以将删除的文件恢复回来。
条件反射之二:如果丢失的数据在系统分区,那么请立即关机,把硬盘拿下来,挂到别的电脑上作为第二硬盘,在上面进行恢复操作。如果你的数据十分重要,尤其是格式化后又写了数据进去的,最好不要冒险自己修复,还是请专业的数据恢复公司来恢复。
条件反射之三:在修复损坏的数据时,一定要先备份源文件再进行修复。如果是误格式化的磁盘分区、误删除的文件,则建议先用Ghost克隆误格式化的分区和误删除文件所在的分区,把原先的磁盘分区状态给备份下来,以便日后再次进行数据恢复。
数据恢复利器
现在有很多数据恢复软件都各有特点,数据恢复率也有所差异。这里就介绍一些典型的数据恢复软件,供大家各取所需。
软件名:FinalData2.1v
特点:不但能恢复本机误删除文件,还能恢复网络上其他计算机的数据。
软件名:File Scavenger
特点:它是NTFS分区数据恢复高手,还提供了找寻文件类型功能。
软件名:Recover My Files
特点:可以恢复由于冒失删除的文档,甚至是磁盘格式化后的文件恢复工具,它可以自定义搜索的文件夹、文件类型。
软件名:Search and Recover
特点:可以恢复Outlook等邮件程序中删除的邮件信息。附带一个安全删除工具和一个驱动器映像工具,可以对某一驱动器进行克隆。
软件名:OnBelay
特点:是一款多功能的数据拯救工具,能够拯救图像、照片、数字电影等文件。
软件名:Acronis Recovery
特点:除了支持FAT16、FAT32、NTFS分区外,还支持HPFS、Linux Ext2、Ext3、ReiserFS、Linux Swap等分区,支持大硬盘。
软件名:FindBack
特点:能进行数据恢复、被删文件的修复、系统恢复、硬盘恢复、注册表恢复、修改注册表、自动备份并能清除病毒、蠕虫和木马。
软件名:PC Inspector Smart Recovery
特点:独特的数码设备存储器数据恢复工具,支持主流的数码设备存储器,能快速恢复误删的图片、影片和声音文件。
实战数据恢复
1、从格式化的分区中恢复文件
恢复数据的软件很多,有FinalData、EasyRecovery、DataRecovery、PC Inspector File Recovery等,这里笔者推荐EasyRecovery,成功率比较高,扫描速度也快。
软件名:EasyRecovery Professional
启动EasyRecovery Professional,点击“Data Recovery”,在右边的界面点击“FormatRecovery”,然后在弹出的对话框中选择被格式化的分区,按“Next”。硬盘便开始狂读(狂读的时间视你被格式化的分区大小而定,EasyRecovery扫描笔者的一个40GB分区就花了近半小时),扫描搜索完成后,就会罗列出搜索到的文件,你可以在上面找到你要恢复的文件,然后点击“Next”选择你所希望恢复的文件的保存位置(保存的位置千万不要选择被格式化的分区,一定要选择其他的分区,以免覆盖掉源文件)。之后直接点击“Next”,软件就会自动进行恢复了,恢复完成后点击弹出对话框的Done按钮退出。
对于利用Ghost克隆分区时误操作,覆盖错分区的情况,也可以利用此法进行修复,不过修复的成功率很低,读者朋友可要有心理准备。
2、恢复由病毒感染、非正常关机引起的数据损坏
这种情况下,你可以启动EasyRecovery Professional,点击“Data Recovery→Deleted Recovery”选项,在打开的数据恢复对话框中选择丢失/误删除数据所在的分区。
在默认情况下,EasyRecovery Professional将对所选的分区执行一次快速扫描,使用已存在的目录结构查找已删除的目录和文件。如果文件损坏的症状很严重,那么你要选中“Complete Scan”执行完全扫描。扫描完成后,你所要做的就是找到你的数据,尽情恢复就是了。利用这种方法,还可以恢复U盘的数据。
3、修复Office文件、OE邮件
启动EasyRecovery Professional后,点击“File Repair”键。它的内容还挺丰富,有修复Mdb文件的“Access Repair”、修复XLS文件的“Excel Repair”、修复PPT文件的“PowerPoint Repair”、修复DOC文件的“Word Repair”和修复ZIP压缩文件的“Zip Repair”等。
它们的使用方法大同小异。这里就以修复Word的DOC文件为例加以说明,选中“Word Repair”,在弹出的对话框上点击“Browse for File”按钮找到想要修复的DOC文件。然后点击“Next”,稍等一会儿,EasyRecovery Professionaly就会在损坏文件所在目录下生成文件名为“修复的文件的文件名_BAK”的恢复文件。
小贴士:在修复相应的文件前,大家要记住关闭相应的程序。比如修复XLS文件,要记住关闭Excel。同时还要记住备份受损的文件。如果还是修复不了的时候,就可以用别的修复程序来进行修复,如专业的Word文件修复工具DocRepair。
4、误删相片不用愁
随着数码相机的普及,用数码相机拍照带来的问题越来越多,譬如误执行删除操作或者数码相机电池不足等情况就会导致DC中存储卡的相片丢失。鉴于此,这里笔者有必要向大家介绍一味“后悔药”──MediaRecover。
软件名:MediaRecover
MediaRecover的使用很简单,首先将你的存储卡插入读卡器,然后启动MediaRecover,点击Recovery,在右边的界面选择读卡器的盘符,然后点击“Next”按钮进入下一步,设置恢复的相片的存放位置,设置好就点击“Next”进入扫描界面,点击“Start”按钮后,稍等一段时间,它就会帮你把丢失、误删除/格式化的相片给救回来。
小贴士:如果你发现你的相片丢失或者误删除、误格式化,请立即把存储卡从数码相机上取出来,不要使用这张存储卡来存储新拍摄的相片,以免将有用数据的簇占满导致相片的恢复难度加大。
5、拯救光盘中的数据
CD、CD-RW、CD-R、DVD光盘是我们平时最常见、常用的移动存储介质,但如果我们因为保存不当或因为潮湿、划伤造成光盘无法被光驱读取,你可以试试使用BadCopy Pro。
软件名:BadCopy Pro
请将不容易读/拷贝出来的光盘放进去,启动BadCopy Pro后,选中程序主界面左边的“CD-ROM CD-RW/DVD”,然后在左边的驱动器列表中选择相应的光驱,选择文件读取后,将所要读取的数据备份出来就OK。
小贴士: Recovery Mode下拉菜单中有三个选项,如果你的光盘损坏情况不是那么严重,你可以选择第一个选项“Rescue Corrupted Files”,恢复速度快;损坏严重的话可以选择第二或第三个选项。除了拯救光盘的数据外,它还可以拯救软盘、ZIP/JAZ/MO磁盘、数字媒体CF/SM/MMC卡的数据。
面向神经机器翻译的篇章级单语修正模型
作者 | 刘辉
单位 | 东北大学
刘辉,东北大学自然语言处理实验室2018级研究生,研究方向为机器翻译。
东北大学自然语言处理实验室由姚天顺教授创建于 1980 年,现由朱靖波教授、肖桐博士领导,长期从事计算语言学的相关研究工作,主要包括机器翻译、语言分析、文本挖掘等。团队研发的支持140种语言互译的小牛翻译系统已经得到广泛应用。
《面向神经机器翻译的篇章级单语修正模型》[1]是EMNLP2019上一篇关于篇章级神经机器翻译的工作。针对篇章级双语数据稀缺的问题,这篇文章探讨了如何利用篇章级单语数据来提升最终性能,提出了一种基于目标端单语的篇章级修正模型(DocRepair),用来修正传统的句子级翻译结果。
1、背景
近几年来,神经机器翻译迅速发展,google在2017年提出的Transformer模型[2]更是使得翻译质量大幅提升,在某些领域已经可以达到和人类媲美的水平[3]。然而,如今的大部分机器翻译系统仍是基于句子级的,无法利用篇章级的上下文信息,如何在机器翻译过程中有效利用篇章级信息是当今的研究热点之一。
随着基于自注意力机制的Transformer模型在机器翻译任务中广泛应用,许多之前基于循环神经网络(RNN)机器翻译模型的篇章级方法不再适用。最近,许多研究人员尝试对Transformer进行改进,在编码或解码阶段引入上下文信息。Voita等人[4]首先提出了一种基于Transformer的模型(图1)的篇章级翻译模型,在传统的模型之外,额外增加了一个上下文编码器(context encoder)用来编码上下文信息,然后和当前句子的编码结果进行融合,送到解码器。张嘉诚等人[5]采用了另外一种做法,分别在编码器和解码器中增加了一个上下文注意力(context attention)子层(图2)用来引入上下文信息。还有一些研究人员尝试使用二阶段(two-pass)模型的方式[6][7],首先进行句子级解码,然后使用一个篇章级解码器结合句子级解码结果和源语上下文编码来进行篇章级解码。此外,一些工作对篇章级翻译需要引入那些上下文信息进行了探究。
上述工作在机器翻译的过程中引入上下文信息,将篇章级翻译作为一个整体过程。这种方式建模更加自然,但是需要足够的篇章级双语数据进行训练。然而,实际中篇章级双语数据很难获取,作者就是针对篇章级双语数据稀缺的问题提出了DocRepair模型。
2、DocRepair模型
和二阶段的方法类似,DocRepair模型也是对句子级结果的修正,但是不同点在于,DocRepair模型仅仅需要使用单语数据。作为一个单语的序列到序列模型(seq2seq)模型,DocRepair模型需要将上下文不一致的句子组映射到一个一致的结果,来解决上下文的不一致性,过程如图2。
模型的训练语料来自于容易获取的篇章级单语语料。单语数据中上下文一致的句子组作为模型输出,而通过round-trip的方式构建的上下文不一致的句子组作为模型输入。round-trip分为两个阶段,需要正向和反向两个翻译系统。首先使用反向的翻译模型将目标端的篇章级单语数据翻译到源语端,得到丢失了句子间上下文信息的源语结果,然后通过正向的翻译模型将源语结果翻译回目标端,得到最终需要的上下文不一致的目标端数据,整体流程如图3所示。
DocRepair模型采用了标准的Transformer结构(图4),模型输入为不包含上下文信息的句子序列,通过一个分隔令牌连接成一个长序列,模型输出为修正后的上下文一致的序列,去掉分隔令牌得到最终结果。
作者提出的这种结构可以看作一个自动后编辑系统,独立于翻译模型,最大的优点就在于只需要使用目标端单语数据就能构造训练集。相对应的,这种方法引入了额外的结构,增加了整体系统的复杂度,使得训练和推理代价变大。同时,由于仅仅在目标端根据翻译结果进行修正,完全没有引入源语端的信息,DocRepair模型可能没有充分考虑到上下文信息。之前的一些工作也证实了源语端上下文信息在篇章级机器翻译中的作用,如何利用源语端的单语数据来更好地提取上下文信息也是未来一个值得研究的方向。
3、实验
为了验证方法的有效性,作者从BLEU、篇章级专用测试集和人工评价三个角度进行了对比实验。实验在英俄任务上进行,数据集使用了开放数据集OpenSubtitles2018。
表1是DcoRepair的对比实验结果。其中,baseline采用了Transformer base模型,CADec[7]为一个两阶段的篇章级翻译模型。同时,为了验证DocRepair模型在篇章级翻译上有效性,而不仅仅是因为对句子进行后编辑使得翻译质量提升,同样训练了一个基于句子级的repair模型。可以看到,DocRepair在篇章级机器翻译上是有效的,比sentence-level repair模型高出0.5 BLEU,同时对比baseline和CADec有0.7 BLEU的提升。
人工评价使用了来自通用测试集的700个样例,不包含DocrePair模型完全复制输入的情况。如表2所示,52%的样例被人工标注成具有相同的质量,剩余的样例中,73%被认为DocrePair输出更有优势,同样证实了模型的有效性。
为了分析DocRepair对篇章级翻译中特定问题的有效性,作者在专为英俄篇章级翻译现象构造的数据集[9]上进行了验证,结果如表3。deixis代表了句子间的指代问题,lex.c表示篇章中实体翻译的一致性问题,ell.infl和ell.VP分别对应了源语端中包含而目标语端不存在的名词形态和动词省略现象。
在指代、词汇选择和名词形态省略问题中,DocRepair具有明显优势,而在动词省略问题中,DocRepair模型对比CADec低了5百分点。可能的原因是DocRepair模型仅仅依赖于目标端单语,而采用round-trip方式构造的训练集中很少包含动词缺失的样本,使得模型很难做出正确预测。
为了验证单语数据的局限性,作者在DocRepair模型上进行了不同数据构造方式的对比实验,结果如表4。one-way表示拿双语数据中的源语替换round-trip的第一步反向过程。可以看出,one-way的方式要整体高于round-trip方式,而其中对于round-trip方式最难的问题就是动词省略。
4、总结
这篇工作提出了完全基于目标端单语的DocRepair模型,用来修正机器翻译结果,解决篇章级不一致性。同时对DcoRepair在具体篇章级问题中的性能进行了分析,指出了仅仅依赖于单语数据和round-trip的构造方式的局限性。
以往的工作大多关注于在解码过程中如何融合上下文信息,但是性能往往受限于篇章级双语数据的稀缺。这篇工作为我们提供了一个新思路,可以避免双语数据稀缺的问题,但是也引出了一个新的问题。篇章级翻译的目标是解决传统句子级翻译中丢失句子间上下文信息的问题,而在这种后编辑的方法中,仅仅使用了目标端的一组没有上下文一致性的翻译结果就可以通过单语修正模型获得一致性的结果,缺乏对源语的关注。笔者认为,在双语稀缺的情况下,如何更好的引入源语上下文信息也是一个有趣的问题。
参考文献
[1] Voita, Elena, Rico Sennrich, and Ivan Titov. "Context-Aware Monolingual Repair for Neural Machine Translation." arXiv preprint arXiv:1909.01383 (2019).
[2] Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems. 2017.
[3] Hassan, Hany, et al. "Achieving human parity on automatic chinese to english news translation." arXiv preprint arXiv:1803.05567 (2018).
[4] Voita, E., Serdyukov, P., Sennrich, R., & Titov, I. (2018). Context-aware neural machine translation learns anaphora resolution. arXiv preprint arXiv:1805.10163.
[5] Zhang, J., Luan, H., Sun, M., Zhai, F., Xu, J., Zhang, M., & Liu, Y. (2018). Improving the transformer translation model with document-level context. arXiv preprint arXiv:1810.03581.
[6] Xiong, H., He, Z., Wu, H., & Wang, H. (2019, July). Modeling coherence for discourse neural machine translation. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 33, pp. 7338-7345).
[7] Voita, E., Sennrich, R., & Titov, I. (2019). When a Good Translation is Wrong in Context: Context-Aware Machine Translation Improves on Deixis, Ellipsis, and Lexical Cohesion. arXiv preprint arXiv:1905.05979.
雷锋网编辑
相关问答
word无法读取此文档,文档可能已损坏 请尝试下列方法:*打开并...别急,让我给你一根救命稻草,它就是Word文件的救星——DocRepair。软件名称:DocRepair软件版本:2.10软件平台:WindowsXP/2000/Me/98/95/NT软件授...
word没法读取此文档,文档可能已损坏 请尝试下列方法:*打开并...不要着急,让我来给您一些帮助-Office文件救星——DocRepair。软件名称:DocRepair软件版本:2.10软件平台:WindowsXP/2000/Me/98/95/NT软...
我用word打开文档,发现没有适合的文本编码,请问如何解决编...打开的时候选用utf8或GBK两种,一般都能打开,或者就选用Unicode再不行发过来我给你探测一下1、在计算机桌面上的Word2016文档程序图标双击鼠标左键,...
word文档的宏打不开,被禁用,是怎么回事?-ZOL问答⑥在“保存类型”中,单击“Word文档(*.doc)”,然后单击“保存”。⑦关闭文档,然后重新打开刚创建的DOC格式文件。Word文档与RTF的互相转化将保留文档的格...
下载了一个很大的文档,用word打不开,怎么处理-ZOL问答用修复软件,如DocRepair。有用(0)回复m287808222你需要把系统改成64位的...现在32位的系统处理大文件处理不了有用(0)回复dsvbzlgscnqt正常的文档过分...
百度文档用什么软件打开,我把百度文档保存到电脑上的时候,就...用修复软件,如DocRepair。,1.可能是低版本打开高版本。或者是格式不相同。,2.文档损坏了。,解决办法:,有用(0)回复不要用迅雷下载,直接点击下载此文档...
公司的WORD,EXCEL是加密的,拷贝或传送出去打开都是乱码,怎么...用修复软件,如DocRepair。,1.可能是低版本打开高版本。或者是格式不相同。,2.文档损坏了。,解决办法:,有用(0)回复a502487381专%业解%密,专门对付此种...
如何解决Word打开时“请挑选使文档可读的编码”的提示-ZOL问答用修复软件,如DocRepair。文档损坏了!只能试试一些方法了http://hi.baidu.com/cjcms/blog/item/6328afefec28c51cfcfa3c4f.html...
【解决】后缀.ceb文件怎么转换为word文档?-ZOL问答用修复软件,如DocRepair。,1.可能是低版本打开高版本。或者是格式不相同。,2.文档损坏了。,解决办法:,有用(0)回复其实你说的是把word转换为pdf格式...
rtf格式用word打开全是乱码怎么处理?-ZOL问答用修复软件,如DocRepair。,1.可能是低版本打开高版本。或者是格式不相同。,2.文档损坏了。,解决办法:,有用(0)回复应该是错误的文件名吧,只有.DOCX为后...